1.行业简介

2024 年人形机器人最具突破性的进展主要体现在具身智能领域:3 月11 日,Covariant 发布端到端具身大模型RFM-1,3 月12 日具身智能创业团队Sergey Levine 和Chelsea Finn 宣布创立Pi(Physical Intelligence),3 月13 日Figure AI 发布接入OpenAI GPT-4V 的操作演示Figure 01 demo。4 月,李飞飞创立World Labs,致力于发展 AI 的空间智能,以解决AI 在三维空间感知和理解方面的难题。5 月5 日,特斯拉Optimus 发布一则视频,Optimus 在工厂里精准分拣特斯拉电动车4680 电池,Optimus 使用完全端到端神经网络,利用2D 摄像头视频和机载自传感器,直接生成关节控制序列,完全靠视觉辅助和人类示范进行训练。

国内人形机器人产业硬件供应链优势明显,在具身智能、数据采集、人才领域的短板需要补齐。

图表1:人形机器人供应链

机器人的大脑——具身智能研究

资料来源:国泰君安证券研究

2.具身大模型:能够理解三维物理世界的模型

从物理空间的角度来划分,大模型可以分为非具身大模型(基础大模型)、具身智能大模型(机器人大模型),它们的区别是能否生成运动姿态。

图表2:具身智能大模型VS非具身智能大模型

机器人的大脑——具身智能研究

资料来源:国泰君安证券研究绘制

3.主流方案:分层端到端,典型代表Figure AI、银河

由于端到端大模型目前面对局限性,因此目前大多数的机器人公司都采取了分层端到端的方案,通过决策大模型和操作大模型的相互配合,分层端到端的方法需要的训练数据相对较少,能够完成各种新任务。多层端到端大模型的上层是多模态通用大模型,可以调度中间技能API,来实现完整的从任务的感知、规划到执行的全流程;中间层是决策大模型(任务/运动规划),通过数据训练的泛化的技能,包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能;底层是硬件驱动执行算法,实现机器人的平衡,实时精准的运控。

图表3:分层端到端大模型:从限定场景和任务到多样复杂场景和任务

机器人的大脑——具身智能研究

资料来源:国泰君安证券研究绘制

典型代表:Figure 02 采取了基于VLM 的分层大模型。在Figure 发布的演示中,Figure 01 能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动。

典型代表:银河通用采取三层大模型系统。底层是硬件层,中间层是些响应快小模型(如:三维感知、自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等),上层是用来做推理慢的做任务规划的大语言模型LLM。当得到指令,LLM 负责分析,安排调度哪个小模型API。小模型执行完后,LLM 分析结果,研究下一步该怎么做。

4.数据采集:具身智能最大的壁垒之一

机器人数据采集的方法有四种,目前主流的方法是远程操作和仿真:

1、远程操作:由实验人员操作机械手柄,远程控制机器人做出相同动作,

以此来积累数据。2024 年5 月5 日,Tesla Optimus 官方发布了新的 demo视频展示了Optimus Gen2 的最新进展,从视频中可以看到,Optimus Gen2的训练数据通过人类远程操作收集,并针对各种任务进行扩展。

2、仿真(合成数据):通过海量算力进行模拟运算,计算得出海量机器人训练数据集。仿真可能是目前最有可能做到规模化数据生成的路径,背后需要巨大的算力支持。目前Nvidia 采取的就是这条技术路径。Nvidia 选择远程操作+合成数据的技术路线,尤其强调仿真合成数据的重要性。2024 年3 月,英伟达在GTC 大会上推出了NIM(Nvidia InferenceMicroservices)云原生微服务,将过去几年开发的所有软件集成在一起,以简化和加速AI 应用的部署。在机器人NIM 服务领域,英伟达推出了MimicGen 和Robocasa 模型,通过生成合成运动数据和模拟环境,加速了机器人技术的研发和应用。MimicGen NIM 可根据 Apple Vision Pro等空间计算设备记录的远程操作数据,生成合成运动数据。RobocasaNIM 可在 OpenUSD (一个用于在 3D 世界中进行开发和协作的通用框架)中生成机器人任务和仿真就绪环境。

图表4:英伟达通过真人的遥操作数据捕获工作流整个过程

机器人的大脑——具身智能研究

资料来源:英伟达官网

目前还没有一个完全可以成熟部署应用的具身智能作业技术栈,国外主要还是开展大规模数据收集与训练,探索如何构建一个可以泛化应用的具身智能神经网络,比较典型的代表是Google RT1 机器人训练场。