引言: 机器人领域的数据瓶颈
我们正见证着人工智能的黄金时代,这一时代在很大程度上是由基础模型 (Foundation Models) 推动的。在自然语言处理 (NLP) 和计算机视觉 (CV) 领域,像 GPT-4 和 Gemini 这样的模型已经实现了令人惊叹的能力。它们的秘密武器是什么?互联网。这些模型是在从网络上抓取的数万亿个文本 token 和数十亿张图像上进行预训练的。
然而,有一个前沿领域,这个公式尚未完全奏效: 机器人技术 (Robotics) 。
虽然互联网上充满了物体的图像,但关于如何与其进行物理交互的数据却出奇地匮乏。一个展示某人拿起马克杯的视频,并不能告诉机器人复制该动作所需的精确关节扭矩、抓手宽度或 3D 轨迹。因此,大多数机器人的“视觉-语言-动作” (VLA) 模型依赖于通过遥操作 (teleoperation) 收集的现实世界数据——即由人类手动控制机械臂。这个过程缓慢、昂贵且劳动密集。
但是,如果我们根本不需要现实世界的数据呢?
这就是 GraspVLA 提出的问题,这是一篇引入机器人训练激进转变的新研究论文。研究人员提出完全基于合成动作数据 (synthetic action data) 来训练基础模型——即物理和渲染都由代码控制的仿真环境。

如图 1 所示,GraspVLA 是一个完全在十亿级合成数据集上预训练的抓取基础模型。它证明了只要有正确的架构和数据流程,机器人就可以学会在现实世界中操作物体,而在预训练期间从未见过现实世界。
在这篇深度解析中,我们将探索研究人员如何构建十亿帧的数据集,他们设计的新颖“渐进式动作生成”架构,以及当这个在仿真中训练的大脑被放入物理机器人身体时的惊人结果。
第一部分: SynGrasp-1B — 构建数据宇宙
合成训练的第一个障碍是“仿真到现实” (Sim-to-Real) 的差距。如果仿真看起来像 90 年代的低多边形视频游戏,机器人看到高清的现实世界时就会失败。此外,如果物理模拟稍有偏差,机器人可能会以为鸡蛋是刚性球体而将其捏碎。
为了弥合这一差距,作者策划了 SynGrasp-1B , 这是迄今为止最大的机器人抓取数据集。它包含超过 10 亿帧的数据。
数据生成流程
创建这个数据集不仅仅是运行模拟器;它需要一个复杂的流程来确保物体几何形状、视觉外观和抓取机制的多样性。

如图 2 所示,该流程由三个阶段组成:
- 物体资产与布局: 团队过滤了 “Objaverse” 数据集 (一个庞大的 3D 模型库) ,找到了 240 个类别中适合抓取的 10,680 个物体。然后,他们程序化地生成场景,将这些物体随机地成堆放置在桌子上。
- 抓取合成与轨迹生成: 他们没有让类人演示抓取,而是使用了算法。他们利用抓取合成算法找到持有物体的稳定方式,然后使用 CuRobo (一种 GPU 加速的运动规划器) 来计算无碰撞路径。
- *关键细节: * 为了防止机器人运动中经常出现的“犹豫”,他们优先考虑平滑、连续的轨迹,而不是标准抓取规划器典型的走走停停的动作。
- 视觉随机化: 这是欺骗机器人使其理解现实的关键。使用 Isaac Sim (一种逼真的模拟器) ,他们在渲染场景时随机化了一切: 照明 (点光源、定向光、穹顶光) 、纹理、摄像机角度和背景。
瞥见合成世界
结果是一个具有惊人视觉多样性的数据集。通过随机化纹理和照明,模型学会忽略无关的细节 (如桌子的颜色) ,并专注于目标物体的几何形状。

图 7 展示了数据集中 24 条随机轨迹。请注意,相同的机器人动作是在木纹、绿色毛毡、地毯图案和刺眼的照明条件下练习的。这种“域随机化” (domain randomization) 迫使神经网络学习能够在这个过渡到现实世界中幸存下来的鲁棒特征。
第二部分: GraspVLA 模型
如果没有一个足够智能的模型来从中学习,拥有十亿帧数据也是无用的。作者介绍了 GraspVLA , 这是一种结合了大型语言模型 (LLM) 的推理能力与机器人控制精度的架构。
核心问题: 泛化
如果你只在合成数据上训练机器人,它可能学会完美地抓取一个“合成苹果”。但如果你让它“拿起 iPhone”——这是模拟器中从未见过的物体类别——它就会失败。
为了解决这个问题,GraspVLA 创造了两种数据之间的协同效应:
- 合成动作数据 (Synthetic Action Data) : 提供关于如何抓取的几何知识 (例如,“如何将手指放置在扁平物体周围”) 。
- 互联网定位数据 (Internet Grounding Data) : 提供关于物体是什么的语义知识 (例如,将“iPhone”这个词与手机的视觉形象匹配) ,这些数据来源于 GRIT 等网络数据集。
渐进式动作生成 (PAG)
作者提出了一种称为渐进式动作生成 (Progressive Action Generation, PAG) 的机制。PAG 不尝试直接从图像跳转到电机指令,而是迫使模型分步骤“思考”,类似于高级 LLM 中使用的思维链 (Chain-of-Thought, CoT) 推理。

如图 3 所示,该过程如下运作:
- 输入: 模型接收一张图像和一条文本指令 (例如,“拿起充电器”) 。
- 第一步: 视觉定位 (边界框) : 视觉-语言模型 (VLM) 首先预测目标物体的 2D 边界框。
- 为什么? 这步可以由合成数据和互联网数据共同监督。它弥合了语义鸿沟。
- 第二步: 抓取姿态预测: 对于合成数据,模型接下来预测 6-DoF (六自由度) 抓取姿态——本质上是抓手最终需要到达的位置。
- 第三步: 动作生成: 最后,一个“动作专家”模块生成到达该姿态的具体手臂轨迹 (电机指令) 。
这一链条——找到它 \(\rightarrow\) 规划抓取 \(\rightarrow\) 移动——使模型能够将其从网络上学到的“寻找”技能迁移到在模拟中学到的“移动”技能上。
训练的数学原理
训练过程是一个多任务学习问题。损失函数结合了两个主要部分。
首先, 视觉-语言损失 (\(\mathcal{L}_{S2}\)) 处理推理步骤。这是一个针对边界框和抓取姿态的自回归损失 (预测下一个 token) :

其次, 动作损失 (\(\mathcal{L}_{S1}\)) 训练运动本身。作者使用了一种称为流匹配 (Flow Matching) 的技术,这是一种在此时优于简单扩散的现代生成方法,用于生成平滑的动作块 (\(\mathbf{A}_t\)):

通过最小化这些损失的总和,GraspVLA 学会了同时推理场景并执行平滑的动作。
第三部分: 实验结果
一个仅在矩阵 (模拟) 中训练的机器人能在现实世界中运作吗?作者将 GraspVLA 与最先进的模型 (如 OpenVLA、Octo 和 Google 的 \(\pi_0\)) 进行了测试。
零样本现实世界迁移
主要评估涉及真实的 Franka Emika Panda 机械臂。研究人员设置了 5 种不同的测试场景,涉及照明、背景和物体杂乱程度 (干扰物) 的变化。他们测试了模型在模拟中见过的物体 (“合成类别”) 和仅在网络上见过的全新物体 (“网络类别”) 。

结果总结在下表 1 中,令人瞩目。

关键结论:
- 超越真实数据模型: GraspVLA 在合成类别上达到了 93.3% 的成功率,在网络类别上达到了 93.3% 。 这大大超过了 OpenVLA (20%) 和 Octo (16.6%),甚至击败了微调后的 \(\pi_0\) 模型。
- PAG 的力量: 消融研究表明,如果没有渐进式动作生成 (中间的边界框和抓取姿态步骤) ,网络类别上的性能会显著下降。“思维链”使模型能够将其网络学到的语义知识应用到物理世界中。
缩放定律 (Scaling Laws)
基础模型的一个决定性特征是,当你给它们更多数据时,它们会变得更好。这适用于合成机器人数据吗?

图 5 证实了规模至关重要 。
- 合成类别 (橙线) : 性能迅速提高并在接近 90% 时饱和。
- 网络类别 (蓝线) : 这是最有趣的曲线。它最初扩展较慢,但随着数据量的增加而赶了上来。这证明了大规模合成预训练对于泛化到新颖的现实世界物体至关重要。
少样本适应 (Few-Shot Adaptation)
GraspVLA 最强大的功能之一是它的适应能力。如果你需要机器人执行训练集中没有的专门任务怎么办?
作者通过“后训练 (Post-Training) ”展示了这一点。他们用极少量的现实世界数据 (少样本学习) 针对三个特定任务微调了模型:
- 抓取稀有的工业零件。
- 拿起马克杯而不接触其内部 (卫生抓取) 。
- 在包装箱中按顺序抓取瓶子 (避免碰撞) 。


如表 4 所示,GraspVLA 适应迅速。对于“卫生马克杯”任务,它仅通过几次演示就学会了偏好,而基线模型则难以理解几何约束 (接触边缘/手柄 vs. 内部) 。
结论与启示
GraspVLA 代表了具身智能的一个重要里程碑。它挑战了机器人必须从现实世界中学习的普遍观点。通过生成十亿帧高保真合成数据并采用“渐进式动作生成”架构,作者创建了一个具备以下特征的模型:
- 可泛化: 它可以零样本处理新颖的物体和光照条件。
- 可扩展: 性能随合成数据量 (这是无限且廉价的) 线性提高。
- 可适应: 它可以针对特定的、细微的任务进行快速微调。
这预示着未来机器人的“大脑”将主要在云端、在海量模拟中进行预训练,然后再下载到物理身体中。“仿真到现实”的差距不再是无法逾越的峡谷,而是一条正被数据迅速填补的裂缝。
虽然 GraspVLA 专注于抓取,但该方法很可能扩展到更复杂的操纵任务,如折叠衣物或组装电子产品,为真正的通用机器人铺平道路。
](https://deep-paper.org/en/paper/2505.03233/images/cover.png)