引言
想象一下把一把厨房刀递给朋友。你会本能地握住刀刃或刀背,把刀柄递给他们。现在,想象你要切胡萝卜。你会紧紧握住刀柄。最后,想象你在洗这把刀;你可能会捏住刀柄的最末端,以便用沾满肥皂的海绵去擦洗刀刃。
是同一个物体——一把刀——但你握持它的方式会根据你的意图发生剧烈变化。
在机器人技术中,这就是面向任务的抓取 (Task-Oriented Grasping, TOG) 的核心问题。多年来,机器人抓取主要关注稳定性: 找到一种确保物体不会滑落或掉下的抓握方式。虽然稳定性是先决条件,但对于有用的操作来说还不够。如果机器人抓住了杯子的杯口,它就没法往里面倒水。如果它抓住了喷雾瓶的喷嘴,它就没法按下扳机。
虽然人类可以毫不费力地将语言指令 (“给我倒点茶”) 映射到物理可供性 (抓住把手) ,但机器人却难以跨越这种语义鸿沟。现有的数据集往往太小、太简单,或者依赖于像预分割点云这样的受限设置。
GraspMolmo 应运而生,这是艾伦人工智能研究所 (PRIOR) 的研究人员及其合作者提出的一种新方法。这篇论文介绍了一个流程,利用大型视觉-语言模型 (VLMs) 的语义推理能力,并将其落地于物理动作中。这项工作的核心是创建了 PRISM , 这是一个海量的合成数据集,不仅教机器人如何抓取物体,还教它们为什么要这样抓。

在这篇文章中,我们将拆解 GraspMolmo 论文,探讨合成数据如何解决现实世界的语义问题,如何弥合语言与几何之间的鸿沟,以及该模型如何在机器人操作中取得最先进的结果。
背景: 为什么仅有稳定性是不够的
要理解 GraspMolmo 的重要性,我们需要先看看机器人抓取领域的现状。
以物体为中心 vs. 面向任务
大多数抓取方法都是以物体为中心 (Object-Centric) 的。它们看着一把螺丝刀,计算出一个与质心或平面重合的夹持点。这对于“料箱抓取” (把物品从 A 箱移动到 B 箱) 来说很棒,但在杂乱、非结构化的家庭环境中,当机器人是助手而不仅仅是搬运工时,这种方法就失效了。
面向任务的抓取 (TOG) 提出了一个后续问题: “我们要用这个物体做什么?”这需要理解可供性 (Affordances) ——即物体的功能属性 (例如,把手提供了提起的可能性,按钮提供了按下的可能性) 。
数据瓶颈
TOG 面临的最大障碍是数据。训练神经网络需要成千上万个示例。在以前的工作中,像 TaskGrasp 这样的数据集提供了一些基准,但它们存在以下问题:
- 简单性: 指令通常是僵化的模板,如“grasp [noun] to [verb]” (抓住[名词]去[动词]) 。
- 缺乏真实感: 场景很简单,缺乏现实世界的杂乱和光照变化。
- 传感器依赖: 许多模型依赖于融合点云 (3D 数据) ,这计算量大且容易产生噪声,而不是直接使用标准的 RGB-D 相机图像。
GraspMolmo 通过从根本上改变数据的生成方式和模型的学习方式来解决这些问题。
核心方法: PRISM 和 GraspMolmo
研究人员的解决方案是一个两部分的系统。首先,他们构建了一个名为 PRISM (Purpose-driven Robotic Interaction in Scene Manipulation,场景操作中的目标驱动机器人交互) 的大规模数据引擎。其次,他们利用这些数据微调了一个最先进的视觉-语言模型 Molmo 。
1. PRISM: 大规模生成合成数据
这篇论文的关键见解是,收集每一个可能的“物体-任务-抓取”组合的人工标注在数学上是不可能的。如果你有成千上万个物体和成千上万个潜在任务,组合数量将爆炸式增长到数百万。
作者没有采用人工标注,而是设计了一个程序化流程来生成合成数据。如下图所示,该过程从生成场景开始,到生成任务,最后将它们匹配在一起。

步骤 A: 场景引擎
团队从 ShapeNet-Sem 的 3D 资产开始,涵盖了 91 个物体类别 (如杯子、刀具、平底锅和工具) 。使用一个名为 SceneSynthesizer 的工具,他们程序化地生成了 10,000 个独特的场景。
至关重要的是,他们不仅仅是把物体扔在桌子上。他们随机化了一切:
- 光照: 强度、色温和阴影。
- 相机角度: 每个场景 10 个不同的视点,以模拟机器人可能从不同高度或角度接近桌子的情况。
- 杂乱: 物体周围环绕着“干扰物”——那些不属于任务一部分但使场景逼真且具有挑战性的物品。
步骤 B & C: 语义桥梁
这是方法论中最具创新性的部分。如何在不雇佣大量标注员的情况下,用自然语言任务标注数十万次抓取?
作者使用 抓取描述 (Grasp Descriptions) 作为桥梁。
- 从物体到描述: 他们使用了 ACRONYM 数据集,其中包含 3D 网格的数学上稳定的抓取。他们将这些抓取的图像输入给 GPT-4o,并要求它从物理角度描述抓取。例如: “抓取点在茶杯的边缘。手指捏住了内表面和外表面。” (见下图) 。

从任务到描述: 分别地,他们要求一个 LLM (大型语言模型) 为特定物体生成任务。对于一个杯子,它可能会生成“倒咖啡”或“把它递过来”。然后 LLM 被问到: “为了完成这个任务,应该如何抓取物体?”LLM 会生成所需抓取的描述。
匹配: 最后,他们使用 GPT-4o 将 任务描述 与 物理抓取描述 进行匹配。
通过将任务与几何解耦并使用语言作为连接器,他们显著降低了问题的复杂性。这一过程使他们能够生成 379,000 个样本 , 涵盖了像“切点蒜末”这样多样化的自然语言指令,而不仅仅是“抓住刀”。

提高多样性: 跨实例采样
他们数据生成中一个微妙但重要的细节是他们如何选择抓取。如果你只为一个特定的杯子选择最稳定的抓取,它们可能都会聚集在把手周围。如果你对每一个杯子都这样做,你的模型就会过拟合到特定的把手形状上。
作者引入了 跨实例抓取采样 (Cross-Instance Grasp Sampling) 。 他们对齐相似的物体 (例如,所有的钻机) ,并采样覆盖该类物体整个几何形状的抓取,而不仅仅是特定实例。这确保了数据集包含多样化的抓取——有的在把手上,有的在电池包上,有的在钻头上——为不同的任务提供了所需的多样性。

2. 模型: 微调 Molmo
有了 PRISM 数据集,研究人员转向了模型架构。他们选择了 Molmo , 这是一个开放权重的视觉-语言模型 (VLM) 。VLMs 预先在大量的互联网数据上进行过训练,使它们对物体 (识别“马克杯”与“碗”) 具有强大的基准理解能力。
然而,标准的 VLMs 不知道如何抓取。研究人员在混合数据上微调了 Molmo,包括:
- PRISM-Train: 他们创建的合成数据集。
- TaskGrasp-Image: 来自旧数据集的现实世界图像,转换为 RGB-D。
- 通用 VLM 数据: 防止模型遗忘通用知识 (灾难性遗忘) 。
机制: 指向可供性
GraspMolmo 并不直接输出运动指令。相反,它将抓取视为一个指向 (pointing) 问题。
- 输入: 一张 RGB 图像和一条文本指令 (例如,“把花从花瓶里拿出来”) 。
- 处理: VLM 处理场景和文本。
- 输出: 模型预测图像上对应于理想抓取点的一个特定 2D 像素坐标 。
从像素到 6-DoF 抓取
图像上的 2D 点对于机械臂来说是不够的;机器人需要一个 6自由度 (6-DoF) 的位姿 (x, y, z 位置加上旋转) 。
为了弥补这一差距,系统使用了一个独立的 抓取提议网络 (Grasp Proposal Network) (一个标准的稳定抓取生成器) 。
- 生成器为场景中的物体提出许多稳定的抓取建议。
- 这些 3D 抓取被投影到 2D 图像平面上。
- 系统选择几何上最接近 GraspMolmo 预测的 2D 点的候选抓取。
这种混合方法允许 GraspMolmo 专注于语义 (我应该抓哪里?) ,同时利用成熟的方法处理几何 (这个抓取稳定吗?) 。
实验与结果
GraspMolmo 的评估非常严格,在仿真环境、现有基准测试以及至关重要的真实物理机器人上进行了测试。
1. 仿真基准测试
作者创建了一个名为 PRISM-Test 的新评估集。该集包含训练期间从未见过的物体和类别。这测试了真正的泛化能力——机器人能理解如何拿“水罐”,即使它只接受过“马克杯”的训练吗?
结果显示性能差距巨大。在极具挑战性的 PRISM-Test 上,GraspMolmo 达到了 62.5% 的成功率,而次优基线 (GraspGPT) 仅为 40.0% 。
2. 现实世界迁移
仿真结果很有希望,但“虚实迁移 (sim-to-real) ”的差距在机器人领域是出了名的。合成渲染的图像看起来很少像真实的相机画面。
研究人员将 GraspMolmo 部署在现实家庭环境设置中的 Franka FR3 机械臂上。他们搭建了包含法式压滤壶、刀具和杯子的厨房柜台等场景。

定量结果令人震惊:
- 预测成功率: 70.4% (GraspMolmo) vs. 35.2% (GraspGPT)。
- 执行成功率: 61.1% (GraspMolmo) vs. 24.1% (GraspGPT)。
一个具体的定性例子突显了这种差异。在任务“把花倒出来”中,机器人需要抓住花瓶底部将其翻转。
- GraspMolmo: 正确瞄准了花瓶底部。
- GraspGPT: 抓住了花朵本身 (语义错误) 。
- Molmo (Base): 未能指向一个连贯的物体。
3. 相关性发现
这篇论文有趣的科学贡献之一是对基准的分析。作者绘制了模型在合成 PRISM-Test 上的表现与其在现实世界中表现的关系图。

如上图 (右侧) 所示,PRISM-Test 上的表现与现实世界的成功几乎完美相关 (\(R^2=0.96\)) 。相比之下,旧的 TaskGrasp 基准 (左侧) 在预测现实世界实用性方面表现不佳。这验证了 PRISM 不仅是一个训练集,也是未来研究的一个可靠基准。
4. 零样本双臂抓取
在一个类似“还有件事 (One more thing) ”风格的展示中,作者展示了 GraspMolmo 允许零样本双臂抓取。这意味着使用双手完成任务,例如拧开瓶盖。
虽然该模型是在单臂抓取上训练的,但其语义理解能力使其能够分别回答左臂和右臂的提示。例如,给定指令“打开瓶子”,系统可以识别出一只手应该握住瓶身 (稳定性) ,另一只手应该拧动瓶盖 (操作) 。这种能力是从模型的训练中自然涌现出来的,无需显式的双臂数据。
结论与启示
GraspMolmo 代表了让机器人成为人类环境中得力伙伴的重要一步。通过从纯几何稳定性转向拥抱语义理解,机器人可以开始解释模糊的人类指令,如“给我做个沙拉”或“把这个清理干净”。
这项工作的成功在很大程度上依赖于 PRISM 。 它证明了如果多样性足够高,高质量、大规模的合成数据可以弥合通往现实的差距。“仿真到现实”的迁移并非通过使仿真在像素级完美逼真来实现的,而是通过使语义和变化足够丰富,以至于现实世界看起来只是训练数据的另一种变体。
关键要点:
- 语境至关重要: 稳定的抓取并不总是正确的抓取。
- 合成规模: 程序化生成 + LLMs 可以创造出人工标注无法企及规模的训练数据。
- VLM 落地: 微调视觉-语言模型以输出 2D 点是将语言落地于物理动作的有效方法。
- 更好的基准: PRISM-Test 提供了比以往标准更准确的现实世界机器人性能预测。
随着作者发布 PRISM 数据集和 GraspMolmo 代码,我们可以期待新一波的研究,将机器人推向离僵化、预编程的工厂更远,离我们家庭中混乱、开放的现实更近的地方。
](https://deep-paper.org/en/paper/2505.13441/images/cover.png)