引言
长期以来,机器人学家一直梦想着创造一种“通用机器人”——一种无需重新编程就能折叠衣物、做晚饭和整理车间的机器。最近,像 GPT-4 和 Gemini 这样的视觉语言模型 (VLMs) 让我们离这个现实更近了一步。这些模型拥有关于世界的丰富“常识”知识。它们可以看一眼凌乱的房间,然后告诉你需要清理什么。
然而,知道做什么与知道怎么做截然不同。
在机器人技术中,这就是高层规划 (决定拿起锅铲) 与低层推理 (确定抓取手柄的毫米级精确坐标,以免打翻锅) 之间的区别。虽然 VLM 在前者方面表现出色,但它们处理后者——即物理交互所需的精确、低层的空间推理能力——仍然是一个悬而未决的问题。
这正是 ManipBench 诞生的背景。这是南加州大学研究人员提出的一个新颖的基准测试。ManipBench 旨在严格评估 VLM 对机器人动作物理后果的理解程度。通过将复杂的操控任务转化为超过 12,000 个视觉多项选择题,作者首次全面审视了基础模型是否已准备好充当低层机器人智能体。

问题: 高层与低层之间的鸿沟
传统上,机器人是通过在大量物理运动数据集上训练的特定策略来进行编程的。然而,最近的趋势试图通过使用预训练的 VLM 来绕过这一数据瓶颈。如果一个模型已经看过数百万张杯子的图片,它肯定知道如何拿杯子吧?
未必。一个 VLM 可能能完美地描述一个“杯子”,但却无法识别机器人夹爪必须瞄准的特定“关键点” (坐标) 以安全地举起它。以前的基准测试测试过高层逻辑或物理知识 (例如,“这个物体易碎吗?”) ,但它们很少测试可执行机器人轨迹的生成。
ManipBench 通过专注于可供性预测 (affordance prediction) 填补了这一空白。它要求模型观察场景并识别特定的交互点——抓取点、放置位置和运动矢量——这些点构成了一个有效的机器人动作。
核心方法: 构建 ManipBench
研究人员精心策划了一个包含 12,617 个问题的大型数据集,涵盖了五类操控任务: 抓取-放置、铰接物体 (如抽屉) 、可变形物体 (如织物) 、工具使用和动态操控。
流程: 从原始数据到 VLM 问题
为了评估 VLM 控制机器人的能力,而不必为每个测试实际运行物理机器人 (这既慢又昂贵) ,作者设计了一个巧妙的视觉提示流程。
如下图所示,该过程始于来自真实机器人或模拟环境的原始数据。
- 场景捕捉: 捕捉工作空间的 RGB-D 图像。
- 预处理 (MOKA 风格) : 系统使用 GroundedSAM (Segment Anything Model) 等工具来检测物体。
- 标注: 在图像上绘制网格覆盖和特定的关键点 (标记为 \(p\_1, p\_2\) 等) 。
- 问题生成: 向 VLM 展示标注后的图像和一个提示词 (例如,“机器人应该抓取哪个点来打开抽屉?”) 。

这种方法有效地将机器人问题转化为视觉问答 (VQA) 问题,从而能够对数十个模型进行快速、大规模的评估。
数据来源与任务多样性
为了确保基准测试的稳健性,数据来自三个截然不同的来源:
1. 公共机器人操控数据集 (真实世界) 作者利用了像 DROID 和 Bridge 这样的数据集,其中包含了数千小时的真实机器人操作。他们提取了成功的轨迹,并要求 VLM 预测专家演示者使用的正确“抓取”和“放置”点。

2. 织物操控 (可变形物体) 机器人技术中最具挑战性的领域之一是处理像布料这样的可变形物体。织物的形状变化不可预测。ManipBench 将很大一部分问题专门用于此,测试特定的理解维度,例如:
- 织物状态: 布料是皱成一团还是平整的?
- 折叠逻辑: 必须移动哪个角才能对角折叠布料?
- 逆动力学: 如果我将点 A 拉到点 B,最终形状会是什么样?

3. 模拟 (铰接和动态任务) 对于难以在现实世界中重复设置的任务,作者转向了模拟环境。这包括与铰接物体 (如抽屉和橱柜) 的交互,以及需要物理直觉的动态任务,例如将球投进篮筐。

在模拟任务中,VLM 可能会被要求选择一个特定的矢量 (箭头) ,代表投掷篮球的正确力度和方向,或者选择正确的接触点以关闭抽屉而不卡住它。

实验与结果
研究人员评估了 10 个模型家族中的 33 个代表性 VLM,包括闭源巨头 (GPT-4o, Gemini-1.5/2.5) 和开源竞争者 (InternVL, Qwen-VL, LLaVA) 。
1. 总体性能趋势
结果凸显了显著的性能差异。不出所料,能力最强的闭源模型处于领先地位。
- Gemini-2.5-pro 在大多数类别中表现最佳,展示了强大的空间推理能力。
- GPT-4o 和 o1 也表现良好,但在特定的低层空间任务中通常略微落后于顶级的 Gemini 模型。
- 开源模型: 较大的开源模型如 InternVL2.5-78B 和 Qwen2.5-VL-72B 展示了令人印象深刻的结果,经常能与闭源专有模型相媲美。然而,较小的模型 (参数小于 7B) 非常吃力,通常表现接近随机猜测。
下表详细列出了模拟任务的性能。请注意变异性;例如,虽然 Gemini-2.5-pro 总体上占主导地位,但 Gemini-2.0-flash 实际上在“放置胡萝卜”任务中得分最高。

2. 空间推理中的缩放定律
论文的一个关键见解是模型大小与低层推理能力之间的关系。作者分析了开源家族 (InternVL 和 Qwen) ,发现了很强的相关性: 越大越好。
如下图中的缩放曲线所示,准确率随模型大小的对数呈线性增加,直到某一点 (“拐点”) ,之后收益递减但仍有增长。这表明低层物理推理是一种涌现能力,受益于大规模的训练数据和参数。

3. 织物操控深度剖析
织物操控被证明是一个微妙的挑战。下面的雷达图分解了不同推理维度的性能。
- 模型在空间推理 (识别角落) 方面表现尚可。
- 它们在织物-织物交互 (一块布如何影响另一块) 和逆动力学 (预测移动的结果) 方面更加吃力。
- 至关重要的是,最佳模型 (蓝/紫线) 与人类表现 (外层红线) 之间仍存在巨大差距,这表明虽然 VLM 很有前途,但它们尚不具备人类水平的物理直觉。

“真实”测试: ManipBench 能预测机器人成功率吗?
对于任何基准测试来说,最关键的问题是: 测试中的高分能否转化为现实世界的能力?
为了验证这一点,作者使用 UR5 机械臂进行了物理实验。他们设置了 7 个独特的操控任务,这些任务不属于题库的一部分。然后,他们使用 VLM 实时生成机器人的控制动作。
结果具有统计学显著性。他们发现,模型在 ManipBench 上的得分与其控制物理机器人的成功率之间存在极强的正相关关系 (皮尔逊系数为 0.889) 。

这种验证至关重要。这意味着研究人员可以自信地使用 ManipBench 作为代理指标来评估和改进他们的模型,然后再进行昂贵且耗时的真实机器人测试。
结论与未来影响
ManipBench 代表了具身智能迈出的关键一步。它将视觉语言模型的评估从抽象的聊天界面转移到了具体、可操作的空间推理上。
关键要点:
- VLM 具有潜力: 最好的模型在低层操控推理方面的表现明显优于随机猜测。
- 规模至关重要: 存在明显的缩放定律;较大的模型拥有更好的物理直觉。
- 人类差距: 当前最先进的模型仍然落后于人类表现,特别是在像织物操控和动态物理这样的复杂交互中。
- 有效代理: ManipBench 上的表现能强有力地预测现实世界的机器人能力。
对于进入该领域的学生和研究人员来说,这篇论文强调了虽然“基础模型”是强大的通才,但需要专门的基准测试来释放它们在机器人技术中的潜力。通用机器人的未来不仅依赖于更好的规划,还依赖于弥合低层、像素级精确推理的差距——ManipBench 现在帮助我们衡量这一差距。
](https://deep-paper.org/en/paper/2505.09698/images/cover.png)