人类是使用工具的大师。从用锤子钉钉子到用铲子翻煎饼,通过物体扩展我们的身体能力是人类的一个显著特征。然而,对于机器人来说,这仍然是一个巨大的障碍。虽然机器人已经精通简单的拾取和放置操作,但动态工具使用——需要理解工具、物体以及它们之间的交互——要复杂得多。
传统上,教机器人这些技能涉及遥操作 (远程控制机器人) 或使用专门的手持抓手来收集数据。这些方法通常缓慢、昂贵,并且会导致动作生硬、不自然。
但是,如果机器人仅仅通过观察人类就能学会呢?
在论文 “Tool-as-Interface: Learning Robot Policies from Observing Human Tool Use” 中,来自伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校和哥伦比亚大学的研究人员提出了一个新的框架。他们的方法允许机器人直接从人类使用工具的视频中学习稳健的操作策略,绕过了对昂贵硬件或繁琐遥操作的需求。

两大鸿沟: 具身与视角
要从人类视频中学习,机器人必须克服两个基本的差异,通常称为“鸿沟”:
- 具身鸿沟 (Embodiment Gap) : 人类用手行动;机器人用抓手和机械臂行动。机器人不能简单地复制人类手臂的关节角度,因为它们的身体结构在机械上是不同的。
- 视角鸿沟 (Viewpoint Gap) : 记录人类演示的相机角度可能与机器人在部署时看到的相机角度不同。此外,在现实世界中,相机会抖动和移动。
作者提出了一个巧妙的解决方案: 工具即接口 (The Tool-as-Interface) 。 系统不再关注手臂或手,而是关注工具。由于人类和机器人都刚性地握持同一工具,工具就成了任务的公共接口。如果机器人能让工具相对于任务像人类那样移动,那么握持它的手臂的“具身”就不那么重要了。
“工具即接口”框架
研究人员开发了一个旨在可扩展的流程,使用低成本相机 (如智能手机) 而不是昂贵的深度传感器或动作捕捉服。该框架由几个关键阶段组成: 3D 重建、增强、具身分割和特定的动作表示。

1. 3D 重建与增强
该过程始于使用两个标准 RGB 相机收集数据。为了在没有深度传感器的情况下理解场景的空间关系,团队利用了一个名为 MASt3R 的基础模型。该模型从立体图像中重建场景的 3D 点云。
这项工作的一个主要贡献是他们处理视角鸿沟的方式。他们使用一种称为 3D 高斯泼溅 (3D Gaussian Splatting) 的技术来合成新视图。本质上,他们利用 3D 重建并生成不同视角的“伪”相机角度。通过在这些变化的视图上训练机器人,策略变得对相机移动具有鲁棒性。机器人学会了即使相机移动或抖动,任务也是一样的。
2. 通过分割弥合具身鸿沟
即使我们关注工具,训练数据中人手 (以及测试数据中机械臂) 的视觉存在也会混淆学习模型。模型可能会错误地将人类皮肤的纹理与任务的成功联系起来。
为了解决这个问题,研究人员使用了具身分割 (Embodiment Segmentation) 。 他们采用视觉模型 (Grounded-SAM) 在训练期间识别并掩盖人手,在部署期间掩盖机械臂。这确保了机器人的策略仅依赖于工具和物体交互的视觉信息,有效地使数据“与具身无关”。
3. 以工具为中心的动作表示
机器人如何知道往哪里移动?该框架在任务空间 (Task-Space) 中定义动作。
传统方法可能会计算工具相对于相机或机器人基座的位置。然而,如果相机移动或机器人基座晃动,这些计算就会失效。相反,该框架计算工具相对于任务坐标系的变换。
这种关系在数学上定义为:

这里,\(T_{tool}^{task}\) 代表工具在任务空间中的运动。这种表示对于相机的位置或机器人的形态是不变的。
在部署期间,机器人利用其基座、任务和工具之间的已知关系计算必要的末端执行器 (抓手) 位置:

这种坐标系设计对于鲁棒性至关重要。它允许机器人即使基座在晃动或相机被碰撞,也能执行正确的工具运动。

付诸实践: 真实世界实验
研究人员使用机械臂 (Kinova Gen3 和 UR5e) 在五个截然不同且具有挑战性的任务上评估了他们的框架:
- 钉钉子 (Nail Hammering) : 需要高精度以击中一个小目标。
- 舀肉丸 (Meatball Scooping) : 在受限的碗中处理可变形物体。
- 颠锅 (Pan Flipping) : 一项高度动态的任务,需要速度和动量 (翻转鸡蛋、面包和小肉饼) 。
- 红酒平衡 (Wine Balancing) : 将瓶子插入酒架;需要精度并处理几何约束。
- 踢足球 (Soccer Ball Kicking) : 击打移动目标 (动态拦截) 。

性能 vs. 基线
结果令人信服。“工具即接口”方法明显优于通过遥操作 (使用 SpaceMouse 或 Gello 等设备) 训练的传统模仿学习方法。
在像颠锅这样的动态任务中,遥操作方法被标记为“不可行 (Not Feasible) ”,因为人类操作员根本无法足够快或足够自然地控制机器人来产生翻转鸡蛋所需的动量。然而,从自然人类视频中学习的机器人实现了很高的成功率。

团队还将他们的方法与名为 UMI 的最先进手持抓手系统进行了比较。虽然 UMI 很有效,但它需要专门的硬件。在钉钉子任务中,“工具即接口”方法仅用 180 秒的数据收集就达到了 100% 的成功率,而在相同的数据量下 UMI 完全失败 (需要 4 倍的数据才能成功) 。

鲁棒性: “鸡头”效应
这项工作最令人印象深刻的结果之一是系统对干扰的适应能力。由于策略是使用增强视图训练的,并在任务空间中计算动作,因此它非常稳定。
研究人员通过在操作过程中物理晃动相机和机器人基座来测试这一点。
- 相机抖动: 尽管视觉输入抖动,机器人仍能准确地钉钉子和舀肉丸。
- 基座晃动: 当机器人基座被晃动时,末端执行器自然地进行补偿,以保持工具相对于任务的稳定。作者将其比作 “鸡头稳像 (Chicken Head Stabilization) ” 效应,即鸟在身体移动时保持头部完全静止。

这种鲁棒性也延伸到了人类干扰。在实验中,人类在中途移动钉子或将新肉丸扔进场景中。机器人能够即时适应,无缝跟踪新位置。

为什么人类数据更好
论文的很大一部分致力于分析为什么这种方法比遥操作更好。答案在于数据的质量。
人类的动作自然流畅且高效。当我们使用工具时,我们会本能地使用适当的力度和速度。相比之下,遥操作往往受到延迟和远程控制机械臂的“脱节感”的困扰。
如下图轨迹比较所示,由“工具即接口”策略 (蓝色) 生成的路径平滑且直接。在机器人遥操作数据 (灰色) 上训练的策略则抖动且不稳定。

效率与成本
最后,“工具即接口”框架极其便宜且快速。它不需要专门的硬件——只需要相机和工具本身。
- 时间: 与遥操作相比,钉钉子的数据收集速度快了 73% 。
- 失败: 遥操作经常导致数据收集期间的碰撞或安全停止。人类演示则完全没有这些问题。


结论
“工具即接口”框架代表了机器人操作领域向前迈出的重要一步。通过承认人类是工具使用方面的专家,并找到一种弥合人机之间视觉和物理鸿沟的方法,这项研究开启了一条教机器人复杂技能的可扩展路径。
我们无需为每一种新工具构建昂贵的控制装置或编写复杂的代码,也许很快就能通过让机器人先看我们做一遍,来教会它们烹饪、清洁或建造。

](https://deep-paper.org/en/paper/2504.04612/images/cover.png)