引言
想象一下,你想教机器人倒一杯水或把盘子放进架子里。在一个理想的世界里,你只需要向机器人演示一次——也许是亲自做一遍——机器人就能立即理解并复制这项技能。
在现实中,教会机器人“灵巧操作” (使用多指手处理物体) 是出了名的困难。像模仿学习 (IL) 这样的传统方法通常需要数百次演示才能学到一个鲁棒的策略。此外,捕捉高质量的人手运动数据通常需要昂贵的可穿戴传感器或复杂的遥操作设备。
视频数据似乎是一个完美的替代方案。它便宜、可扩展且直观。然而,使用人手的视频来控制机械手会引入具身差异 (embodiment gap) 。 人类有软组织、五根手指和特定的关节限制;而机器人是刚性的,可能有三根或四根手指,运动方式也不同。试图用数学方法强迫机器人复制人类的确切手指动作,往往会导致笨拙且失败的抓取。
这就引出了一个迷人的新框架: HUMAN2SIM2ROBOT 。

如图 1 所示,该方法提出了一种新颖的流程,无需昂贵的设备或海量数据集。相反,它从单一的 RGB-D 视频演示中学习鲁棒的操作策略。通过结合人类演示的直觉和强化学习 (RL) 的试错能力,这种方法成功地跨越了人类和机器人身体之间的鸿沟。
在这篇深度文章中,我们将剖析 HUMAN2SIM2ROBOT 是如何工作的,为什么它放弃了完美动作复制的想法,以及它是如何实现向现实世界的零样本迁移的。
背景: 灵巧性的挑战
要欣赏这项创新,我们首先需要理解为什么这个问题如此困难。
模仿学习的局限性
模仿学习 (IL) 将机器人视为试图背诵老师动作的学生。如果你有一段人类的视频,你可以尝试提取每一帧的手部姿态,并使用逆运动学 (IK) 将其重定向 (retarget) 到机器人上。
然而,这种“逐帧”复制会因为两个原因而失败:
- 视觉存在噪声: 从 2D 视频中估计 3D 手部姿态容易出现抖动和误差,尤其是当手指被物体遮挡时。
- 形态不匹配: 即使有完美的追踪,对人手有效的轨迹对于机械手 (例如 Allegro 手) 来说可能在物理上是不可能的或不稳定的。
强化学习的前景
强化学习 (RL) 允许机器人通过实践来学习。机器人尝试一个动作,看看是否获得奖励,然后进行调整。RL 很棒,因为它允许机器人弄清楚如何使用它自己的身体来解决任务。
缺点是什么?RL 通常需要精心设计的奖励函数 (为每个特定任务用数学定义“成功”是乏味的) 和数百万个样本,这使得直接在物理硬件上训练变得不切实际。
混合解决方案
HUMAN2SIM2ROBOT 结合了两者的优点。它使用人类视频不是为了规定确切的动作,而是为了定义任务目标并提供一个起始提示。学习动作执行的繁重工作则留给物理模拟器中的 RL 来完成。
核心方法: 从视频到策略
该框架在一个“真实-模拟-真实” (Real-to-Sim-to-Real) 的循环中运行。过程始于现实世界中的人类演示,转移到数字孪生模拟中进行训练,最后将学到的策略部署回真实机器人。
研究人员发现,你不需要整个视频的高保真人类运动数据。相反,你只需要提取两样特定的东西:
- 物体姿态轨迹: 物体如何在空间中移动。
- 预操作手部姿态: 手在与物体交互之前的姿势。

让我们分解图 2 中可视化的流程。
1. 提取“做什么” (物体轨迹)
第一步是理解任务。系统不关注手指在做什么,而是关注物体。使用 Segment Anything Model 2 (SAM 2) 和 FoundationPose 等工具,系统提取视频每一帧中物体的 6D 姿态 (位置和方向) 。
这条轨迹成为了任务的“基本真值”。它定义了目标: “物体需要沿着这条特定路径从 A 点移动到 B 点。”这是一个以物体为中心的、与具身无关的奖励 。 无论你是用人手、爪子还是触手,如果物体沿着路径移动,任务就在被正确执行。
2. 提取“从哪里开始” (手部姿态)
虽然 RL 很强大,但从零开始搜索解决方案 (手在房间的任何地方开始) 是低效的。机器人需要一个提示。
系统识别预操作时刻——即物体开始移动之前的时间戳。它使用一种称为 HaMeR (Hand Mesh Recovery) 的模型从这单帧中提取人类手部姿态。
因为人和机器人的手是不同的,这个姿态必须被“重定向”。

如图 3 所示,重定向是一个两步的逆运动学 (IK) 过程:
- 手臂对齐: 移动机械臂,使其“手腕”与人类的手腕/指节位置对齐。
- 手指对齐: 机械手指关节运动,以匹配人类指尖的位置。
这提供了一个任务引导初始化。它将机器人置于一个模拟人类策略的“足够好”的起始位置,从而极大地加速了 RL 的探索阶段。
3. 基于模拟的策略学习
任务已定义 (沿此路径移动物体) ,起点已设置 (从手在这里开始) ,系统接着在模拟器 (Isaac Gym) 中构建环境的“数字孪生”。这只需要大约 10 分钟的人工来扫描物体和场景。
奖励函数
机器人的训练目标是最小化模拟中物体的当前姿态与视频中目标姿态之间的差异。
研究人员使用了一个聪明的锚点系统来计算这种差异。他们不是仅仅比较质心,而是在物体几何结构上定义了虚拟点 (\(k_i\)) 。

奖励函数定义如下:
\[ r _ { t } ^ { \mathrm { { \tiny ~ o b j } } } = \mathrm { e x p } \big ( - \alpha d ( T _ { \tau + t } ^ { \mathrm { t a r g e t } } , T _ { t } ^ { \mathrm { o b j } } ) \big ) , \quad \mathrm { w h e r e } \quad d ( T _ { 1 } , T _ { 2 } ) = \sum _ { i = 1 } ^ { N ^ { \mathrm { m e h o r } } } \big \| T _ { 1 } k _ { i } - T _ { 2 } k _ { i } \big \| , \]这个公式实际上是说: “通过使模拟物体的锚点与目标轨迹的锚点之间的距离 (\(d\)) 尽可能小,来最大化奖励。”
特定具身的学习
这里有一个关键的区别: 策略不会因为机器人使用手指的方式与人类不同而惩罚它。
一旦在预操作姿态初始化,机器人就可以自由地偏离人类的手指策略。RL 算法使用机器人自己的物理特性和碰撞几何形状来优化物体的稳定性和轨迹跟踪。这自动解决了具身差异问题。如果机器人需要比人类张得更开才能拿住一个盒子,RL 会学习这种策略,因为它能产生更高的奖励 (更好的物体跟踪) 。
4. 通过域随机化实现鲁棒性
为了确保策略在现实世界中有效 (Sim-to-Real) ,训练涉及广泛的域随机化 (Domain Randomization) 。
- 物理: 随机化摩擦力、物体质量和重力。
- 观测: 向物体姿态输入添加噪声 (模拟相机误差) 。
- 扰动: 在训练期间对物体施加随机力。
这训练出了一个基于 LSTM 的策略,该策略对噪声和物理干扰具有鲁棒性。
实验与结果
研究人员在真实的机器人装置上测试了 HUMAN2SIM2ROBOT: 配备 16 自由度 Allegro Hand 的 Kuka LBR iiwa 机械臂。他们使用 Intel RealSense 相机进行物体追踪。
任务套件
评估涵盖了一系列不同的任务,从简单的推送到复杂的多步骤操作。

如图 5 所示,任务包括:
- 抓取: 倒水壶。
- 非抓取操作: 推零食盒或盘子。
- 外在操作 (Extrinsic Manipulation) : 靠着墙旋转盒子。
- 多阶段: 旋转盘子,提起它,并将其放入架子。
与基线的比较
该方法与三种标准方法进行了比较:
- 回放 (Replay) : 开环回放重定向后的人类轨迹。
- 物体感知回放 (OA Replay) : 根据物体位置扭曲轨迹,但仍然只是回放动作。
- 行为克隆 (BC) : 在生成演示上训练的标准模仿学习技术。

图 6 中的结果非常明显。
- 回放方法在复杂任务上几乎全部失败。具身差异意味着盲目复制人类的角度会导致掉落物体或抓取失误。
- 行为克隆由于生成数据集中的噪声而举步维艰。
- HUMAN2SIM2ROBOT 实现了显著更高的成功率,比次优基线高出 55% 以上。
为什么有效? (消融研究)
研究人员进行了几项消融研究,以证明他们的特定设计选择是必要的。
1. 密集奖励的力量 他们将“物体姿态轨迹”奖励与更简单的奖励进行了比较,例如仅奖励机器人到达最终目标 (固定目标) 。

图 7 显示,跟踪完整轨迹 (Ours,蓝线) 至关重要。仅关注最终目标 (橙色) 的方法会陷入局部极小值——例如,试图直接抓取盘子,而不是先将其滑到桌子边缘。轨迹迫使机器人学习策略 (先滑,后提) ,而不仅仅是终点。
2. 良好初始化的必要性 预操作手部姿态真的需要吗?RL 不能从零开始自己弄清楚吗?

图 8 证实了初始化是关键。“默认初始化” (手在远处开始) 完全失败。即使是“头顶初始化” (盘旋在物体上方) 表现也很差,因为它使机器人偏向于自上而下的抓取,这可能对于特定任务 (如侧抓水壶) 是错误的。预操作姿态提供了必要的归纳偏置。
3. 忽略手部路径 有趣的是,研究人员尝试添加一个奖励,用于在整个运动过程中跟踪人类的手部轨迹 (不仅仅是开始时) 。

图 9 揭示了添加手部跟踪 (橙色) 实际上比仅关注物体 (蓝色) 减慢了学习速度。试图强迫机器人在复杂操作阶段模仿人手会限制 RL 智能体,使其无法找到最适合其自身具身的稳定抓取方式。
定性分析: 涌现的策略
HUMAN2SIM2ROBOT 最引人注目的方面之一是观察机器人开发出与人类演示不同的策略。

在图 13 所示的“盘子旋转-提起-放置”任务中,人类使用了机器人所没有的手指进行捏取。机器人从类似的位置开始,通过模拟学习到它需要用中指和食指“夹住”盘子才能安全地提起它。这种适应自然地从模拟的物理特性中涌现出来——这是严格模仿人类永远无法实现的。
在不同机器人上的部署
因为奖励是基于物体而非机器人的,所以这个框架是与具身无关的。研究人员展示了将相同方法转移到完全不同的硬件上的初步成功,例如 LEAP Hand 和 UMI 夹爪。

结论与启示
HUMAN2SIM2ROBOT 代表了机器人灵巧性向前迈出的重要一步。通过将重点从模仿动作转移到模仿效果 (物体轨迹) ,它优雅地避开了具身差异的难题。
主要收获:
- 效率: 它只需要一段视频演示和大约 10 分钟的设置,使其具有高度可扩展性。
- 鲁棒性: 通过在模拟中使用 RL,机器人学会了从错误中恢复并处理噪声,从而实现了零样本的现实世界迁移。
- 灵活性: 预操作姿态的使用刚好足以引导机器人开始学习,但也留出了足够的自由度让机器人根据自身的物理约束调整抓取方式。
这项工作表明,机器人教学的未来可能不在于完美的动作捕捉,而在于更清晰的任务规范。如果我们向机器人展示要达到什么目标,并给它一个关于如何开始的大致想法,现代强化学习就有能力解决剩下的问题。
](https://deep-paper.org/en/paper/2504.12609/images/cover.png)