人手堪称工程学的奇迹。它拥有超过 20 个自由度、密集的触觉传感器和复杂的肌肉协同作用,使我们能够以优雅的姿态完成从穿针引线到捏碎汽水罐等各种任务。在机器人中复制这种灵巧性一直是机器人领域数十年来的“圣杯”级挑战。
虽然我们在计算机视觉和导航方面取得了巨大进步,但机器人操作——特别是使用多指灵巧手——仍然极其困难。解决这个问题最有希望的途径之一是从人类演示中学习。我们拥有海量的动作捕捉 (MoCap) 数据存储库,展示了人类与物体交互的过程。理论上,我们应该能够将这些数据输入给机器人,让它模仿这些行为。
然而,一个根本性的问题阻碍了这一进程: 具身差距 (embodiment gap) 。 机器人的手不是人手。它们的尺寸不同,关节限制不同,驱动机制也截然不同。试图强迫机器人严格复制人类的轨迹,往往会导致尴尬、不可能完成甚至失败的抓取动作。
在这篇文章中,我们将深入探讨 DEXPLORE , 这是一篇提出范式转变的新研究论文。DEXPLORE 不再强迫机器人严格复制人类动作,而是将人类演示视为“软参考 (soft references) ”,允许机器人探索并使其动作适应自身的物理身体。

严格模仿的问题
要理解为什么 DEXPLORE 是必要的,首先我们需要看看研究人员目前是如何通过人类数据教机器人的。标准的工作流程是一个多阶段的流水线:
- 重定向 (Retargeting) : 数学算法尝试将人类的关节角度映射到机器人的关节角度。
- 追踪 (Tracking) : 控制器尝试执行这些重定向后的角度。
- 校正 (Correction) : 添加残差学习来修复不可避免的误差。
这种方法有一个主要缺陷: 它假设重定向后的轨迹是“正确”的。但由于机器人的手与人手不同,一个对人类来说完美的抓取动作,对机器人来说可能在物理上是不可能的。如果重定向步骤引入了误差 (例如,拇指偏左了 1 厘米) ,那么无论下游的追踪控制器有多好,都注定会失败。误差会在每个阶段不断累积。
如下面的对比所示,标准的重定向方法经常迫使机器人做出不自然的姿态,从而导致任务失败,尤其是当机器人的自由度比人类少时。

DEXPLORE 解决方案: 参考范围探索
DEXPLORE 的研究人员提出了一种统一的单循环方法。他们不使用僵化的流水线,而是利用强化学习 (RL) ,其中人类演示仅作为向导,而非规则手册。
核心理念很简单: 保留意图,而非精确坐标。
该方法分为两个明显的阶段:
- 基于状态的模仿控制: 利用“特权”信息 (所有物体的精确位置) 学习如何操作。
- 基于视觉的生成式控制: 将这些知识蒸馏成一种策略,仅使用摄像头输入即可在真实机器人上运行。
让我们来拆解一下这个架构。

第一阶段: 从软参考中学习 (教师)
在第一阶段 (图 2,第 I 部分) ,机器人在物理仿真中进行训练。它可以访问物体及其自身手部的“真值 (ground truth) ”状态。
这里的创新在于参考范围探索 (Reference-Scoped Exploration, RSE) 。
在标准的强化学习中,机器人因精确匹配人类姿态而获得奖励。在 DEXPLORE 中,系统在参考轨迹周围创建了一个“范围”或“包络”。
- 训练早期: 范围很宽。只要机器人大致向正确的方向移动并尝试执行任务,就被允许显着偏离人类的动作。这鼓励了探索。机器人会发现: “嘿,我的拇指比人类短,所以我需要抓在这个瓶子更低一点的位置。”
- 训练晚期: 系统分析成功率。如果机器人成功了,范围就会收紧以鼓励精确性。如果失败,范围保持宽松以允许替代策略。
奖励函数是动态的。它在运动学匹配 (看起来像人类) 与能量效率 (动作平滑) 之间取得平衡。关键在于,随着手越来越接近物体,匹配奖励的权重会下降。这实际上是在告诉机器人: “在接近物体时看起来像人类,但一旦接触,就采取任何必要的手段来稳固地握住物体。”
这种单循环优化消除了对单独重定向步骤的需求。机器人隐式地学会了自己的重定向策略。
第二阶段: 走向视觉 (学生)
一个需要每个物体顶点的精确 GPS 坐标的策略在现实世界中是毫无用处的。真实的机器人依赖于摄像头,而摄像头会受到遮挡 (手挡住了物体) 和噪声的影响。
为了解决这个问题,研究人员将第一阶段的策略蒸馏为基于视觉的生成式策略 (图 2,第 II 部分) 。这是一个“教师-学生”的设置。
- 输入: 学生策略接收来自单个摄像头的深度图像 (点云) 和机器人自身的关节角度 (本体感觉) 。
- 架构: 他们使用了条件变分自编码器 (CVAE) 。
- 该模型将复杂的操作行为编码进一个潜在技能空间 (Latent Skill Space) 。
- 策略不是输出单一的僵化动作,而是从这个潜在空间中进行采样。
这个潜在空间非常强大。它代表了一个“操作概念”库。因为该模型是生成式的,它可以处理不确定性。如果摄像头视野被遮挡,模型可以根据学到的潜在技能推断出最可能成功的动作。
如下图所示,这种生成式方法允许机器人通过基于其学到的技能来生成缺失的数据,从而处理新颖的物体和以前从未见过的抓取几何形状。

多样化且鲁棒的操作
学习潜在技能空间最有趣的副作用之一是多样性。因为策略不是在死记硬背一条路径,它可以生成多种抓取同一物体的有效方法。
在下面的可视化中,我们可以看到机器人的“想象力”。潜在空间允许它为初始接触采样不同的有效姿态,从而产生多种操作风格,但都能实现相同的目标。

实验结果
DEXPLORE 团队在仿真和真实硬件上都广泛验证了他们的方法。
仿真性能
他们在 GRAB 数据集上测试了该方法,该数据集包含全身人类抓取数据。他们将 DEXPLORE 与 DexTrack 和 AnyTeleop 等最先进的基线方法进行了比较。
结果总结在下表 1 中,令人瞩目。
- 成功率: DEXPLORE 使用 Inspire 手实现了 87.7% 的成功率,而 DexTrack 结合 AnyTeleop 仅为 7.4%。
- 追踪误差: 即使允许 DEXPLORE 偏离参考 (较高的运动学误差) ,它也实现了明显更好的任务成功率。这验证了严格追踪往往导致任务失败的假设。

硬件无关性
一个鲁棒的算法不应依赖于特定的机器人手。作者证明了 DEXPLORE 适用于完全不同的形态。他们在 Allegro Hand (拥有 4 个手指和 16 个自由度) 和 Inspire Hand (拥有 5 个手指但只有 6 个主动执行器,即欠驱动) 上进行了测试。
该方法成功适应了两者,证明了“参考范围探索”无论硬件限制如何,都能找到针对特定具身的解决方案。

现实世界部署
最后,终极测试是在现实世界中。团队在配备 Inspire 手和 Femto Bolt 深度相机的 XArm-7 机器人上部署了基于视觉的策略。
该设置 (如下图所示) 在推理过程中没有使用任何动作捕捉标记。机器人完全依赖其深度相机和学到的策略。

现实世界的实验突出了几个方面的鲁棒性:
- 可变形物体: 机器人成功抓取了一块布,这是一种非刚性物体,在仿真中很难完美模拟。
- 重/大物体: 该策略泛化到了比训练集中更大、更重的物体上。


结论
DEXPLORE 代表了机器人控制策略的成熟。我们正在从僵化的“剧本式”方法——机器人盲目遵循预先记录的路径——转向一种更自然的、以意图为驱动的方法。
通过将人类演示视为软引导而非硬约束,DEXPLORE 允许机器人跨越具身差距。它赋予了机器人自主性,去弄清楚如何使用它们特定的身体来实现类似人类的目标。此外,通过将这种能力蒸馏到基于视觉的生成模型中,该研究为机器人在非结构化的现实世界环境中操作提供了一条可扩展的路径。
随着我们展望通用家政机器人的未来,像参考范围探索这样的技术对于帮助机器适应为人手设计的世界将至关重要。
](https://deep-paper.org/en/paper/2509.09671/images/cover.png)