简介
想象一下试图教机器人倒一杯茶。对于人类来说,这微不足道;我们直觉地知道要在把手上施加多大的压力,如何旋转手腕,以及如果茶壶感觉很重该如何调整。然而,对于机器人来说,这需要视觉、触觉和运动控制的复杂协调。
机器人技术的“圣杯”是灵巧操作 (Dexterous Manipulation) ——赋予机器人像人手一样多才多艺地处理物体的能力。但这里存在一个主要的瓶颈: 数据 。 要使用模仿学习 (通过演示进行教学) 来训练机器人,我们需要成千上万个成功执行任务的示例。
传统上,研究人员使用遥操作 (Teleoperation,通过操纵杆或 VR 控制器远程控制机器人) 来收集这些数据。但遥操作通常很笨重,缺乏触觉反馈 (你无法“感觉”到机器人的感觉) ,并且存在延迟。演示任务最自然的方式其实就是直接使用你自己的手。但这引入了具身差距 (Embodiment Gap) : 你的手在外观和移动方式上与机器人的金属爪子截然不同。如果你用人手的视频数据训练机器人,当它在测试中看到自己的手时,往往会因为视觉差异而失败。
这就轮到 DexUMI 出场了,这是由斯坦福大学、哥伦比亚大学和 NVIDIA 的研究人员提出的一个新框架。DexUMI (Dexterous Universal Manipulation Interface,灵巧通用操作接口) 提出了一个巧妙的解决方案: 将可穿戴外骨骼与先进的 AI 图像处理管道相结合。该系统允许人类自然地演示任务,同时将这些动作“翻译”成机器人能理解的语言。

在这篇文章中,我们将详细拆解 DexUMI 如何弥合人类直觉与机器人执行之间的差距。
核心问题: 具身差距
要将人手用作不同机器人的通用控制器,我们必须解决构成“具身差距”的两个截然不同的问题:
- 运动学差距 (“动作”差距) : 人类手指有特定的关节限制和长度。机器人手可能关节较少,手指长度不同,或者在人类有柔软皮肤的地方它是刚性部件。一个对人类来说很容易的动作,对特定的机器人来说可能在机械上是不可能的。
- 视觉差距 (“观测”差距) : 机器人主要通过视觉进行学习。如果机器人是基于显示肉色人手拿着苹果的视频数据训练的,但在测试时低头看到的是自己的金属手指,这种视觉分布的偏移通常大到足以让策略失效。
DexUMI 通过双管齐下的方法解决了这些问题: 用于修正动作的硬件适配 , 以及用于修正视觉的软件适配 。
第一部分: 硬件适配 (外骨骼)
DexUMI 没有使用通用的动作捕捉手套,而是使用了一种定制设计的、3D 打印的外骨骼。这种设计的精妙之处在于它针对目标机器人进行了专门的优化。
为“共享工作空间”而设计
研究人员意识到,为了使人类演示变得有用,人类指尖相对于手腕的位置必须与机器人指尖的位置一致。然而,简单地将机器人手的复制品安装在人手上是行不通的——机器人拇指的位置通常会与佩戴它的人手发生碰撞。
为了解决这个问题,团队开发了一个机构优化框架 。 他们将外骨骼设计视为一个数学优化问题。

如上图所示,优化调整了外骨骼的连杆长度和关节位置。目标是双重的:
- 匹配指尖工作空间: 确保当人类移动手指时,外骨骼产生的轨迹是机器人实际上可以复制的。
- 保持可穿戴性: 确保设备不会撞到用户的手,特别是活动范围很大的拇指。
在数学上,该系统试图最小化外骨骼的所有可能姿态集合 (工作空间) 与机器人手之间的差异。目标函数如下所示:

通俗地说,这个方程为外骨骼找到了最佳的物理尺寸,使得其运动能力 (\(W_{exo}\)) 与机器人的能力 (\(W_{robot}\)) 尽可能重叠,同时遵守保持设备可穿戴的约束条件。
传感器套件
与基于视觉的追踪器 (如相机观察裸手) 相比,使用物理外骨骼的一个主要优势是精度。相机可能会被遮挡或产生噪点,而机械连杆是精确的。
DexUMI 外骨骼包括:
- 关节编码器: 每个关节处的高精度电阻式传感器,用于捕捉精确的角度。
- 触觉传感器: 团队在外骨骼指尖安装了与机器人上存在的完全相同的触觉传感器。这意味着人类能感觉到物体,并且数据日志能捕捉到机器人稍后将经历的精确力觉轮廓。
- 手腕追踪: 安装在手腕上的 iPhone 负责追踪手在空间中的 6-DoF (6自由度) 姿态。
- 手腕相机: 一个广角相机 (OAK-1) 完全从机器人的视角捕捉视觉场景。

通过使用这种硬件,“运动学差距”得以弥合。人类在物理上被限制以机器人能够理解的方式移动,传感器则捕捉干净、精确的数据。
第二部分: 软件适配 (弥合视觉差距)
即使有了完美的动作数据,我们仍然面临视觉问题。相机记录的是一只戴着 3D 打印设备的人手,但机器人需要以其自身的外观进行操作。
DexUMI 使用一个强大的数据处理管道来解决这个问题,该管道在视频中“幻视”出机器人。这确保了 AI 策略是在与其部署时所见完全一致的图像上进行训练的。
以下是逐步过程,每一帧训练数据都会自动执行此过程:
- 分割 (Segmentation) : 系统使用 SAM2 (Segment Anything Model 2) 从视频帧中识别并抠出人手和外骨骼。
- 图像修复 (Inpainting) : 一旦手被移除,图像中就会出现一个空洞。系统使用 ProPainter (一种视频修复工具) ,基于前后帧来填充背景 (桌子、物体等) 。
- 机器人回放 (Robot Replay) : 由于外骨骼捕捉了精确的关节角度,系统会在真实的机器人手上 (不抓取物体) 重放这些角度,并在绿幕或纯背景下进行录制。这生成了该特定姿势下机器人手的完美图像。
- 合成 (Composition) : 最后,系统将“修复后的背景”与“机器人手部图像”合并。

遮挡挑战: 简单地将机器人手粘贴到背景上是不够的。如果手伸进罐子里怎么办?罐子应该遮挡住手指的视线。
DexUMI 通过计算掩膜 (Masks) 的交集来处理这个问题。它比较外骨骼曾经的位置 (来自原始视频) 和机器人手现在的位置。它只粘贴那些与原始动作可见部分重叠的机器人像素。这保留了自然的遮挡关系,使训练数据在物理上看起来很真实。
结果是一组看起来就像是机器人自己完美执行了任务的视频,尽管从头到尾都是人类在操作。

实验与结果
为了证明这一点的有效性,研究人员在两种截然不同的硬件上测试了 DexUMI:
- Inspire Hand (灵巧手) : 一种欠驱动手 (6 个主动电机控制 12 个关节) 。
- XHand: 一种全驱动手 (12 个主动电机) 。
他们尝试了四种从简单到复杂的现实世界任务:
- 方块拾取: 基础精度。
- 打开鸡蛋盒: 需要多指协调来解开锁扣并提起盖子。
- 采茶: 使用镊子 (工具) 移动茶叶的精细任务。
- 厨房任务: 一个长视距序列,包括转动旋钮、移动平底锅和撒盐。

成功率
该系统在所有任务中实现了令人印象深刻的 86% 平均成功率 。 这凸显了通过 DexUMI 收集的数据的鲁棒性。
关键发现: 相对动作 vs. 绝对动作
其中一个最有趣的技术发现是关于机器人应该如何理解动作。
- 绝对动作 (Absolute Action) : “将手指移动到位置 X。”
- 相对动作 (Relative Action) : “将手指比现在更闭合一点。”
实验表明, 相对动作要优越得多。由于传感器总是存在一些噪点,且机器人关节存在微小的机械差异 (反向间隙) ,绝对定位往往导致抓取动作不平稳或不准确。相对动作允许策略更具反应性——持续闭合手指直到发生接触,从而平滑了噪点。

关键发现: 触觉感知的作用
感觉物体有帮助吗?有的,但有一个限制条件。 在像“撒盐”这样的任务中,手会遮挡相机对碗的视线,触觉感知至关重要。机器人需要感觉到何时触碰到盐,才知道何时抓取。
然而,触觉传感器可能存在噪点。如果传感器数据发生漂移 (在没有受力时报告受力) ,它实际上会损害简单任务的表现。这表明触觉数据很强大,但需要高质量,并且应用于视觉不足的任务中。
效率: 它比遥操作更好吗?
团队将 DexUMI 与标准遥操作和直接人手数据收集进行了比较。虽然仅用裸手收集数据显然是最快的,但 DexUMI 的效率显著高于遥操作。

DexUMI 的吞吐量 (每 15 分钟的成功演示次数) 是遥操作的 3.2 倍 。 对于试图收集大规模数据集的研究实验室来说,这是一个巨大的收益。
结论
DexUMI 代表了机器人操作领域向前迈出的重要一步。通过承认人手是终极的“通用控制器”,研究人员搭建了一座将这种能力转移给机器人的桥梁。
该框架的优势在于其二元性:
- 硬件在利用人类运动控制精度的同时,尊重机器人的机械约束。
- 软件改变现实,使训练数据在视觉上对 AI 保持一致。
尽管仍存在局限性——必须为每个新的机器人手打印定制的外骨骼,且图像修复并不总是完美的——但 DexUMI 提供了一条可扩展的路径,通向最终能够处理我们要面对的复杂、灵巧世界的机器人。我们不再需要费力地用操纵杆教机器人倒茶,现在我们只需向它们展示该怎么做即可。
](https://deep-paper.org/en/paper/2505.21864/images/cover.png)