简介

想象一下试图教机器人倒一杯茶。对于人类来说,这微不足道;我们直觉地知道要在把手上施加多大的压力,如何旋转手腕,以及如果茶壶感觉很重该如何调整。然而,对于机器人来说,这需要视觉、触觉和运动控制的复杂协调。

机器人技术的“圣杯”是灵巧操作 (Dexterous Manipulation) ——赋予机器人像人手一样多才多艺地处理物体的能力。但这里存在一个主要的瓶颈: 数据 。 要使用模仿学习 (通过演示进行教学) 来训练机器人,我们需要成千上万个成功执行任务的示例。

传统上,研究人员使用遥操作 (Teleoperation,通过操纵杆或 VR 控制器远程控制机器人) 来收集这些数据。但遥操作通常很笨重,缺乏触觉反馈 (你无法“感觉”到机器人的感觉) ,并且存在延迟。演示任务最自然的方式其实就是直接使用你自己的手。但这引入了具身差距 (Embodiment Gap) : 你的手在外观和移动方式上与机器人的金属爪子截然不同。如果你用人手的视频数据训练机器人,当它在测试中看到自己的手时,往往会因为视觉差异而失败。

这就轮到 DexUMI 出场了,这是由斯坦福大学、哥伦比亚大学和 NVIDIA 的研究人员提出的一个新框架。DexUMI (Dexterous Universal Manipulation Interface,灵巧通用操作接口) 提出了一个巧妙的解决方案: 将可穿戴外骨骼与先进的 AI 图像处理管道相结合。该系统允许人类自然地演示任务,同时将这些动作“翻译”成机器人能理解的语言。

DexUMI 概览: 一张合成图像,展示了 XHand 和 Inspire-Hand 执行倒茶和处理食物等多种任务。

在这篇文章中,我们将详细拆解 DexUMI 如何弥合人类直觉与机器人执行之间的差距。

核心问题: 具身差距

要将人手用作不同机器人的通用控制器,我们必须解决构成“具身差距”的两个截然不同的问题:

  1. 运动学差距 (“动作”差距) : 人类手指有特定的关节限制和长度。机器人手可能关节较少,手指长度不同,或者在人类有柔软皮肤的地方它是刚性部件。一个对人类来说很容易的动作,对特定的机器人来说可能在机械上是不可能的。
  2. 视觉差距 (“观测”差距) : 机器人主要通过视觉进行学习。如果机器人是基于显示肉色人手拿着苹果的视频数据训练的,但在测试时低头看到的是自己的金属手指,这种视觉分布的偏移通常大到足以让策略失效。

DexUMI 通过双管齐下的方法解决了这些问题: 用于修正动作的硬件适配 , 以及用于修正视觉的软件适配

第一部分: 硬件适配 (外骨骼)

DexUMI 没有使用通用的动作捕捉手套,而是使用了一种定制设计的、3D 打印的外骨骼。这种设计的精妙之处在于它针对目标机器人进行了专门的优化。

为“共享工作空间”而设计

研究人员意识到,为了使人类演示变得有用,人类指尖相对于手腕的位置必须与机器人指尖的位置一致。然而,简单地将机器人手的复制品安装在人手上是行不通的——机器人拇指的位置通常会与佩戴它的人手发生碰撞。

为了解决这个问题,团队开发了一个机构优化框架 。 他们将外骨骼设计视为一个数学优化问题。

机构优化展示了优化前后的外骨骼设计,以避免拇指碰撞。

如上图所示,优化调整了外骨骼的连杆长度和关节位置。目标是双重的:

  1. 匹配指尖工作空间: 确保当人类移动手指时,外骨骼产生的轨迹是机器人实际上可以复制的。
  2. 保持可穿戴性: 确保设备不会撞到用户的手,特别是活动范围很大的拇指。

在数学上,该系统试图最小化外骨骼的所有可能姿态集合 (工作空间) 与机器人手之间的差异。目标函数如下所示:

最小化外骨骼和机器人手工作空间差异的方程式。

通俗地说,这个方程为外骨骼找到了最佳的物理尺寸,使得其运动能力 (\(W_{exo}\)) 与机器人的能力 (\(W_{robot}\)) 尽可能重叠,同时遵守保持设备可穿戴的约束条件。

传感器套件

与基于视觉的追踪器 (如相机观察裸手) 相比,使用物理外骨骼的一个主要优势是精度。相机可能会被遮挡或产生噪点,而机械连杆是精确的。

DexUMI 外骨骼包括:

  • 关节编码器: 每个关节处的高精度电阻式传感器,用于捕捉精确的角度。
  • 触觉传感器: 团队在外骨骼指尖安装了与机器人上存在的完全相同的触觉传感器。这意味着人类能感觉到物体,并且数据日志能捕捉到机器人稍后将经历的精确力觉轮廓。
  • 手腕追踪: 安装在手腕上的 iPhone 负责追踪手在空间中的 6-DoF (6自由度) 姿态。
  • 手腕相机: 一个广角相机 (OAK-1) 完全从机器人的视角捕捉视觉场景。

外骨骼设计的详细图解,包括编码器、相机位置和手腕追踪。

通过使用这种硬件,“运动学差距”得以弥合。人类在物理上被限制以机器人能够理解的方式移动,传感器则捕捉干净、精确的数据。

第二部分: 软件适配 (弥合视觉差距)

即使有了完美的动作数据,我们仍然面临视觉问题。相机记录的是一只戴着 3D 打印设备的人手,但机器人需要以其自身的外观进行操作。

DexUMI 使用一个强大的数据处理管道来解决这个问题,该管道在视频中“幻视”出机器人。这确保了 AI 策略是在与其部署时所见完全一致的图像上进行训练的。

以下是逐步过程,每一帧训练数据都会自动执行此过程:

  1. 分割 (Segmentation) : 系统使用 SAM2 (Segment Anything Model 2) 从视频帧中识别并抠出人手和外骨骼。
  2. 图像修复 (Inpainting) : 一旦手被移除,图像中就会出现一个空洞。系统使用 ProPainter (一种视频修复工具) ,基于前后帧来填充背景 (桌子、物体等) 。
  3. 机器人回放 (Robot Replay) : 由于外骨骼捕捉了精确的关节角度,系统会在真实的机器人手上 (不抓取物体) 重放这些角度,并在绿幕或纯背景下进行录制。这生成了该特定姿势下机器人手的完美图像。
  4. 合成 (Composition) : 最后,系统将“修复后的背景”与“机器人手部图像”合并。

软件管道流程图: 分割、图像修复、机器人回放和合成。

遮挡挑战: 简单地将机器人手粘贴到背景上是不够的。如果手伸罐子里怎么办?罐子应该遮挡住手指的视线。

DexUMI 通过计算掩膜 (Masks) 的交集来处理这个问题。它比较外骨骼曾经的位置 (来自原始视频) 和机器人手现在的位置。它只粘贴那些与原始动作可见部分重叠的机器人像素。这保留了自然的遮挡关系,使训练数据在物理上看起来很真实。

结果是一组看起来就像是机器人自己完美执行了任务的视频,尽管从头到尾都是人类在操作。

图像修复结果展示了从外骨骼到渲染出的机器人手的转变。

实验与结果

为了证明这一点的有效性,研究人员在两种截然不同的硬件上测试了 DexUMI:

  1. Inspire Hand (灵巧手) : 一种欠驱动手 (6 个主动电机控制 12 个关节) 。
  2. XHand: 一种全驱动手 (12 个主动电机) 。

他们尝试了四种从简单到复杂的现实世界任务:

  • 方块拾取: 基础精度。
  • 打开鸡蛋盒: 需要多指协调来解开锁扣并提起盖子。
  • 采茶: 使用镊子 (工具) 移动茶叶的精细任务。
  • 厨房任务: 一个长视距序列,包括转动旋钮、移动平底锅和撒盐。

四种评估任务的视觉图: 方块拾取、打开鸡蛋盒、采茶和厨房任务。

成功率

该系统在所有任务中实现了令人印象深刻的 86% 平均成功率 。 这凸显了通过 DexUMI 收集的数据的鲁棒性。

关键发现: 相对动作 vs. 绝对动作

其中一个最有趣的技术发现是关于机器人应该如何理解动作。

  • 绝对动作 (Absolute Action) : “将手指移动到位置 X。”
  • 相对动作 (Relative Action) : “将手指比现在更闭合一点。”

实验表明, 相对动作要优越得多。由于传感器总是存在一些噪点,且机器人关节存在微小的机械差异 (反向间隙) ,绝对定位往往导致抓取动作不平稳或不准确。相对动作允许策略更具反应性——持续闭合手指直到发生接触,从而平滑了噪点。

相对与绝对手指动作的比较,显示相对动作具有更流畅的协调性。

关键发现: 触觉感知的作用

感觉物体有帮助吗?有的,但有一个限制条件。 在像“撒盐”这样的任务中,手会遮挡相机对碗的视线,触觉感知至关重要。机器人需要感觉到何时触碰到盐,才知道何时抓取。

然而,触觉传感器可能存在噪点。如果传感器数据发生漂移 (在没有受力时报告受力) ,它实际上会损害简单任务的表现。这表明触觉数据很强大,但需要高质量,并且应用于视觉不足的任务中。

效率: 它比遥操作更好吗?

团队将 DexUMI 与标准遥操作和直接人手数据收集进行了比较。虽然仅用裸手收集数据显然是最快的,但 DexUMI 的效率显著高于遥操作。

展示采集吞吐量的图表: DexUMI 的效率大约是遥操作的 3 倍。

DexUMI 的吞吐量 (每 15 分钟的成功演示次数) 是遥操作的 3.2 倍 。 对于试图收集大规模数据集的研究实验室来说,这是一个巨大的收益。

结论

DexUMI 代表了机器人操作领域向前迈出的重要一步。通过承认人手是终极的“通用控制器”,研究人员搭建了一座将这种能力转移给机器人的桥梁。

该框架的优势在于其二元性:

  1. 硬件在利用人类运动控制精度的同时,尊重机器人的机械约束。
  2. 软件改变现实,使训练数据在视觉上对 AI 保持一致。

尽管仍存在局限性——必须为每个新的机器人手打印定制的外骨骼,且图像修复并不总是完美的——但 DexUMI 提供了一条可扩展的路径,通向最终能够处理我们要面对的复杂、灵巧世界的机器人。我们不再需要费力地用操纵杆教机器人倒茶,现在我们只需向它们展示该怎么做即可。