引言

机器人技术中最持久的瓶颈之一是数据的成本。要教会机器人一项新技能——比如打碎鸡蛋或使用锤子——我们通常需要数百次甚至数千次的遥操作演示。这个过程缓慢、昂贵,且难以扩展。

另一方面,我们要面对互联网。像 YouTube 这样的平台上充斥着数以百万计的人类执行此类操作任务的视频。理论上,这是一个训练数据的金矿。但在实践中,一道巨大的障碍横亘在面前: 域差异 (Domain Gap)

人类的手看起来一点也不像两指的机器人夹爪。我们的肤色、厨房的光线以及我们关节的特定运动方式,与机器人的金属结构和无菌实验室环境截然不同。由于这些视觉和物理上的差异,机器人无法直接从人类视频中“观察并学习”。

在这篇文章中,我们将深入探讨一篇名为 “ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation” (ImMimic: 基于映射和插值的人类视频跨域模仿) 的论文。研究人员提出了一个新的框架,不仅将人类视频作为参考,而且积极地将其与机器人数据融合,以创建一条平滑的学习路径。

ImMimic 概览,展示了人类视频、机器人演示和各种机器人手。

如图 1 所示,ImMimic 框架利用了大规模的人类视频以及少量的机器人演示。通过结合映射和数学插值,它使从简单的夹爪到复杂的五指灵巧手等各种机器人都能学习到鲁棒的操作技能。

背景: 跨域模仿的挑战

要理解为什么 ImMimic 是必要的,我们必须看看机器人通常是如何向人类学习的。

两个域

在这种背景下,我们有两个截然不同的域:

  1. 源域 (人类) : 拥有丰富的视频数据,但“智能体” (人类) 的形态 (手部形状) 和外观与机器人不同。
  2. 目标域 (机器人) : 我们想要控制的实际硬件。这里的数据很稀缺,因为收集数据需要人类手动控制机器人 (遥操作) 。

以前的方法 vs. ImMimic

传统方法通常试图通过在图像中“遮罩 (masking out) ”机器人或人手来将这两个域强行结合在一起,希望神经网络只关注被移动的物体。其他方法则试图使用无监督学习来对齐视觉特征。

然而,这些方法往往忽略了最重要的部分: 动作 。 人类手部的轨迹包含了关于如何解决任务的丰富信息。ImMimic 的运作基于这样一个见解: 我们应该同时利用视觉上下文物理动作轨迹。

下图展示的系统设置突出了数据收集的双重性。一边是不受约束的人类演示,另一边是精确的、遥操作的机器人演示。

展示人类和机器人视角的并排数据收集设置。

ImMimic 框架

ImMimic 的核心理念是 协同训练 (Co-Training) 。 它不是先在人类数据上预训练再在机器人数据上微调 (这是一个两阶段过程) ,而是同时从两者中学习。但这不能简单地把不匹配的数据堆在一起,你需要一座桥梁。

ImMimic 分三步搭建这座桥梁:

  1. 重定向 (Retargeting) : 将人类姿态转化为机器人动作。
  2. 映射 (Mapping) : 对齐人类和机器人的时间线。
  3. 插值 (MixUp) : 混合数据以填补鸿沟。

让我们分解整个流程。

从数据收集到协同训练的完整 ImMimic 流程。

1. 手部姿态重定向

在机器人能够理解人类视频之前,人类的动作必须被翻译成机器人的语言。

系统首先使用 MediaPipe 和 FrankMocap 等工具提取人类手部和手指的 3D 位置。一旦估计出人类手部姿态,就必须将其“重定向”到机器人的关节空间。这是通过解决一个优化问题来完成的。目标是找到机器人的关节角度 (\(\mathbf{q}_t\)) ,使得机器人的指尖最终位置与人类指尖位置相似,同时确保动作随时间推移是平滑的。

研究人员使用以下目标函数进行重定向:

最小化人类关键点与机器人运动学之间差异的公式。

这里:

  • \(\mathbf{p}_t^i\) 是人类手指关键点的位置。
  • \(f_i(\mathbf{q}_t)\) 是机器人的正运动学 (给定关节角度 \(\mathbf{q}_t\),机器人手指最终的位置) 。
  • 第二项 (\(\beta \| \dots \|\)) 确保时间平滑性,防止机器人动作抖动。

2. 策略架构

机器人的底层“大脑”是一个 扩散策略 (Diffusion Policy) 。 扩散模型在图像生成 (如 Stable Diffusion) 中非常流行,最近在机器人领域生成平滑、多模态的动作序列方面也显示出了惊人的成功。

如下面的架构图所示,该系统处理两个数据流:

  • 机器人流: 接收代理视角图像、手腕视角图像和本体感觉 (关节状态) 。
  • 人类流: 接收代理视角图像和我们在上一步计算出的重定向动作。

展示人类和机器人分支扩散策略输入的架构图。

该模型的训练目标是最小化预测动作与真实动作 (针对机器人) 或重定向动作 (针对人类) 之间的差异。

3. 通过动态时间规整 (DTW) 进行映射

这里存在一个关键挑战: 人类和机器人的动作速度不同。人类可能用 1 秒钟抓起一个杯子;一个谨慎的机器人可能需要 3 秒钟。为了有效学习,我们需要将人类视频中的特定时刻与机器人演示中的相应时刻相匹配。

作者使用 动态时间规整 (DTW) 来解决这个问题。DTW 是一种对齐两个速度可能不同的序列的算法。

论文研究了两种对齐这些序列的方法:

  • 基于视觉的映射: 对齐看起来相似的帧。
  • 基于动作的映射: 对齐运动 (轨迹) 相似的帧。

关键见解: 研究人员发现 基于动作的映射 明显更好。视觉特征可能充满噪声——光照变化或背景杂乱会干扰对齐。然而,运动的几何特征 (例如,“向前移动并闭合夹爪”) 是一个跨域保持一致的稳健信号。

我们可以在下面直观地看到这个对齐过程。系统将人类观察 (顶部) 与对应于任务同一阶段的机器人观察 (底部) 配对,即使它们发生在不同的绝对时间。

用于 MixUp 的人类和机器人映射配对的可视化。

4. 映射引导的 MixUp 插值

这是 ImMimic 最具创新性的部分。一旦我们使用 DTW 将人类数据与机器人数据对齐,我们不只是分别对其进行训练。我们对它们进行 混合 (Mix)

受一种名为 MixUp 的技术的启发,研究人员创建了“中间域”。想象一个滑动条,0% 是纯机器人,100% 是纯人类。ImMimic 生成位于两者之间的训练样本。

对于配对的人类输入 (\(\mathbf{z}^h\)) 和机器人输入 (\(\mathbf{z}^r\)) ,以及它们对应的动作,新的“混合”样本计算如下:

显示输入和动作线性插值的 MixUp 公式。

这里,\(\alpha\) 是混合系数。通过在这些插值样本上进行训练,网络在潜空间中学习到一个平滑的过渡流形。它迫使模型理解人类数据和机器人数据只是同一潜在技能的两种变体。

使用 t-SNE (一种降维技术) 可视化潜空间揭示了这种插值的效果。在标准的协同训练中 (上排) ,人类和机器人数据保持在分离的簇中。在 ImMimic 中 (下排) ,这些域合并成一个连续的数据流,使机器人能够更好地从人类数据中泛化。

t-SNE 可视化展示人类和机器人域的融合。

实验与结果

团队在四个任务上评估了 ImMimic: 拾取与放置 (Pick and Place)推 (Push)锤击 (Hammer)翻转 (Flip) 。 他们在四种截然不同的末端执行器上测试了这些任务:

  1. Robotiq 夹爪: 标准的双指平行夹爪。
  2. Fin Ray 夹爪: 柔性、可变形夹爪。
  3. Allegro 灵巧手: 大型四指机器人手。
  4. Ability 灵巧手: 灵巧的五指手。

ImMimic 有效吗?

结果显示出明显的优势。ImMimic-A (使用基于动作映射的 ImMimic) 始终优于仅使用机器人数据训练的模型 (“Robot Only”) 和标准的协同训练方法。

在下面的图表中 (图 4) ,我们看到了使用 100 个人类演示进行“拾取与放置”任务的性能。即使只有极少的机器人演示,ImMimic (虚线/点划线) 也比基线方法更快地达到高成功率。

展示样本效率随机器人演示数量变化的图表。

同样,图 5 表明,增加人类数据极大地提高了样本效率。仅需 5 个机器人演示,ImMimic 就能利用人类视频数据达到接近 100% 的成功率,而仅使用机器人的基线方法则表现挣扎。

展示样本效率随人类演示增加而提高的图表。

动作映射 vs. 视觉映射

为了进一步证明基于动作的映射优于基于视觉的映射,作者进行了一项检索实验。他们尝试在不同的干扰下 (如改变背景或改变物体) 为人类视频片段找到正确的匹配机器人片段。

如图 6 所示,当引入视觉干扰时,基于视觉的映射遭受重创 (蓝色条显着下降) 。基于动作的映射 (绿色条) 保持稳健,因为即使视觉场景发生了变化,运动轨迹本身并没有改变。

在干扰下比较视觉与动作映射 IoU 的条形图。

这证实了论文的一个主要假设: 重定向的人类手部轨迹比单纯的视觉上下文提供了更多信息丰富的标签。

“类人”悖论

论文中一个有趣的发现是, 更像人类的手并不一定能带来更好的性能。

直觉上,人们可能会认为 Allegro 或 Ability 灵巧手 (看起来更像人手) 比简单的双指夹爪更容易从人类视频中学习。然而,实验表明,复杂手部的动作距离 (轨迹的数学差异) 实际上更高。

为什么?复杂的手更难控制。诸如安装角度、拇指长度或指尖摩擦力等因素起着巨大的作用。

下图突出了失败案例。例如,在 (g) 中,Allegro 手的大尺寸使其在尝试翻转百吉饼时显得笨拙。在 (a) 中,Robotiq 夹爪的细尖导致物体在推动过程中滑落。这凸显了虽然 ImMimic 弥合了算法上的差距,但 硬件差距 仍然是一个物理约束。

展示成功行为和特定失败案例的图片网格。

我们也可以直接可视化轨迹。图 E.1 展示了人类重定向轨迹 (红色) 与机器人轨迹 (蓝色) 的对比。虽然它们遵循相同的总体趋势,但形态差异导致了不同的路径,而 ImMimic 成功地对齐了这些路径。

比较人类和机器人路径的 3D 轨迹图。

结论

ImMimic 代表了我们在利用海量人类视频数据进行机器人技术研究方面迈出的重要一步。通过承认域差异并通过 重定向DTW 映射MixUp 插值 积极地弥合它,该框架使机器人能够比以往更有效地“模仿”人类。

给学生和研究人员的关键要点:

  1. 不要忽视动作: 视觉适应固然好,但对齐物理轨迹 (动作) 能提供更强的监督信号。
  2. 平滑空间: 当你在域之间创建连续路径 (插值) 而不是将它们视为二元对立时,协同训练的效果最好。
  3. 形态很重要: 由于运动学的原因,看起来像人类的机器人手在数学上的运动方式可能并不像人类。算法需要考虑到这一现实。

ImMimic 让我们更接近这样一个未来: 机器人只需通过观察我们要怎么做,就能学会烹饪、打扫卫生或使用工具——即使它们只有两根金属手指。