引言

在人工智能领域,我们见证了数据驱动带来的能力爆发。像 GPT-4 这样的大型语言模型 (LLM) 之所以能够蓬勃发展,是因为它们从互联网上摄取了数万亿个 Token 的文本。然而,机器人技术面临着一个顽固的瓶颈: 物理世界。与文本或图像不同,用于机器人操作 (教机器人如何叠衣服、煎牛排或组装玩具) 的高质量数据极其稀缺。

收集此类数据的黄金标准是遥操作 (Teleoperation) 。 这涉及人类专家控制物理机械臂来执行任务。虽然这能产生完美的“机器人域”数据 (精确的关节角度和相机视图) ,但成本极其高昂。你需要机器人硬件、安全基础设施,以及缓慢操作它的时间。在另一个极端,我们有野外 (In-the-wild) 演示——人类用自己的手执行任务的视频。这种数据丰富且廉价,但面临巨大的“域差距 (Domain Gap) ”。人手的外观和移动方式与双指机器人抓手截然不同。

我们如何弥合这一差距?我们如何能像录制人类视频那样廉价地收集数据,但又具有机器人的精度和格式?

研究论文 “AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons” 提出了一个全面的解决方案。作者介绍了一种低成本的硬件系统、一套巧妙的数据适配流程以及一种鲁棒的学习策略。它们共同使得研究人员能够在野外 (实验室之外) 收集数据,并训练出表现与使用昂贵遥操作设置训练的机器人一样出色的机器人。

AirExo-2 系统和 RISE-2 策略概览。

图 1 所示,该系统建立在两大支柱之上: AirExo-2 , 一种用于捕捉演示数据的可穿戴外骨骼;以及 RISE-2 , 一种旨在从该数据中学习的复杂神经网络策略。在这篇文章中,我们将剖析其中的硬件工程、用于适配数据的计算机视觉魔法,以及使零样本部署成为可能的神经架构。

背景: 模仿学习的挑战

模仿学习 (Imitation Learning, IL) 本质上是机器人的“有样学样”。机器人观察一组演示,并学习一种将观察结果 (相机图像、深度图) 映射到动作 (电机运动) 的策略。

为了扩展 IL,我们需要海量数据集。目前的方法主要分为两类:

  1. 以机器人为中心 (遥操作) : 质量高,但需要昂贵的机器人。这种方法很难扩展,因为你无法轻易地将沉重的工业机械臂带入厨房或客厅。
  2. 以人类为中心 (被动视频/手持设备) : 使用 YouTube 视频或手持抓手。虽然可扩展,但这些方法在运动学差距 (Kinematic Gap) (人类手臂的移动方式与机器人不同) 和视觉差距 (Visual Gap) (机器人在训练数据中看到的是人手,但在测试时看到的是自己的抓手) 方面面临困难。

AirExo-2 的目标是结合两者的优点: 以人类为中心的数据收集的便携性和低成本,以及以机器人为中心的数据的精度和视觉一致性。

第一部分: AirExo-2 系统

该论文的第一个贡献是硬件及其相关的数据收集软件流程。研究人员旨在构建一种设备,在训练阶段无需物理机器人的参与。

硬件设计

AirExo-2 是安装在移动底座上的双臂外骨骼。它的设计与机器人运动学同构 (kinematically isomorphic) 。 简单来说,这意味着可穿戴手臂具有与目标机械臂相同的关节长度和运动范围。

展示外骨骼和移动底座的 AirExo-2 硬件设计。

图 8 详细所示,该系统的成本约为 600 美元——这只是标准机械臂成本 (通常在 3 万到 6 万美元之间) 的一小部分。关键设计特征包括:

  • 1:1 比例: 外骨骼与机器人的尺寸相匹配,确保如果人类穿着这套装备能触及物体,机器人也能触及。
  • 高刚性: 与之前由 3D 打印塑料制成的版本不同,AirExo-2 使用铝型材和碳纤维增强部件。这种刚性对于精度至关重要;如果框架弯曲,传感器读数将无法匹配实际的手部位置。
  • 移动底座: 系统装有轮子,允许在不同环境 (厨房、办公室等) 中收集数据,而不仅仅是在固定的实验室工作台上。
  • 电子设备: 它使用高精度编码器和定制的抓手触发器来准确记录人类的移动和抓取动作。

标定挑战

构建硬件只是成功的一半。要使用这些数据,系统必须确切知道手部相对于相机在 3D 空间中的位置。这需要精确的标定。

作者利用一种称为可微渲染 (Differentiable Rendering) 的技术来解决这个问题。通常,标定是手动完成或通过标记点完成的,但误差会在关节间累积。在这里,系统尝试根据传感器读数“绘制” (渲染) 外骨骼的 3D 模型。然后,它将这个绘制结果与实际的相机图像进行比较。

通过可微渲染进行标定的流程。

图 9 所示,系统获取关节角度 (\(q\)) 和相机参数 (\(T\)) 来渲染掩膜 (\(\hat{M}\)) 和深度图 (\(\hat{d}\))。它将这些与实际观察到的掩膜和深度进行比较。通过计算差异 (损失) ,它可以从数学上调整标定参数以最小化误差。

优化目标被形式化定义为:

标定损失函数公式。

这个自动化过程确保了外骨骼的“数字孪生”与现实完美对齐,实现了亚毫米级的深度对齐精度。

适配流程: 从人类到伪机器人

这可能是 AirExo-2 系统最具创新性的部分。即使有了准确的关节数据,如果我们用包含穿着外骨骼的人类视频帧来训练机器人,当机器人被部署并看到自己的金属手臂时,它会感到困惑。

为了解决这个问题,作者创建了一个流程,将“野外”演示转换为“伪机器人 (Pseudo-Robot) ”演示。

AirExo-2 系统流程概览。

参考图 2 , 该流程涉及三个不同的适配器:

  1. 图像适配器 (Image Adaptor,弥合视觉差距) :
  • 分割: 使用 SAM-2 (Segment Anything Model 2),系统识别并掩盖人类操作员和外骨骼。
  • 修复 (Inpainting) : 使用 ProPainter,被掩盖的区域被背景填充,有效地“擦除”了人类。
  • 机器人渲染: 由于系统知道确切的关节角度 (这归功于外骨骼) ,它可以在该确切姿势下渲染出实际机械臂逼真的图像。
  • 合成: 渲染出的机器人被叠加到干净的背景上。结果是一个看起来像是机器人自己执行了任务的视频。
  1. 深度适配器 (Depth Adaptor) :
  • 与图像适配器类似,深度图经过修改,移除了人类几何结构并插入了机器人的几何形状。这为策略提供了干净的 3D 数据。
  1. 操作空间适配器 (Operation Space Adaptor) :
  • 这将外骨骼编码器记录的物理运动直接映射到机器人的坐标系中。

这个流程的输出是一个看起来和感觉都像昂贵的遥操作数据的数据集,但它是使用廉价、便携的套装收集的。

第二部分: RISE-2 策略

现在我们有了高质量、适配好的数据,我们需要一个大脑来从中学习。作者介绍了 RISE-2 (Robust and Generalizable Imitation System 2,鲁棒且可泛化的模仿系统 2) 。

标准的策略往往难以平衡几何精度 (确切知道物体在 3D 中的位置) 与语义理解 (知道物体是什么,比如区分红色马克杯和蓝色杯子) 。RISE-2 通过使用混合架构解决了这个问题。

架构概览

RISE-2 策略架构。

图 3 所示,RISE-2 架构在融合之前通过两个并行流处理信息:

  1. 稀疏编码器 (3D 几何) :
  • 点云 (Point Cloud) (源自深度图像) 作为输入。
  • 它使用稀疏卷积网络 (具体为 MinkResNet) 。
  • *目的: * 理解物体的精确形状和位置。它是“色盲”的,以避免过拟合特定的纹理。
  1. 密集编码器 (2D 语义) :
  • RGB 图像作为输入。
  • 它利用预训练的视觉基础模型 (具体为 DINOv2) 。
  • *目的: * 捕捉高级语义信息和上下文。因为 DINOv2 是在海量互联网数据集上训练的,它对光照变化和视觉干扰具有极强的鲁棒性。

空间对齐器

挑战在于结合这两种截然不同的数据类型。2D 特征存在于像素坐标 \((u, v)\) 中,而 3D 特征存在于空间坐标 \((x, y, z)\) 中。

RISE-2 通过空间对齐器 (Spatial Aligner) 解决了这个问题。它基于 3D 坐标融合特征。对于 3D 云中的每个点,模型从 2D 图中查找对应的语义特征。

为了使其精确,作者使用了加权空间插值 。 它不是简单地抓取最近的像素,而是根据距离平均来自最近邻居的特征,确保特征转换平滑。

控制这种融合的公式为:

加权空间插值公式。

这里,\(f_{s*}^i\) 是对齐后的语义特征。通过这种方式融合特征,RISE-2 创建了一种既几何精确又语义丰富的表示。

稀疏语义特征的可视化。

图 10 (上图底部) 可视化了这些融合后的特征。你可以看到模型如何高精度地关注场景中的相关部分 (如机器人抓手和目标物体) ,证实了空间对齐器有效地弥合了 2D-3D 的差距。

动作生成

最后,这些融合后的特征被传递给动作生成器 (Action Generator) 。 该模块使用 Transformer 处理特征,并使用扩散头 (Diffusion Head) 来预测动作。扩散策略目前是机器人领域的最新技术 (SOTA) ,因为它们可以表示复杂的多模态分布 (例如,如果抓取杯子有两种有效方式,扩散策略可以同时表示这两种,而简单的回归模型可能会取平均值导致什么都抓不到) 。

实验与结果

研究人员在多个真实世界任务中对 AirExo-2 和 RISE-2 进行了测试,例如收集玩具、端盘子和打开/关闭盖子。

性能比较

RISE-2 与现有的方法 (如 ACT、Diffusion Policy 和标准 RISE) 相比如何?

任务及域内评估结果条形图。

图 4 显示了域内任务 (训练期间见过的任务) 的成功率。RISE-2 (特别是使用 DINOv2 的版本) 始终优于基线。在需要精细运动技能的任务中,如“端盘子 (Lift Plate) ”,RISE-2 实现了显著更高的可靠性。

泛化能力

该论文的一个主要主张是“可泛化性”。机器人能处理从未训练过的这种桌布背景或不同的玩具吗?

泛化评估结果表。

表 1 展示了泛化实验的结果。

  • 新背景 (Bg.): RISE-2 保持了 95% 的成功率,而像 ACT 这样的策略下降到了 32.5%。
  • 新物体 (Obj.): RISE-2 达到了 85%,显著高于竞争对手。
  • 两者皆新: 即使背景和物体都是新的,RISE-2 仍保持在 85% 的强劲水平。

这种鲁棒性很大程度上归功于架构中的关注点分离: 3D 编码器处理几何形状 (新物体的形状) ,而 2D 编码器 (DINOv2) 处理语义变化。

终极测试: 伪机器人 vs. 遥操作

对于 AirExo-2 系统来说,最关键的问题是: 这些数据真的有用吗?

研究人员比较了使用昂贵的遥操作数据训练的策略与使用廉价的 AirExo-2 (伪机器人) 数据训练的策略。

不同演示数据下的 RISE-2 策略性能。

图 5 所示,结果令人震惊。使用 AirExo-2 数据训练的策略 (绿色柱状条) 达到了与遥操作基线 (蓝色柱状条) 相当的性能。在像“关盖子”这样的简单任务中,它的表现完全匹配 (100%) 。在更复杂的任务中,性能下降微乎其微。

这证实了适配流程的“视觉障眼法”是有效的——机器人通过观看由人类动作生成的“假”机器人视频,成功学会了控制自己的身体。

可扩展性

最后,这为什么重要?成本和速度。

可扩展性分析结果图表。

图 7 展示了可扩展性分析。

  • 成本: AirExo-2 成本 0.6k 美元 vs 遥操作 60k 美元。
  • 吞吐量: 在相同的时间内 (x 轴) ,使用 AirExo-2 的操作员可以比遥操作员收集更多的演示 (柱状条) 。
  • 成功率: 因为数据收集更快,你在相同时间内获得了更多数据,从而导致更高的策略成功率 (折线) 。

结论与启示

AirExo-2 论文为机器人学习的未来描绘了一幅引人注目的蓝图。通过将数据收集与物理机器人解耦,我们可以降低创建大规模机器人数据集的门槛。

硬件与软件之间的协同作用是关键所在:

  1. AirExo-2 提供了低成本、精确的运动学数据。
  2. 适配流程 将该数据转换为机器人的视觉域。
  3. RISE-2 利用混合 2D/3D 架构来学习可泛化到新环境的鲁棒技能。

这种方法预示着这样一个未来: 我们可能会看到机器人领域的“ImageNet 级”数据集,这些数据不是由实验室中昂贵的机器人收集的,而是由人们在家里和工作场所穿着外骨骼收集的。随着“伪机器人”数据变得与真实数据无法区分,通用机器人助手的梦想离现实又近了一步。