如果你曾尝试训练机器人做简单的家务,比如叠毛巾或打开罐子,你很可能遇到过“数据难题”。人类可以毫不费力地完成这些任务,但教会机器人则需要成千上万个示例。这就是模仿学习 (Imitation Learning, IL) 发挥作用的地方——向机器人演示做什么,让它模仿你。
然而,收集高质量的演示数据通过是众所周知的困难。遥操作 (使用操纵杆或 VR 设备控制机器人) 速度慢、成本高,而且往往不直观。最近的创新,如通用操作接口 (Universal Manipulation Interface, UMI) , 试图通过允许人类使用手持夹爪收集数据来解决这个问题。但即使是 UMI 也有缺陷: 它很“挑剔”。它需要特定的夹爪、僵化的硬件设置以及繁琐的软件流程,一旦摄像头视野被遮挡,软件经常会崩溃。
FastUMI 登场了。
在这篇文章中,我们将深入探讨论文《FastUMI: A Scalable and Hardware-Independent Universal Manipulation Interface with Dataset》。这篇论文提出了一种完全重新设计的数据收集流程,通过解耦硬件,使得几乎任何机械臂或夹爪都能受益于高质量的手持人工演示数据。
瓶颈: 为什么数据收集如此困难
要理解为什么 FastUMI 是必要的,我们首先需要看看以前系统的局限性。标准的 UMI 系统是一个突破,因为它允许数据收集在远离机器人的地方进行。人类可以在厨房里拿着手持夹爪四处走动,记录稍后将传输给机械臂的动作。
然而,原始 UMI 有两个主要的限制:
- 硬件耦合: 它与特定的组件紧密耦合,例如 Weiss WSG-50 夹爪。如果你的实验室使用的是 Franka Emika Panda 或带有不同夹爪的 Kinova 机械臂,适配 UMI 需要大量的机械重新设计和传感器重新校准。
- 视觉惯性里程计 (VIO) 的脆弱性: UMI 依赖 GoPro 相机和开源 SLAM 算法来追踪夹爪在 3D 空间中的位置。这在开阔空间效果很好,但操作任务通常涉及遮挡 。 当你打开橱柜或伸手进盒子时,相机视野会被阻挡。一旦相机被遮挡,追踪就会失败,数据也就变得毫无用处。
FastUMI 通过解耦的理念解决了这些问题。它分离了硬件依赖性并增强了软件追踪的鲁棒性,使系统真正做到了“即插即用”。
硬件: 一种解耦设计
FastUMI 的核心创新在于其物理架构。目标是创建一个系统,使得人手收集的数据看起来与机械臂处理的数据完全相同,无论机器人的物理形状如何。
1. 手持设备 (数据收集器)
手持设备是人类操作员使用的工具。与以前仅依赖 GoPro 进行视觉和追踪的迭代不同,FastUMI 引入了专用的追踪模块。

如上图 图 1 (左) 所示,手持设备包括:
- 眼睛 (GoPro): GoPro 相机捕捉视觉环境。它使用鱼眼镜头获得 155 度的宽视野,确保即使靠近物体,机器人也能看清环境。
- 大脑 (RealSense T265): 这是一个至关重要的升级。FastUMI 不再依赖 GoPro 进行追踪,而是使用了 RealSense T265。该传感器结合了立体相机和惯性测量单元 (IMU),即使在视野部分受阻的情况下也能提供稳健的姿态追踪。
- 指尖与标记: 标准化的指尖标记允许软件精确追踪夹爪张开的宽度。
2. 机器人安装设备 (执行者)
当我们转向机器人端时 (图 1,中/右) ,神奇的事情发生了。该系统使用 ISO 标准法兰盘,这意味着它可以连接到几乎任何标准的机械臂 (Franka, Flexiv, Z1 等) 。
这里关键的设计挑战是视觉一致性 。 如果机器人上的相机位置与手持设备上的不同,训练好的模型就会失败,因为世界看起来“不对劲”。

为了解决这个问题,FastUMI 利用了可调节的相机安装结构。如图 3 所示,目标是将鱼眼镜头图像的底部与夹爪指尖的底部对齐。无论你是手持设备,还是它安装在巨大的工业机械臂上,相机相对于夹爪的视角都保持不变。这使得 AI 模型能够将人类技能无缝转移到机器人身上。
此外,该系统还能适应不同的夹爪几何形状。并非所有夹爪都是平行爪;有些是有角度的或具有不同的行程长度。

图 4 展示了插入式指尖设计。即使底层的机器人夹爪不同 (如图所示的 xArm 夹爪) ,接触点和视觉标记仍与手持设备保持一致。
软件: 追踪与数据处理
FastUMI 用基于 T265 传感器的简化方法取代了原始 UMI 复杂的 VIO 流程。
具有闭环检测的鲁棒追踪
手持数据收集中最令人头疼的问题之一是“漂移”。随着时间的推移,传感器会迷失其位置。T265 虽然有帮助,但也并非完美。FastUMI 实现了一个巧妙的软硬件结合技巧来进行闭环检测 (Loop Closure) 。

他们在桌子上放置了一个蓝色的 3D 打印凹槽( 图 5 )。当数据收集会话开始和结束时,设备会被放置在这个凹槽中。凹槽独特的视觉特征允许追踪软件“瞬间定位”回已知的零位,修正任务期间积累的任何漂移。
数据协调
由于硬件已解耦,软件需要在数学上弥合差距。我们需要将相机的移动转换到机器人的坐标系中。

图 6 展示了坐标系。我们有相机中心和夹爪中心。系统使用以下变换计算相机在机器人基座坐标系中的绝对位置:

由此,我们推导出 绝对 TCP (工具中心点) 轨迹 。 这确切地告诉我们夹爪需要在哪:

然而,如果机器人的基座移动,绝对定位可能会变得脆弱。为了使学习更加稳健,FastUMI 还计算了 相对 TCP 轨迹 , 它关注夹爪从一帧到下一帧如何移动,而不管它在房间的什么位置:

通用夹爪追踪
不同的夹爪张开宽度不同。为了使软件与硬件无关,FastUMI 追踪指尖上 ArUco 标记之间的像素距离。然后它将此距离归一化:

这里,\(d\) 是像素距离,\(G_{max}\) 是所用特定夹爪的最大物理张开度。这使得 AI 学习的是“张开百分比”值,而不是特定的电机计数,从而使其可以在不同机器人之间转移。
算法适配: 帮助 AI 看见深度
硬件解耦对物流来说很棒,但给 AI 带来了新的挑战。具体来说,依赖单个手腕安装的鱼眼相机产生了一个第一人称视角问题。
- 视野受限: 相机看不到机械臂,只能看到手。AI 可能会试图以不可能的方式移动手臂,因为它不知道肘部在哪里。
- 无深度信息: 单张图像无法告诉你桌子有多远。这使得精细任务 (如穿针或按按钮) 非常困难。
作者调整了两种流行的算法, ACT (Action Chunking with Transformers) 和 扩散策略 (Diffusion Policy, DP) , 以解决这些问题。
Smooth-ACT 与 PoseACT
对于 ACT,他们增加了平滑度约束。由于追踪数据有时可能会抖动,他们引入了门控循环单元 (GRU) 来平滑预测的动作,防止机器人做出急促、危险的移动。

该方程增加了一个针对急促运动的惩罚项 (\(||\hat{a}_{GRU} - a||_1\)),强制模型预测流畅的轨迹。
深度增强扩散策略
扩散策略非常强大,但在 FastUMI 测试中遇到了深度感知的问题。为了在不增加昂贵的激光雷达或深度相机的情况下解决这个问题,研究人员使用了一种软件解决方案: Depth Anything V2 。

如图 7 所示,他们提取 GoPro 的 RGB 帧 (顶行) ,裁剪掉黑色边框,然后通过深度估计模型运行它们以生成伪深度图 (底行) 。这些深度图与彩色图像一起被输入到策略中,赋予机器人 3D 几何感知能力。
动态误差补偿
最后,许多夹爪存在一个微妙的机械问题: 当它们闭合时,指尖不仅仅是向内移动;它们通常会相对于安装板稍微向前或向后移动。这可能导致机器人抓取失败。
FastUMI 实现了一种动态补偿算法。它根据夹爪的闭合程度计算“补偿距离” \(d(i)\):

然后它沿着夹爪的 Z 轴 (前方方向) 调整目标位置:


这确保了当夹爪闭合时,“虚拟”中心点完全停留在物体上它应该在的位置。
FastUMI 数据集
为了证明该系统有效,作者不仅仅写了一篇论文;他们收集了一个庞大的数据集。
- 规模: 10,000 条演示轨迹。
- 范围: 跨越 19 个物体类别的 22 项日常任务。
- 环境: 多样的家庭环境 (厨房、桌子等) 。

图 8 展示了数据集的多样性,从“拿杯子”到“叠毛巾”。任务的丰富多样性有助于测试机器人策略的泛化能力。
实验与结果
那么,它有效吗?评估集中在数据质量、任务成功率以及算法改进的影响上。
1. 数据质量: T265 对比其他方案
研究人员比较了 RealSense T265 与其他追踪方法 (如 RoboBaton MINI) 的追踪精度。

图 11 显示了“拿杯子”任务期间的误差累积。注意到中间的峰值了吗?那是夹爪靠近桌子、相机视野被遮挡的时候。然而,误差仍然很低 (< 1-2 cm) ,并且闭环机制在结束时将其拉回。事实证明,T265 对这些遮挡的鲁棒性远强于纯视觉里程计。
2. 基线性能
他们在 12 个不同的任务上测试了该系统。

成功率令人鼓舞。如下面的 表 II 所示,扩散策略 (DP) 总体上优于 ACT,特别是在涉及复杂动作的任务中,如“叠毛巾” (93.33% 成功率) 。

然而,请注意“打开电饭煲”的得分较低 (DP 为 20%) 。这项任务需要按下按钮——这是一个需要深度感知的精确动作。
3. 算法的力量
这就是算法适配大放异彩的地方。通过将生成的深度图添加到扩散策略中( 深度增强 DP ),电饭煲任务的成功率从 20% 跃升至 93.33% 。

同样, PoseACT 和 Smooth-ACT 变体显著提高了标准 ACT 基线的性能,特别是对于需要长轨迹的任务,如“扫垃圾”。

4. 为什么数据规模很重要
最后,作者验证了深度学习的一个核心前提: 更多数据 = 更好的机器人。

在“拿杯子”任务中,将演示次数从 200 增加到 800,成功率翻了一倍多。因为 FastUMI 让数据收集变得廉价且快速,达到 800 甚至 8,000 次演示现在实际上是可行的。
结论与启示
FastUMI 代表了机器人学习大众化迈出的重要一步。通过将数据收集硬件与机器人硬件解耦,它允许研究人员一次收集数据,并将其部署在许多不同的机器人上。切换到 T265 追踪使系统足够稳健,可以应对现实世界的杂乱环境,而算法更新证明,如果处理得当,低成本的视觉传感器也能处理高精度任务。
虽然仍存在局限性——例如缺乏触觉反馈和需要有线连接——但 FastUMI 为可扩展的、“野外环境”下的机器人教学提供了蓝图。它让我们更接近这样一个未来: 我们只需通过演示就能教会机器人,而不需要控制理论博士学位或价值百万美元的实验室设备。
如果你是一名想要进入机器人操作领域的学生,FastUMI 框架及其开源数据集是探索现代模仿学习如何弥合人类意图与机器人动作之间差距的绝佳资源。
](https://deep-paper.org/en/paper/2409.19499/images/cover.png)