引言: 机器人技术的数据瓶颈

回顾电影制作的历史,你会发现一条清晰的发展轨迹: 从实体特效 (搭建实体布景和电动模型) 向数字特效 (CGI) 转变。电影制作人之所以做出这种改变,是因为数字世界提供了无限的控制力和可扩展性。机器人技术目前正面临着类似的转型,但这不仅仅关乎票房数字,其风险要高得多。

要训练一个通用机器人,我们需要数据——海量的数据。具体来说,我们需要展示机器人在现实世界中成功操作物体的数据。传统的获取方式是通过远程操作 (teleoperation) , 即由人类控制机器人执行任务并记录数据。然而,这种方式缓慢、昂贵且难以扩展。你需要一台实体机器人、一个实体布景,以及一名身处同一房间的操作员。

仿真提供了一种解决方案,允许我们通过数字方式生成数据。但在历史上,仿真一直受困于两个主要问题:

  1. Sim-to-Real 鸿沟 (仿真到现实的差距) : 模拟器很少能看起来或表现得与现实世界完全一致,导致在仿真中训练出的策略在现实中失效。
  2. 延迟与可访问性: 高保真物理仿真通常需要强大的服务器,这使得很难将其众包给使用标准消费级硬件的用户。

这就引出了 Lucid-XR , 一个由 MIT CSAIL 和 UC San Diego 研究人员开发的新系统。Lucid-XR 创建了一个“数据引擎”,允许用户使用消费级虚拟现实 (VR) 头显生成高质量的机器人训练数据,且无需实体机器人或强大的外部服务器。

Lucid-XR 概念图。左侧,佩戴 VR 头显的用户与虚拟厨房互动。右侧,系统根据这些互动生成逼真的训练数据。

如图 1 所示,该系统架起了人类演示与机器人学习之间的桥梁。它结合了设备端物理仿真与生成式 AI,创造出多样化、逼真的训练数据,使机器人能够在现实世界中发挥作用——即使是在它们从未见过的环境中。

数据引擎的架构

Lucid-XR 的核心理念是“互联网规模 (Internet-scale) ”。如果我们想解决机器人操作问题,就需要让任何地方的任何人都能贡献训练数据。为了实现这一目标,研究人员构建了一个消除了通常与机器人模拟器相关的繁重计算障碍的流程。

如下图所示,该工作流包含三个主要阶段:

  1. Vuer (设备端仿真) : 一个完全在 VR 头显浏览器内运行的基于 Web 的物理模拟器。
  2. 人到机器人的重定向 (Human-to-Robot Retargeting) : 一个将人类手部动作实时转化为机器人动作的系统。
  3. 生成式 AI 数据增强: 一个接收“卡通化”仿真数据并以此幻化出用于训练的照片级逼真视觉效果的流程。

系统原理图展示了从场景资产到 Vuer 模拟器,再到图像生成流程,最后到模型训练和评估的流向。

让我们逐一拆解这些组件,以理解为什么这种方法如此有效。

第一部分: 浏览器中的物理世界

Lucid-XR 克服的最大技术障碍是在独立的 VR 设备上直接运行复杂的物理仿真而没有延迟。

传统上,VR 远程操作依赖于“系留 (tethered) ”方式。VR 头显捕捉用户的手部动作,将数据发送到运行物理引擎的强大桌面或云端服务器,等待服务器计算结果,然后接收渲染后的帧。

这种往返传输引入了延迟 。 在机器人远程操作中,即使是 50-100 毫秒的延迟也会破坏用户执行堆叠积木或倾倒液体等精细任务的能力。

消除服务器

Lucid-XR 将物理引擎移到了头显内部。研究人员利用了机器人领域标准的物理引擎 MuJoCo , 并将其编译为 WebAssembly (WASM) 。 这使得物理代码能够以接近原生的速度直接在 XR 设备的 Web 浏览器中运行。

设备外与设备内仿真的对比。设备外仿真引入了网络延迟 (>17ms) ,而 Lucid-XR 在本地处理物理计算,延迟极低 (<12ms) 。

如图 3 所示,传统的设备外方法会因 WiFi 传输和网络开销而产生延迟。通过将仿真移至设备端 (具体来说是一个 “vuer client”) ,Lucid-XR 完全消除了网络延迟。仿真步长耗时不到 12ms,使系统能够维持 VR 防止晕动症所需的高帧率 (90fps) 。

多物理场能力

你可能会认为在 Web 浏览器中运行物理引擎会限制复杂性,但 Lucid-XR 证明事实并非如此。该系统支持复杂的交互,包括:

  • 可变形物体: 如布料或海绵。
  • 流体动力学: 模拟风或液体。
  • 复杂碰撞: 使用符号距离函数 (SDF) 处理非凸形状 (有凹陷或孔洞的形状) ,无需对其进行简化。

在浏览器中运行的不同物理交互示例: 柔性材料、SDF 碰撞、流体/空气阻力以及软皮肤材料。

这种高保真度至关重要,因为现实世界中的操作往往涉及杂乱、柔软或流动的物体,而不仅仅是刚性的盒子。

第二部分: 搭便车控制器与重定向

一旦物理仿真运行流畅,下一个挑战就是控制。人类拥有五根灵活的手指;大多数机器人只有平行下颚夹持器或独特的运动结构。如何直观地将前者映射到后者?

Lucid-XR 引入了一个称为 搭便车控制器 (Hitchhiking Controller) 的概念。

在标准的 VR 中,如果你试图控制一只离你身体很远的虚拟机械手,手部追踪中的微小误差会随着距离被放大,导致无法进行精确控制。搭便车控制器通过将机器人的坐标系与用户的绝对位置分离来解决这个问题。

系统不再将用户的手部位置直接映射到机器人,而是应用用户相对于机器人上“动作捕捉 (MoCap) 点”的相对运动。这允许用户在舒适的距离操作机器人——本质上是在机器人的末端执行器上“搭便车”——同时保持精细运动任务所需的精度。

展示人类手部姿态如何通过对齐手指和手腕上的 MoCap 点重定向到机械手的图解。

此外,该系统使用设备端逆运动学 (IK) 求解器。该算法计算机械臂到达用户手部指定位置所需的关节角度。由于这一过程在浏览器本地运行,用户可以执行动态任务,如投球或折叠布料,而不会出现通常使这些动作无法完成的延迟。

第三部分: 从仿真到照片级逼真

现在我们有用户在一个流畅、低延迟的虚拟世界中收集数据。然而,收集到的视觉数据看起来像视频游戏——干净的几何形状、平坦的纹理和完美的光照。如果你在这些数据上训练机器人视觉系统,它在杂乱、阴暗的现实世界中会立即失效。

这正是 生成式 AI 组件发挥作用的地方。

Lucid-XR 采用了一种称为 通过图像生成实现 Sim-to-Real 的技术。该系统不试图构建现实世界的完美 3D 副本 (这在美术成本上非常昂贵) ,而是使用低保真度的仿真帧作为文本到图像扩散模型的“指南”。

生成流程

该流程工作如下:

  1. 输入: 仿真提供语义掩码 (哪些像素是机器人,哪些是物体) 和深度图 (物体有多远) 。
  2. 提示 (Prompting) : 系统使用大型语言模型 (如 ChatGPT) 生成数千个多样化的场景文本描述 (例如,“一张有着强烈阳光的乡村木制餐桌”,“一张撒满面粉的杂乱花岗岩台面”) 。
  3. 合成: 像 Stable Diffusion 这样的模型,在 ControlNet (使用掩码和深度图) 的引导下,绘制出一张新图像,该图像匹配仿真的几何形状,但看起来像文本提示描述的照片。

图像生成流程。输入包括文本提示、物体掩码和深度图。输出是一张逼真的、有纹理的厨房图像。

如图 8 所示,这个过程将单个虚拟演示转换为数百个视觉上截然不同的训练样本。在这些数据上训练的机器人学会了识别概念 (杯子、把手、倾倒) ,而不是死记硬背特定的纹理或光照条件。

生成的图像示例,展示了光照、纹理和背景杂乱度的高度多样性。

正如在图 16 中所见,该系统可以生成各种各样的“杂乱”环境,有效地训练机器人处理那些原本会使其困惑的视觉噪声。

实验与结果

研究人员通过回答两个主要问题验证了 Lucid-XR: 它比现实世界的数据收集快吗?这些数据在真正的机器人上真的有效吗?

1. 数据收集速度

在真实的机器人上收集数据是乏味的。每次尝试后你都必须手动重置场景——捡起积木、擦干溢出的液体或解开绳结。在 Lucid-XR 中,重置场景只需按一下按钮。

对比数据收集量的图表。与现实世界远程操作相比,Lucid-XR 每小时允许收集的演示数量显著更多。

结果非常显著。如图 10 所示,参与者使用 Lucid-XR 在同样的 30 分钟窗口内收集到的演示数量大约是现实世界远程操作的 2 倍 。 当应用生成式增强流程 (为每个演示创建多个视觉变体) 时,有效数据集大小增长到了现实世界基线的 5 倍

2. 现实世界的成功

终极测试是将策略部署在物理机器人上。研究人员在几项任务上测试了该系统,包括富接触类活动,如“挂杯子树” (将杯子挂在架子上) 和“球分类”。

关键在于,完全在 Lucid-XR 数据上训练 (没有使用真实世界图像) 的策略,其表现与在真实世界数据上训练的策略相当。

策略性能与数据收集时间的关系图。Lucid-XR 训练的策略 (绿色/蓝色) 达到了与真实世界训练 (红色) 相当的高成功率。

更令人印象深刻的是系统对环境变化的鲁棒性。当研究人员改变现实世界中的光照或桌布颜色时:

  • 真实世界数据上训练的策略失败了 (它过拟合了原始环境) 。
  • Lucid-XR 数据上训练的策略成功了 , 因为它在训练期间见过了数千种光照和纹理的变化。

结论: 众包机器人技术的未来

Lucid-XR 代表了我们处理机器人学习方式的重大转变。通过将数据收集与物理硬件和昂贵的服务器解耦,它为众包打开了大门。

想象一下未来,成千上万的人通过在 VR 中玩“游戏”赚钱——堆积木、叠衣服或组装套件。在后台,Lucid-XR 可以捕捉这些动作,在他们的头显上运行物理仿真,并使用生成式 AI 将这些游戏过程转化为现实世界服务机器人数百万小时的训练数据。

这种“从原子到比特 (From Atoms to Bits) ”的方法——将机器人技术的繁重工作转移到软件中——可能正是解决数据瓶颈并将能干的通用机器人带入我们日常生活所需要的。