引言

想象一下学习做一道复杂的菜。你有两种学习方式。一种是让一位大厨站在你身后,手把手地指导你,纠正你切洋葱的每一个动作,并替你调节火候。另一种方式是简单地看几个别人做这道菜的 YouTube 视频,然后自己尝试模仿这些动作。

在机器人领域,第一种方法——带有“动作标签”的显式监督——是目前的标准做法。我们通过遥操作 (像操纵木偶一样控制它们) 收集数据,精确记录哪些电机移动了以及移动了多少。这能产生高质量的数据,但收集起来极其缓慢且昂贵。

第二种方法——通过观看视频学习——则是“圣杯”。互联网上充斥着人类与物体交互的视频。如果机器人能够观看人类倒咖啡,并理解其中的动作需求,我们就能指数级地扩展机器人的学习能力。但这里存在一个巨大的语言障碍: 人类没有电机,视频也不包含关节角度数据。

这就是 MotoVLA 所要解决的问题。

在论文《Generalist Robot Manipulation beyond Action Labeled Data》中,来自 INSAIT 和苏黎世联邦理工学院的研究人员提出了一种新颖的架构,允许机器人从无标签视频中学习——无论是其他机器人的视频还是人类的视频。通过弥合“看”与“做”之间的鸿沟,MotoVLA 实现了他们所谓的 动作域外泛化 (Out-of-Action Domain Generalization) : 即机器人能够执行它从未显式练习过的任务,仅仅因为它在视频中“看到”过。

在这篇文章中,我们将拆解 MotoVLA 的架构,解释如何巧妙地利用 “动态点云” (Dynamic Point Clouds) 作为动作的通用语言,并看看这种方法如何超越 OpenVLA 等最先进的模型。

图 1: MotoVLA 的高层概览。

背景: 数据瓶颈

要理解 MotoVLA 的重要性,我们需要了解当前通用机器人操作中的瓶颈。

现代机器人 AI 通常依赖 VLA (视觉-语言-动作) 模型。这些模型类似于 ChatGPT 背后的大语言模型 (LLMs) ,但有所不同。它们接收图像 (视觉) 和指令 (语言) 作为输入,并输出机器人指令 (动作) 。

成功的 VLA 通常包含以下要素:

  1. 预训练的 VLM: 一个已经理解物体外观的模型 (例如,能区分杯子和勺子) 。
  2. 机器人演示: 数千小时的遥操作机器人数据,用于教 VLM 如何移动。

问题在于第二个要素。虽然我们有数十亿张图像来训练视觉模型,但“机器人演示数据”却很稀缺。更糟糕的是,现有的 VLA 难以泛化。如果你训练机器人捡起一个红苹果,然后让它捡起一个绿梨 (一个它没练习过的任务) ,它往往会失败。

研究人员假设,我们不需要更多昂贵的机器人数据。我们需要释放 无标签视频 的价值。

具身差异 (The Embodiment Gap)

为什么我们不能直接给机器人看一段人手的视频然后说“照着做”?这就是所谓的 具身差异 (Embodiment Gap)

  • 视觉差异: 有血有肉的人手看起来一点也不像金属夹爪。
  • 运动学差异: 人类手臂的关节和自由度与机械臂不同。
  • 数据差异: 视频只是像素网格。机器人需要的是 7 维关节向量 (动作) 。

MotoVLA 通过引入一种中间表示来解决这个问题,这种表示忽略了 在做动作,而专注于动作 如何 发生: 这就是 动态点云

核心方法: MotoVLA 架构

MotoVLA 的核心理念是,虽然人手和机器人夹爪看起来不同,但在执行任务时的 运动几何形态 是相似的。如果一个人按下按钮,他的手会沿着特定的轨迹向目标移动。如果机器人按下按钮,其轨迹在几何上是可比的。

研究人员提出了一个 两阶段训练流程 :

  1. 动态点云训练: 使用海量的无标签视频 (人类和机器人) 来学习“物体如何移动”。
  2. 动作对齐: 使用较小的有标签机器人数据集来学习“如何移动机器人”。

图 2: 两阶段训练流程。左: 从视频中学习动力学。右: 将动力学对齐到机器人动作。

让我们详细分解这两个阶段。

第一阶段: 动态点云训练 (通才阶段)

在这个阶段,目标是教会模型物理规律和运动动力学,暂时不考虑机器人的电机。研究人员混合使用了以下数据:

  • 机器人视频 (无标签) : 机器人执行任务的视频,但剥离了动作标签。
  • 人类视频: RH20T 数据集,包含人类执行操作任务的内容。

生成信号

由于这些视频没有标签,研究人员生成了自己的监督信号。他们使用一系列计算机视觉工具来提取 动态点云 :

  1. 检测: 使用目标检测器 (Grounding DINO) 找到手或夹爪。
  2. 分割: 创建手/夹爪的掩码 (SAM v2) 。
  3. 追踪: 在手/夹爪上采样点,并在时间轴上追踪它们 (Boots-TAPIR) 。
  4. 3D 提升: 使用深度估计 (MoGE) 将这些 2D 轨迹转换为 3D 空间。

结果是一个代表手或夹爪在空间中移动的 3D 点序列。这种表示是 与具身无关的 (embodiment-agnostic) 。 无论是一簇 3D 点来自手还是夹爪,它们向前移动的样子大致相同。

学习目标

模型被训练来预测这些点的 未来 位置。 在数学上,模型学习一个函数 \(\mathbf{f}_{\theta}^{points}\),该函数接收当前图像 \(\mathbf{I}\)、语言指令 \(l\) 和最近的点历史 \(\mathbf{p}\),并预测未来的点云轨迹 \(\mathbf{p}_{t:t+c}\):

方程 1: 点云预测函数

架构

MotoVLA 的骨干是 Paligemma , 一个 30 亿参数的视觉-语言模型。

  • VLM 骨干: 处理图像和文本以理解场景 (例如,“杯子在哪里?”) 。
  • 3D 动力学预测器 (3D Dynamics Predictor) : 一个较小的 Transformer,接收 VLM 的理解结果和当前点云,并使用 流匹配 (Flow Matching) (一种类似于扩散模型的生成技术) 预测未来的运动。

损失函数基本上是在问: “模型是否正确猜出了手/夹爪点在接下来几帧中的位置?”

方程 3: 点云损失函数

在第一阶段结束时,模型理解了操作的 概念。它知道“倒水”意味着一种特定的弧形运动,无论执行该动作的是什么肢体。

第二阶段: 动作对齐 (专才阶段)

现在模型理解了运动,但它还不知道如何驱动实验中使用的 WidowX 机器人的具体电机。

在这个阶段,研究人员引入了一个较小的、确实 带有动作标签 (机器人关节指令) 的数据集。他们将“3D 动力学预测器”头替换为 “动作预测器” (Action Predictor) 头。

因为主 VLM 骨干已经学会了从海量视频数据集中解释场景并预测运动动力学,这第二阶段本质上只是将这些知识“校准”到机器人的硬件上。

训练目标转变为预测机器人的本体感觉 (关节状态) \(\mathbf{q}\):

方程 2: 动作预测函数

架构是镜像的——它仍然使用流匹配,但现在的目标是机器人动作块,而不是点云。

方程 4: 动作损失函数

这种两阶段方法使得 MotoVLA 具有极高的数据效率。它从丰富的视频中学习“困难部分” (推理和运动规划) ,并从稀缺的机器人数据中学习“具体部分” (电机控制) 。

实验与结果

为了证明这一点的有效性,作者在仿真环境 (SIMPLER) 和现实世界的 WidowX 机器人上进行了广泛的实验。他们将 MotoVLA 与强大的基线模型进行了比较,包括:

  • \(\pi_0\) (B): 一个最先进的、完全在机器人数据上从头训练的流匹配 VLA。
  • OpenVLA: 一个流行的开源通用模型。
  • MotoVLA (R): 他们自己的模型,但 在机器人视频上训练 (无人类数据) ,用于测试人类视频是否有帮助。

实验旨在回答一个关键问题: 机器人能否完成它从未实际练习过的任务?

“动作域外”测试

这是论文中最令人兴奋的部分。研究人员在 无标签人类视频 (第一阶段) 中出现过,但在 有标签机器人动作 (第二阶段) 中 缺失 的任务上测试了机器人。

例如,任务 “按按钮” (Push Button) 在人类视频中出现过,但机器人从未在动作对齐阶段练习过。

定量结果

结果令人瞩目。MotoVLA (R+H)——使用机器人 + 人类数据训练——始终优于基线。

请看下面的图 3。黄色条代表 MotoVLA (R+H)。

  • “From Human Demonstration” (来自人类演示) 部分 (中间) 。在“按按钮”或“把线缆放入篮子”等任务中,MotoVLA 完胜 \(\pi_0\) 基线 (蓝色条) 。
  • 基线 \(\pi_0\) 经常失败 (0% 或极低的成功率) ,因为它在训练数据中从未见过这些任务。MotoVLA 之所以成功,是因为它从无标签的人类视频中“记住”了动作。

图 3: 真实 WidowX 机器人上的成功率。注意在源自人类演示的任务 (中间部分) 中的性能差距。

定性结果: 眼见为实

数字固然重要,但在机器人领域,你更希望看到实际动作。作者提供了“连拍图”,对比了他们的模型与基线。

在下方的图 8 中,看看行为上的差异:

  • MotoVLA (上排) : 动作果断。在“按按钮”中,它直接向下移动。在“把垃圾放入杯子”中,它准确地抓住了纸团。
  • 基线 (下排) : 基线在挣扎。在“按按钮”中,它悬停或漂移。它缺乏关于按按钮应该是什么样子的“先验”知识。

图 8: 现实世界中的运行展示。MotoVLA (上) 成功完成了基线模型 (下) 难以完成的任务。

为什么 3D 点很重要 (消融实验)

你可能会问: 为什么要费劲创建 3D 点云?为什么不直接追踪屏幕上的 2D 像素?

作者也提出了这个问题。他们进行了一项消融实验,将他们的 3D 方法与仅预测 2D 轨迹的版本 (MotoVLA 2D) 进行了比较。

结果 (如下表 2 所示) 证实了 3D 的优越性。 MotoVLA (R+H) 模型在仿真中达到了 68.2% 的成功率,而 2D 版本为 64.2% 。 在真机上,差距更大 (2D 版本下降了 12.5%) 。

原因在于 3D 点云更接近物理世界的“真相”。如果摄像机角度稍有偏移,2D 像素轨迹就会发生剧烈变化。而 3D 轨迹更稳健,也更容易让机器人映射到其 3D 电机指令上。

表 2: 消融实验。注意使用 3D 点 (最后一行) 比 2D 轨迹或其他架构选择产生的成功率更高。

结论与启示

MotoVLA 论文为通用机器人的发展迈出了有力的一步。通过将 动态点云 作为一种通用语言,研究人员成功地弥合了被动视频观看与主动机器人控制之间的鸿沟。

以下是给学生和从业者的关键要点:

  1. 无标签数据是有用的: 我们不再受限于我们能收集到的遥操作数据量。互联网上的人类视频包含了可以提取的宝贵运动先验。
  2. 表示法很关键: 中间表示 的选择至关重要。直接将像素映射到动作很难。将像素映射到 3D 点,再映射到动作,创造了一条更平滑的学习曲线。
  3. 泛化是可能的: 机器人 可以 学习执行它们没有被显式编程过的任务,前提是它们在其他地方 (即使是由人类执行的) 见过这个概念。

这项工作预示着这样一个未来: 我们可以仅仅通过给家庭机器人看一个 YouTube 教程来“教会”它折叠衣物,而不需要花几个小时手动移动它的手臂。虽然我们还没有完全达到那个阶段,但 MotoVLA 证明了来自人类视频的视觉直觉可以直接转化为机器人的技能。