引言

我们正处于人工智能的黄金时代,这主要归功于大型语言模型 (LLM) 和视觉语言模型 (VLM) 的推动。这些模型能够写诗、调试代码,并以惊人的准确度分析复杂的图像。然而,当我们试图将这种智能转移到物理机器人身上时,却碰壁了。“大脑”十分聪明,但“身体”却很笨拙。

机器人的终极梦想是拥有一个通用智能体——一个无论环境如何、无论使用何种特定的机器人硬件,都能整理厨房、折叠衣物和分类垃圾的机器人。目前最先进的方法是视觉-语言-动作 (Vision-Language-Action, VLA) 模型。这些模型试图将互联网上的浩瀚知识 (通过 VLM) 落地转化为机器人的动作。

然而,当前的 VLA 模型存在根本性的“架构失衡”。我们通常将一个巨大的、预训练的 VLM (70 亿参数或更多) 与一个微小的、简单的神经网络 (通常只有几百万参数) 配对,来处理实际的运动控制。这就像让一台超级计算机去控制一个只有两根线的木偶。此外,训练这些模型需要大量昂贵的数据收集工作。

在这篇文章中,我们将深入探讨 DexVLA , 这是一篇提出从根本上改变机器人大脑构建方式的新研究论文。研究人员引入了一个 10 亿参数的“扩散专家 (Diffusion Expert) ” ——一个专门用于动作的大型神经网络——以及一种独特的具身课程学习 (Embodied Curriculum Learning) 策略。

正如我们将看到的,DexVLA 不仅仅是扩大了规模;它从根本上改变了机器人学习运动的方式,使其能够执行非常复杂的任务,如折叠衣物和使用灵巧手倒饮料,而且往往只需要极少的特定训练数据。

现代机器人学习的瓶颈

要理解 DexVLA 的重要性,我们首先需要了解阻碍当前机器人学习发展的两个主要问题:

  1. 数据稀缺: 虽然我们要用数万亿的文本 token 来训练 LLM (如 GPT-4) ,但机器人演示数据却非常稀缺。收集数据需要人类物理引导机械臂,既缓慢又昂贵。像 OpenVLA 或 Octo 这样的当前模型依赖于 Open-X Embodiment 等数据集,但即使是这些数据也不足以捕捉每一次物理交互的细微差别。
  2. 架构失衡: 如前所述,大多数 VLA 侧重于扩展视觉语言理解部分。实际决定如何移动机械臂的组件——“动作头 (action head) ”——往往是事后才考虑的。它通常是一个简单的多层感知机 (MLP) 。这就造成了脱节: 模型完全理解“折叠衬衫”这个指令,但缺乏复杂的运动神经回路来执行所需的精确、流畅的动作。

DexVLA 的解决方案

DexVLA 的作者提出了一个框架,将“动作”组件视为与“视觉-语言”组件同等重要。他们通过模块化架构和类似人类的学习课程实现了这一目标。

图 1: 不同任务和场景中的灵巧技能。我们要提出的 DexVLA 方法能够在不同场景下跨多种具身形态实现通用的灵巧操作。

如图 1 所示,目标是多功能性。无论是用双臂机器人分类垃圾、折叠衣服,还是用五指机械手倒水,底层系统应该是一样的。

1. 十亿参数的扩散专家

DexVLA 的核心创新是插件式扩散专家 (Plug-in Diffusion Expert) 。 研究人员没有使用简单的输出层,而是使用了一个扩展到 10 亿参数的大规模扩散策略 (Diffusion Policy) 模型。

什么是扩散策略?

在图像生成 (如 Stable Diffusion) 的背景下,模型学习将随机噪声转化为清晰的图像。在机器人技术中, 扩散策略学习将随机噪声转化为机器人的动作轨迹。它反复“去噪”一系列随机数,直到它们形成一条平滑、符合逻辑的机械臂运动路径。

现有的扩散策略通常很小 (基于 ResNet 或 U-Net) 。DexVLA 使用基于 Transformer 的架构 (具体是 ScaleDP) 并进行了大规模扩展。这种巨大的容量使得模型能够“记忆”并泛化大量的物理行为,就像 LLM 记忆语言模式一样。

架构

架构如图 2 所示,它是模块化的。它包括:

  1. VLM 骨干 (Qwen2-VL) : 负责“思考”。它处理摄像头画面和文本指令。
  2. 投影层与 FiLM 层: 充当翻译器,将 VLM 的高级理解转化为可以影响动作专家的信号。
  3. 扩散专家: 生成物理运动的 10 亿参数运动皮层。

图 2: DexVLA 架构和具身课程学习。我们的模型采用三阶段训练过程。第一阶段 (左) 独立训练扩散专家,不使用 VLM。第二和第三阶段 (中) 将扩散专家与 VLM 集成,丢弃专家内部的视觉和语言组件。扩散专家 (右) 使用多头进行跨具身学习。

这里一个巧妙的设计是多头输出 (Multi-Head Output) 。 由于不同的机器人具有不同的物理结构 (形态) ,扩散专家针对不同的机器人类型有独立的“头”。这使得核心的 10 亿参数能够学习通用的物理和运动规律,而各个头则处理 UR5e 机械臂与 Franka 机械臂的具体接线差异。

2. 具身课程学习

这篇论文最具教育意义的部分或许是其训练策略。你不能简单地把所有数据都丢给一个 10 亿参数的模型并希望它收敛——那样太低效且不稳定。相反,作者使用了课程学习 , 模仿人类习得技能的过程。

当婴儿学习探索世界时,他们首先学习控制自己的四肢 (运动探索) ,然后学习协调四肢与视觉,最后学习像“系鞋带”这样的复杂任务。DexVLA 遵循了完全相同的三阶段进程。

第一阶段: 跨具身预训练 (“健身房”)

在这个阶段, 不使用视觉-语言模型 。 重点纯粹在于运动技能。扩散专家在包含各种机器人运动的大规模数据集上进行训练。

  • 目标: 学习低级的、可泛化的运动模式 (如何平滑移动、如何接近物体) 。
  • 数据: 来自不同机器人 (AgileX, Franka, UR5e) 的混合数据。
  • 技术: 在此阶段,他们仅使用标准的 ResNet 来处理图像。目标是让这 10 亿参数“热身”,使其理解物理运动。
  • 原因: 从头开始训练完整的 VLA 计算成本高且不稳定。仅预训练“肌肉记忆”速度要快 3 倍。

图 13 展示了此处使用的数据多样性,确保模型不会仅偏向于某一种类型的机械臂。

图 13: 我们第一阶段训练的数据集概览。

第二阶段: 具身特定对齐 (“身体感知”)

现在,连接上 VLM。模型在针对目标机器人的特定数据上进行训练。

  • 目标: 将“大脑” (VLM) 与“肌肉” (扩散专家) 连接起来。
  • 机制: VLM 的视觉编码器被冻结 (以保留其互联网规模的知识) ,但连接层 (FiLM) 和扩散专家会进行微调。
  • 结果: 机器人学会了“拿起杯子” (文本/视觉) 对应于它特定身体的哪些具体运动指令。值得注意的是,在这个阶段之后,机器人已经可以执行许多任务,而无需特定的微调。

第三阶段: 任务特定适应 (“精通”)

对于极其复杂的任务 (如折叠衣物) ,模型会在特定演示上进行最后一轮训练。这能精细化策略,以处理精细的交互和长程规划。

3. 子步骤推理: 内心独白

机器人技术中最困难的挑战之一是长程任务 (Long-Horizon Tasks) 。 如果你告诉机器人“清理桌子”,这涉及几十个小步骤 (拿起罐子、移动到垃圾桶、丢下罐子、回到桌子、拿起海绵等) 。标准的扩散策略往往会在中途“忘记”目标或卡住。

以前的方法 (如 Google 的 SayCan) 使用一个单独的高级规划器每隔几秒钟给机器人发送指令。DexVLA 将这种能力移到了模型内部

图 3: 长程任务的直接提示示例。图中展示了三个任务: 折叠衣物 (上) 、卸载烘干机 (中) 、分类 (下) 。我们的 DexVLA 自动将原始指令分解为子步骤。在这些任务中取得成功不仅需要灵巧性,还需要将直接提示分解为隐式多步推理并理解视觉上下文的能力。

图 3 所示,DexVLA 被训练生成子步骤推理 (Sub-step Reasoning) 。 当收到“折叠衬衫”的命令时,VLM 内部会生成像 “抚平皱纹”,然后 “对齐袖子”,再 “折叠下摆” 这样的文本 token。

这些内部想法通过 FiLM 层注入到扩散专家中。这使得模型能够保持“思维链”,使其在执行需要几分钟才能完成的任务时保持正轨。

实验结果

研究人员在多种硬件设置上评估了 DexVLA,包括单臂、双臂设置,甚至是灵巧手。

图 4: 我们的实验包括各种机器人类型: 双臂 UR5e、Franka、双臂 AgileX 和带灵巧手的 Franka。

无需任务特定训练的性能 (第二阶段)

首先,他们检查了模型在第二阶段 (对齐) 之后但在特定任务训练之前的表现。这测试了泛化能力。他们将 DexVLA 与顶级基线模型进行了比较: OpenVLAOcto 和标准 扩散策略 (Diffusion Policy)

图 6 中的结果 (并在图 5 中可视化) 令人震惊。

图 6: 无需任务特定适应的任务结果。我们将我们的模型与 Octo、OpenVLA 和扩散策略进行了比较。每个模型的性能在 10 次试验中进行评估,分数取平均值。

图 5: 无需任务特定适应的任务示例。我们在第二阶段训练后使用三个任务评估了模型的性能: 简单的捡垃圾箱 (上) 、折叠衬衫 (中) 和简单的清理餐桌 (下) 。

对于折叠衬衫任务——这需要双臂协调和处理可变形织物——像 OpenVLA 这样的基线模型得分为 0.0 。 它们根本做不到。DexVLA 取得了 0.92 的分数。这证明了在不同运动数据上预训练的大规模 10 亿参数专家拥有较小模型所缺乏的对操作的基本理解。

学习新具身 (灵巧手)

机器人技术中最昂贵的部分之一是在购买新机器人时重新训练模型。研究人员在预训练数据中未见过的五指灵巧手 (见图 7) 上测试了 DexVLA 的“倒饮料”任务。

图 7: 在新具身形态上学习灵巧技能的任务示例。我们在两个新具身形态上评估了我们的模型,分别是打包 (上) 和倒饮料 (下) 任务,这些任务未包含在第一和第二阶段的训练数据中。

他们只使用了 100 次演示 (对于深度学习来说是非常小的数据量) 。

图 8: 从新具身形态学习灵巧技能的结果。我们将我们的模型与四个基线进行了比较: 扩散策略、Octo 和 OpenVLA。扩散策略是直接从头开始在这些新任务上训练的。

图 8 展示了结果。DexVLA 达到了近 90% 的成功率。OpenVLA 和 Octo 几乎完全失败 (0% 成功率) 。即使是从头开始在这个数据上训练的标准扩散策略,表现也差得多。这证实了“第一阶段”预训练建立了一个强大的基础,可以快速适应全新的物理身体。

终极测试: 长程任务

最后,研究人员通过需要第三阶段训练的任务将模型推向了极限,例如折叠衣物 (从篮子里拿出一件皱巴巴的衬衫并折叠) 和困难的餐桌清理

他们将 DexVLA 与 \(\pi_0\) (Pi-Zero) 进行了比较,后者是来自 Physical Intelligence 的最先进 VLA 模型。

图 11: 需要第三阶段训练的任务的平均得分。我们将我们的模型与两个基线进行了比较: Octo 和 OpenVLA。在 10 次试验的平均得分中,我们的方法在所有任务上都显著优于两个基线。注意,分类任务未包含在预训练数据中。

图 9: 需要第三阶段训练的任务的平均得分。我们将我们的模型与 Octo、OpenVLA 和 \\(\\pi _ { 0 }\\) 在折叠衣物和清理餐桌 (困难) 任务上进行了比较。

图 9 中,我们看到 DexVLA 在最困难的任务上优于 \(\pi_0\)。对于折叠衣物,DexVLA 得分为 0.4 , 而 \(\pi_0\) 得分为 0.2 (其他模型为 0) 。这主要归功于子步骤推理 。 如果没有能力在内部将任务分解 (例如,“先弄平,再折叠”) ,扩散专家就会迷失在织物物理特性的复杂性中。

大小重要吗? (消融研究)

深度学习中一个关键的问题总是: “它奏效是因为巧妙的架构,还是仅仅因为你把它做大了?”

研究人员将他们的 10 亿参数专家与标准的 9300 万参数 U-Net (用于标准扩散策略) 和较小的 4.1 亿参数专家进行了比较。

表 3: 扩散专家规模的消融结果。我们要报告的是折叠衬衫任务的平均得分。

表 3 给出了答案。在折叠衬衫任务上:

  • 93M 模型: 0.17 分。
  • 410M 模型: 0.63 分。
  • 1B DexVLA: 0.92 分。

性能的提升是巨大的。作者指出,较小的模型表现出“震荡”——机械臂会抖动或犹豫。10 亿参数模型平滑了这些不一致性,这表明对于复杂的物理交互, 规模对于动作模型至关重要 , 而不仅仅是语言模型。

结论与启示

DexVLA 代表了“通用机器人”概念的成熟。它摆脱了仅仅需要一个聪明的 VLM 的想法,承认物理动作需要其自身庞大的、专用的神经回路。

这项工作的主要启示是:

  1. 扩动作模型的规模: 正如我们扩展 LLM 以获得更好的推理能力一样,我们必须扩展扩散策略 (到 10 亿以上参数) 以获得更好的运动控制。
  2. 课程很重要: 你无法一次学会所有东西。将运动预训练 (第一阶段) 与 VLM 对齐 (第二阶段) 分开对于数据效率至关重要。
  3. 内化规划器: 通过生成子步骤推理 token,VLM 可以引导动作专家完成长任务,而无需外部代码或规划器。

DexVLA 预示着未来我们可能会拥有“基础动作模型”——预训练的纯运动大脑,可以下载并插入任何机器人,从工厂机械臂到人形管家,只需快速的对齐阶段即可投入工作。