引言
我们正处于人工智能的黄金时代,这主要归功于大型语言模型 (LLM) 和视觉语言模型 (VLM) 的推动。这些模型能够写诗、调试代码,并以惊人的准确度分析复杂的图像。然而,当我们试图将这种智能转移到物理机器人身上时,却碰壁了。“大脑”十分聪明,但“身体”却很笨拙。
机器人的终极梦想是拥有一个通用智能体——一个无论环境如何、无论使用何种特定的机器人硬件,都能整理厨房、折叠衣物和分类垃圾的机器人。目前最先进的方法是视觉-语言-动作 (Vision-Language-Action, VLA) 模型。这些模型试图将互联网上的浩瀚知识 (通过 VLM) 落地转化为机器人的动作。
然而,当前的 VLA 模型存在根本性的“架构失衡”。我们通常将一个巨大的、预训练的 VLM (70 亿参数或更多) 与一个微小的、简单的神经网络 (通常只有几百万参数) 配对,来处理实际的运动控制。这就像让一台超级计算机去控制一个只有两根线的木偶。此外,训练这些模型需要大量昂贵的数据收集工作。
在这篇文章中,我们将深入探讨 DexVLA , 这是一篇提出从根本上改变机器人大脑构建方式的新研究论文。研究人员引入了一个 10 亿参数的“扩散专家 (Diffusion Expert) ” ——一个专门用于动作的大型神经网络——以及一种独特的具身课程学习 (Embodied Curriculum Learning) 策略。
正如我们将看到的,DexVLA 不仅仅是扩大了规模;它从根本上改变了机器人学习运动的方式,使其能够执行非常复杂的任务,如折叠衣物和使用灵巧手倒饮料,而且往往只需要极少的特定训练数据。
现代机器人学习的瓶颈
要理解 DexVLA 的重要性,我们首先需要了解阻碍当前机器人学习发展的两个主要问题:
- 数据稀缺: 虽然我们要用数万亿的文本 token 来训练 LLM (如 GPT-4) ,但机器人演示数据却非常稀缺。收集数据需要人类物理引导机械臂,既缓慢又昂贵。像 OpenVLA 或 Octo 这样的当前模型依赖于 Open-X Embodiment 等数据集,但即使是这些数据也不足以捕捉每一次物理交互的细微差别。
- 架构失衡: 如前所述,大多数 VLA 侧重于扩展视觉和语言理解部分。实际决定如何移动机械臂的组件——“动作头 (action head) ”——往往是事后才考虑的。它通常是一个简单的多层感知机 (MLP) 。这就造成了脱节: 模型完全理解“折叠衬衫”这个指令,但缺乏复杂的运动神经回路来执行所需的精确、流畅的动作。
DexVLA 的解决方案
DexVLA 的作者提出了一个框架,将“动作”组件视为与“视觉-语言”组件同等重要。他们通过模块化架构和类似人类的学习课程实现了这一目标。

如图 1 所示,目标是多功能性。无论是用双臂机器人分类垃圾、折叠衣服,还是用五指机械手倒水,底层系统应该是一样的。
1. 十亿参数的扩散专家
DexVLA 的核心创新是插件式扩散专家 (Plug-in Diffusion Expert) 。 研究人员没有使用简单的输出层,而是使用了一个扩展到 10 亿参数的大规模扩散策略 (Diffusion Policy) 模型。
什么是扩散策略?
在图像生成 (如 Stable Diffusion) 的背景下,模型学习将随机噪声转化为清晰的图像。在机器人技术中, 扩散策略学习将随机噪声转化为机器人的动作轨迹。它反复“去噪”一系列随机数,直到它们形成一条平滑、符合逻辑的机械臂运动路径。
现有的扩散策略通常很小 (基于 ResNet 或 U-Net) 。DexVLA 使用基于 Transformer 的架构 (具体是 ScaleDP) 并进行了大规模扩展。这种巨大的容量使得模型能够“记忆”并泛化大量的物理行为,就像 LLM 记忆语言模式一样。
架构
架构如图 2 所示,它是模块化的。它包括:
- VLM 骨干 (Qwen2-VL) : 负责“思考”。它处理摄像头画面和文本指令。
- 投影层与 FiLM 层: 充当翻译器,将 VLM 的高级理解转化为可以影响动作专家的信号。
- 扩散专家: 生成物理运动的 10 亿参数运动皮层。

这里一个巧妙的设计是多头输出 (Multi-Head Output) 。 由于不同的机器人具有不同的物理结构 (形态) ,扩散专家针对不同的机器人类型有独立的“头”。这使得核心的 10 亿参数能够学习通用的物理和运动规律,而各个头则处理 UR5e 机械臂与 Franka 机械臂的具体接线差异。
2. 具身课程学习
这篇论文最具教育意义的部分或许是其训练策略。你不能简单地把所有数据都丢给一个 10 亿参数的模型并希望它收敛——那样太低效且不稳定。相反,作者使用了课程学习 , 模仿人类习得技能的过程。
当婴儿学习探索世界时,他们首先学习控制自己的四肢 (运动探索) ,然后学习协调四肢与视觉,最后学习像“系鞋带”这样的复杂任务。DexVLA 遵循了完全相同的三阶段进程。
第一阶段: 跨具身预训练 (“健身房”)
在这个阶段, 不使用视觉-语言模型 。 重点纯粹在于运动技能。扩散专家在包含各种机器人运动的大规模数据集上进行训练。
- 目标: 学习低级的、可泛化的运动模式 (如何平滑移动、如何接近物体) 。
- 数据: 来自不同机器人 (AgileX, Franka, UR5e) 的混合数据。
- 技术: 在此阶段,他们仅使用标准的 ResNet 来处理图像。目标是让这 10 亿参数“热身”,使其理解物理运动。
- 原因: 从头开始训练完整的 VLA 计算成本高且不稳定。仅预训练“肌肉记忆”速度要快 3 倍。
图 13 展示了此处使用的数据多样性,确保模型不会仅偏向于某一种类型的机械臂。

第二阶段: 具身特定对齐 (“身体感知”)
现在,连接上 VLM。模型在针对目标机器人的特定数据上进行训练。
- 目标: 将“大脑” (VLM) 与“肌肉” (扩散专家) 连接起来。
- 机制: VLM 的视觉编码器被冻结 (以保留其互联网规模的知识) ,但连接层 (FiLM) 和扩散专家会进行微调。
- 结果: 机器人学会了“拿起杯子” (文本/视觉) 对应于它特定身体的哪些具体运动指令。值得注意的是,在这个阶段之后,机器人已经可以执行许多任务,而无需特定的微调。
第三阶段: 任务特定适应 (“精通”)
对于极其复杂的任务 (如折叠衣物) ,模型会在特定演示上进行最后一轮训练。这能精细化策略,以处理精细的交互和长程规划。
3. 子步骤推理: 内心独白
机器人技术中最困难的挑战之一是长程任务 (Long-Horizon Tasks) 。 如果你告诉机器人“清理桌子”,这涉及几十个小步骤 (拿起罐子、移动到垃圾桶、丢下罐子、回到桌子、拿起海绵等) 。标准的扩散策略往往会在中途“忘记”目标或卡住。
以前的方法 (如 Google 的 SayCan) 使用一个单独的高级规划器每隔几秒钟给机器人发送指令。DexVLA 将这种能力移到了模型内部。

如图 3 所示,DexVLA 被训练生成子步骤推理 (Sub-step Reasoning) 。 当收到“折叠衬衫”的命令时,VLM 内部会生成像 “抚平皱纹”,然后 “对齐袖子”,再 “折叠下摆” 这样的文本 token。
这些内部想法通过 FiLM 层注入到扩散专家中。这使得模型能够保持“思维链”,使其在执行需要几分钟才能完成的任务时保持正轨。
实验结果
研究人员在多种硬件设置上评估了 DexVLA,包括单臂、双臂设置,甚至是灵巧手。

无需任务特定训练的性能 (第二阶段)
首先,他们检查了模型在第二阶段 (对齐) 之后但在特定任务训练之前的表现。这测试了泛化能力。他们将 DexVLA 与顶级基线模型进行了比较: OpenVLA、Octo 和标准 扩散策略 (Diffusion Policy) 。
图 6 中的结果 (并在图 5 中可视化) 令人震惊。


对于折叠衬衫任务——这需要双臂协调和处理可变形织物——像 OpenVLA 这样的基线模型得分为 0.0 。 它们根本做不到。DexVLA 取得了 0.92 的分数。这证明了在不同运动数据上预训练的大规模 10 亿参数专家拥有较小模型所缺乏的对操作的基本理解。
学习新具身 (灵巧手)
机器人技术中最昂贵的部分之一是在购买新机器人时重新训练模型。研究人员在预训练数据中未见过的五指灵巧手 (见图 7) 上测试了 DexVLA 的“倒饮料”任务。

他们只使用了 100 次演示 (对于深度学习来说是非常小的数据量) 。

图 8 展示了结果。DexVLA 达到了近 90% 的成功率。OpenVLA 和 Octo 几乎完全失败 (0% 成功率) 。即使是从头开始在这个数据上训练的标准扩散策略,表现也差得多。这证实了“第一阶段”预训练建立了一个强大的基础,可以快速适应全新的物理身体。
终极测试: 长程任务
最后,研究人员通过需要第三阶段训练的任务将模型推向了极限,例如折叠衣物 (从篮子里拿出一件皱巴巴的衬衫并折叠) 和困难的餐桌清理 。
他们将 DexVLA 与 \(\pi_0\) (Pi-Zero) 进行了比较,后者是来自 Physical Intelligence 的最先进 VLA 模型。


在图 9 中,我们看到 DexVLA 在最困难的任务上优于 \(\pi_0\)。对于折叠衣物,DexVLA 得分为 0.4 , 而 \(\pi_0\) 得分为 0.2 (其他模型为 0) 。这主要归功于子步骤推理 。 如果没有能力在内部将任务分解 (例如,“先弄平,再折叠”) ,扩散专家就会迷失在织物物理特性的复杂性中。
大小重要吗? (消融研究)
深度学习中一个关键的问题总是: “它奏效是因为巧妙的架构,还是仅仅因为你把它做大了?”
研究人员将他们的 10 亿参数专家与标准的 9300 万参数 U-Net (用于标准扩散策略) 和较小的 4.1 亿参数专家进行了比较。

表 3 给出了答案。在折叠衬衫任务上:
- 93M 模型: 0.17 分。
- 410M 模型: 0.63 分。
- 1B DexVLA: 0.92 分。
性能的提升是巨大的。作者指出,较小的模型表现出“震荡”——机械臂会抖动或犹豫。10 亿参数模型平滑了这些不一致性,这表明对于复杂的物理交互, 规模对于动作模型至关重要 , 而不仅仅是语言模型。
结论与启示
DexVLA 代表了“通用机器人”概念的成熟。它摆脱了仅仅需要一个聪明的 VLM 的想法,承认物理动作需要其自身庞大的、专用的神经回路。
这项工作的主要启示是:
- 扩动作模型的规模: 正如我们扩展 LLM 以获得更好的推理能力一样,我们必须扩展扩散策略 (到 10 亿以上参数) 以获得更好的运动控制。
- 课程很重要: 你无法一次学会所有东西。将运动预训练 (第一阶段) 与 VLM 对齐 (第二阶段) 分开对于数据效率至关重要。
- 内化规划器: 通过生成子步骤推理 token,VLM 可以引导动作专家完成长任务,而无需外部代码或规划器。
DexVLA 预示着未来我们可能会拥有“基础动作模型”——预训练的纯运动大脑,可以下载并插入任何机器人,从工厂机械臂到人形管家,只需快速的对齐阶段即可投入工作。
](https://deep-paper.org/en/paper/2502.05855/images/cover.png)