想象一下,一个机器人能够理解你的指令,看到周围的世界,并执行复杂任务,例如:

“拿起勺子,把它放进杯子里,然后将杯子移到盘子上。”

这就是视觉-语言-动作 (Vision-Language-Action, VLA) 模型的承诺——它们是下一代通用机器人的“大脑”。

传统上,构建这类模型的方式是“蛮力”式的: 使用一个庞大的视觉-语言模型 (VLM) ,在海量机器人数据上进行预训练,然后针对特定任务进行微调。虽然有效,但存在严重缺点:

  • 巨大的计算成本 (数百 GPU 小时) 。
  • 模型参数庞大,消耗大量显存 (VRAM) 。
  • 推理速度慢,难以在真实场景中实用。

这引出了一个根本性且少有人探索的问题:

我们如何才能高效地将模型对视觉和语言的高层理解,转化为执行动作所需的底层电机指令——同时避免巨大的计算与庞大的模型?

一篇新论文 VLA-Adapter 正面回答了这一问题。作者提出了一种新颖的桥接范式,用一个仅为前代模型一小部分规模的模型,实现了业界顶尖 (SOTA) 的性能。如下所示,该方法使用0.5B (5亿) 参数的模型——比 7B (70亿) 参数的 SOTA 模型小 14 倍,微调成本低 38 倍,运行速度快 3 倍,同时性能持平甚至超越顶尖水平。

图 1: VLA-Adapter 与 OpenVLA-OFT 的特性对比。在保持性能的情况下,模型规模、微调成本、显存使用和吞吐量均有显著改进。

这不仅是一个新模型——它更是构建高效机器人智能的蓝图。接下来让我们来剖析 VLA-Adapter 的工作原理。


桥接问题: 从“看见”到“行动”

每个 VLA 模型的核心都是一座连接**感知模块 (VLM) 与动作模块 **(策略网络) 的桥梁

  • VLM 将图像和指令处理为多模态表征。
  • 策略网络 将该表征转化为动作序列 (如 7 自由度机械臂的运动指令) 。

这座桥梁的质量直接影响机器人执行任务的效果。

历史上,研究人员尝试过多种桥接策略:

图 2: 从 VLM 到策略网络的四种现有桥接范式。它们在特征类型 (原始特征 vs. 动作查询) 及所用层级上各不相同。

  1. 最后一层的原始特征
    提取 VLM 最后一层的特征——包含最抽象的语义信息。
  2. 中间层的原始特征
    提取中间层的特征,保留更多有助于操控的细粒度细节。
  3. 所有层的原始特征
    聚合所有层的特征,覆盖从细节到语义的完整光谱。
  4. 额外查询作为接口
    在 VLM 中引入可学习的标记 (“ActionQuery”) ,显式提取与动作相关的特征——如 OpenVLA-OFT 等强大的 SOTA 模型采用了这一方法。

虽然这些方法各有优点,但此前从未有人在统一框架下系统地对它们进行比较——直到现在。


VLA-Adapter: 双条件的故事

VLA-Adapter 项目始于两个关键问题:

图 3: 统一的 VLA-Adapter 框架,探索来自不同 VLM 层的原始特征与动作查询特征作为策略网络条件的效果。

  1. VLM 的哪些层能提供生成动作的最佳特征?
  2. 哪种特征类型更优——原始特征还是动作查询 (ActionQuery) ?

研究团队测试了四种组合:

  • 单层原始特征
  • 所有层原始特征
  • 单层动作查询特征
  • 所有层动作查询特征

在一个高难度基准 (LIBERO-Long) 上的结果如下:

图 4: 不同条件策略的性能对比。所有层动作查询表现最佳,但所有层原始特征的表现也很强。

研究发现:

  • 原始特征: 中间层表现最佳。深层特征过于依赖抽象语义,丢失了有用细节。
  • 动作查询: 深层表现最佳,因为这些标记是从零开始训练的,到最后能积累丰富的多模态信息。
  • 多层胜于单层: 使用所有层优于只用一层,并且免去了手动寻找“最佳层”的过程。

整体上,所有层动作查询性能最佳——但有趣的是,在部分高难度子任务中,中间层的原始特征反而优于动作查询:

表 1: 在 LIBERO-Long 的子任务 7 和 9 中,中间层原始特征优于动作查询,为混合使用提供了动机。

由此产生了核心思想: 动态结合使用原始特征与动作查询特征。


带有桥接注意力的策略网络

基于上述洞见,作者设计了一个轻量级策略网络,其核心组件是新颖的桥接注意力 (Bridge Attention) 模块。

图 5: 带有桥接注意力的策略网络架构——融合多层原始特征与动作查询特征以及当前动作隐变量。

在策略网络的每一层:

  1. 三路注意力机制:

    • 交叉注意力 (原始特征) 聚焦来自 VLM 原始特征的精细多模态信息。
    • 交叉注意力 (动作查询) 聚焦凝练、以动作为中心的 VLM 输出。
    • 自注意力 细化当前的动作规划。
  2. 原始特征的可学习门控:
    一个参数 g (经 tanh 激活) 学习在何种程度上注入原始特征细节——仅在需要时补充动作查询。

  3. 拼接与优化:
    将三路注意力的输出拼接起来,形成当前层更新后的动作表征。

\[ \widehat{\mathbf{A}}_{t}^{\tau} = \left[ \operatorname{CA}_{1}(\widetilde{\mathbf{A}}_{t}^{\tau}, \sigma_{1}(\mathcal{C}_{t}^{\mathcal{R}})) \cdot \tanh(g),\; \operatorname{CA}_{2}(\widetilde{\mathbf{A}}_{t}^{\tau}, \sigma_{2}[\mathcal{C}_{t}^{\mathcal{AQ}}, \sigma_{0}(\mathcal{P}_{t})]),\; \operatorname{SA}(\widetilde{\mathbf{A}}_{t}^{\tau}, \widetilde{\mathbf{A}}_{t}^{\tau}) \right] \]

采用简单的 L1 损失进行端到端训练:

\[ \min_{\theta} \mathcal{J}(\theta) = \mathbb{E}\left[ \left\| \pi_{\theta}(\mathbf{A}_{t}^{\tau}, \mathcal{C}_{t}^{\mathcal{R}}, \mathcal{C}_{t}^{\mathcal{AQ}}, \sigma_{0}(\mathcal{P}_{t}), \tau) - \mathbf{A}_{t} \right\|_{1} \right] \]

实验: 小模型,大成效

必要性与效率

当与未进行机器人预训练的 VLM 搭配时,VLA-Adapter 的桥接性能远超 OFT:

表 2: 对于未经机器人预训练的 VLM,VLA-Adapter 的桥接性能显著优于 OFT。

即使冻结主干网络,VLA-Adapter 依然表现稳健——而 OFT 则彻底失效:

表 3: 冻结主干网络时,VLA-Adapter 仍保持高成功率;OFT 则完全失败。

它的速度也非常快——吞吐量超过 219 Hz,而 OpenVLA-OFT 仅有 71 Hz:

表 4: 吞吐量与延迟对比——VLA-Adapter 在速度上占优。


基准测试中的 SOTA 表现

LIBERO 基准上,VLA-Adapter 的微型 0.5B 主干取得了 97.3% 平均成功率,媲美甚至超越 7B 模型:

表 5: LIBERO 基准测试对比——微型 VLA-Adapter 表现匹敌或超越大规模模型。

CALVIN 零样本泛化测试中,它完成了最长的动作序列并取得最高成功率:

表 6: CALVIN ABC→D 零样本泛化结果——VLA-Adapter 在成功率及平均长度上领先。


真实机器人实验的成功

团队将 VLA-Adapter 部署在一台 6 自由度的 Synria Alicia-D 机器人上:

图 6: 真实世界的操作场景与任务示例。

在物理任务中,其成功率超过了 ACT 和基于 OFT 的桥接策略:

图 7: VLA-Adapter 在真实世界任务中的成功率优于基线方法。


消融实验: 性能来源分析

  • ActionQuery 数量: 64 个最优——在信息丰富度和效率之间取得平衡。
    图 8: ActionQuery 数量对性能的影响——64 个标记时效果最佳。
  • 条件类型: 混合使用所有层原始特征与所有层动作查询效果最佳。
    表 7: 桥接方式对比——VLA-Adapter 的混合设计效果更优。
  • 注入程度: 对原始特征采用可学习门控,对动作查询进行完全注入,可实现最佳性能。
    表 8: 注入程度研究——验证了 VLA-Adapter 桥接注意力设计的有效性。

结论: 降低机器人智能的门槛

VLA-Adapter 提供了一种高性能、轻量级的桥接方案,有效结合感知与动作:

  • 使用微型主干即可实现 SOTA。
  • 单块消费级 GPU 训练 8 小时即可完成。
  • 显著降低显存占用并加快推理速度——让更多团队可实际部署。

关键结论:
实现顶尖机器人性能已不再依赖庞大的预训练 VLM 和海量算力。VLA-Adapter 的设计理念将引领下一波高效视觉-语言-动作模型——让强大的机器人控制力对研究人员、创业团队和爱好者来说都触手可及。