小模型，大突破：VLA-Adapter 如何将机器人大脑缩小 14 倍

想象一下，一个机器人能够理解你的指令，看到周围的世界，并执行复杂任务，例如:

“拿起勺子，把它放进杯子里，然后将杯子移到盘子上。”

这就是视觉-语言-动作 (Vision-Language-Action, VLA) 模型的承诺——它们是下一代通用机器人的“大脑”。

传统上，构建这类模型的方式是“蛮力”式的: 使用一个庞大的视觉-语言模型 (VLM) ，在海量机器人数据上进行预训练，然后针对特定任务进行微调。虽然有效，但存在严重缺点:

巨大的计算成本 (数百 GPU 小时) 。
模型参数庞大，消耗大量显存 (VRAM) 。
推理速度慢，难以在真实场景中实用。

这引出了一个根本性且少有人探索的问题:

我们如何才能高效地将模型对视觉和语言的高层理解，转化为执行动作所需的底层电机指令——同时避免巨大的计算与庞大的模型？

一篇新论文 VLA-Adapter 正面回答了这一问题。作者提出了一种新颖的桥接范式，用一个仅为前代模型一小部分规模的模型，实现了业界顶尖 (SOTA) 的性能。如下所示，该方法使用0.5B (5亿) 参数的模型——比 7B (70亿) 参数的 SOTA 模型小 14 倍，微调成本低 38 倍，运行速度快 3 倍，同时性能持平甚至超越顶尖水平。

图 1: VLA-Adapter 与 OpenVLA-OFT 的特性对比。在保持性能的情况下，模型规模、微调成本、显存使用和吞吐量均有显著改进。

这不仅是一个新模型——它更是构建高效机器人智能的蓝图。接下来让我们来剖析 VLA-Adapter 的工作原理。

桥接问题: 从“看见”到“行动”

每个 VLA 模型的核心都是一座连接**感知模块 (VLM) 与动作模块 **(策略网络) 的桥梁。

VLM 将图像和指令处理为多模态表征。
策略网络 将该表征转化为动作序列 (如 7 自由度机械臂的运动指令) 。

这座桥梁的质量直接影响机器人执行任务的效果。

历史上，研究人员尝试过多种桥接策略:

图 2: 从 VLM 到策略网络的四种现有桥接范式。它们在特征类型 (原始特征 vs. 动作查询) 及所用层级上各不相同。

最后一层的原始特征
提取 VLM 最后一层的特征——包含最抽象的语义信息。
中间层的原始特征
提取中间层的特征，保留更多有助于操控的细粒度细节。
所有层的原始特征
聚合所有层的特征，覆盖从细节到语义的完整光谱。
额外查询作为接口
在 VLM 中引入可学习的标记 (“ActionQuery”) ，显式提取与动作相关的特征——如 OpenVLA-OFT 等强大的 SOTA 模型采用了这一方法。

虽然这些方法各有优点，但此前从未有人在统一框架下系统地对它们进行比较——直到现在。

VLA-Adapter: 双条件的故事

VLA-Adapter 项目始于两个关键问题:

图 3: 统一的 VLA-Adapter 框架，探索来自不同 VLM 层的原始特征与动作查询特征作为策略网络条件的效果。

VLM 的哪些层能提供生成动作的最佳特征？
哪种特征类型更优——原始特征还是动作查询 (ActionQuery) ？

研究团队测试了四种组合:

单层原始特征
所有层原始特征
单层动作查询特征
所有层动作查询特征

在一个高难度基准 (LIBERO-Long) 上的结果如下:

图 4: 不同条件策略的性能对比。所有层动作查询表现最佳，但所有层原始特征的表现也很强。

研究发现:

原始特征: 中间层表现最佳。深层特征过于依赖抽象语义，丢失了有用细节。
动作查询: 深层表现最佳，因为这些标记是从零开始训练的，到最后能积累丰富的多模态信息。
多层胜于单层: 使用所有层优于只用一层，并且免去了手动寻找“最佳层”的过程。

整体上，所有层动作查询性能最佳——但有趣的是，在部分高难度子任务中，中间层的原始特征反而优于动作查询:

表 1: 在 LIBERO-Long 的子任务 7 和 9 中，中间层原始特征优于动作查询，为混合使用提供了动机。

由此产生了核心思想: 动态结合使用原始特征与动作查询特征。

带有桥接注意力的策略网络

基于上述洞见，作者设计了一个轻量级策略网络，其核心组件是新颖的桥接注意力 (Bridge Attention) 模块。

图 5: 带有桥接注意力的策略网络架构——融合多层原始特征与动作查询特征以及当前动作隐变量。

在策略网络的每一层:

三路注意力机制:
- 交叉注意力 (原始特征) 聚焦来自 VLM 原始特征的精细多模态信息。
- 交叉注意力 (动作查询) 聚焦凝练、以动作为中心的 VLM 输出。
- 自注意力 细化当前的动作规划。
原始特征的可学习门控:
一个参数 g (经 tanh 激活) 学习在何种程度上注入原始特征细节——仅在需要时补充动作查询。
拼接与优化:
将三路注意力的输出拼接起来，形成当前层更新后的动作表征。

\[ \widehat{\mathbf{A}}_{t}^{\tau} = \left[ \operatorname{CA}_{1}(\widetilde{\mathbf{A}}_{t}^{\tau}, \sigma_{1}(\mathcal{C}_{t}^{\mathcal{R}})) \cdot \tanh(g),\; \operatorname{CA}_{2}(\widetilde{\mathbf{A}}_{t}^{\tau}, \sigma_{2}[\mathcal{C}_{t}^{\mathcal{AQ}}, \sigma_{0}(\mathcal{P}_{t})]),\; \operatorname{SA}(\widetilde{\mathbf{A}}_{t}^{\tau}, \widetilde{\mathbf{A}}_{t}^{\tau}) \right] \]

采用简单的 L1 损失进行端到端训练:

\[ \min_{\theta} \mathcal{J}(\theta) = \mathbb{E}\left[ \left\| \pi_{\theta}(\mathbf{A}_{t}^{\tau}, \mathcal{C}_{t}^{\mathcal{R}}, \mathcal{C}_{t}^{\mathcal{AQ}}, \sigma_{0}(\mathcal{P}_{t}), \tau) - \mathbf{A}_{t} \right\|_{1} \right] \]