想象一下,一个机器人能够理解你的指令,看到周围的世界,并执行复杂任务,例如:
“拿起勺子,把它放进杯子里,然后将杯子移到盘子上。”
这就是视觉-语言-动作 (Vision-Language-Action, VLA) 模型的承诺——它们是下一代通用机器人的“大脑”。
传统上,构建这类模型的方式是“蛮力”式的: 使用一个庞大的视觉-语言模型 (VLM) ,在海量机器人数据上进行预训练,然后针对特定任务进行微调。虽然有效,但存在严重缺点:
- 巨大的计算成本 (数百 GPU 小时) 。
- 模型参数庞大,消耗大量显存 (VRAM) 。
- 推理速度慢,难以在真实场景中实用。
这引出了一个根本性且少有人探索的问题:
我们如何才能高效地将模型对视觉和语言的高层理解,转化为执行动作所需的底层电机指令——同时避免巨大的计算与庞大的模型?
一篇新论文 VLA-Adapter 正面回答了这一问题。作者提出了一种新颖的桥接范式,用一个仅为前代模型一小部分规模的模型,实现了业界顶尖 (SOTA) 的性能。如下所示,该方法使用0.5B (5亿) 参数的模型——比 7B (70亿) 参数的 SOTA 模型小 14 倍,微调成本低 38 倍,运行速度快 3 倍,同时性能持平甚至超越顶尖水平。
这不仅是一个新模型——它更是构建高效机器人智能的蓝图。接下来让我们来剖析 VLA-Adapter 的工作原理。
桥接问题: 从“看见”到“行动”
每个 VLA 模型的核心都是一座连接**感知模块 (VLM) 与动作模块 **(策略网络) 的桥梁。
- VLM 将图像和指令处理为多模态表征。
- 策略网络 将该表征转化为动作序列 (如 7 自由度机械臂的运动指令) 。
这座桥梁的质量直接影响机器人执行任务的效果。
历史上,研究人员尝试过多种桥接策略:
- 最后一层的原始特征
提取 VLM 最后一层的特征——包含最抽象的语义信息。 - 中间层的原始特征
提取中间层的特征,保留更多有助于操控的细粒度细节。 - 所有层的原始特征
聚合所有层的特征,覆盖从细节到语义的完整光谱。 - 额外查询作为接口
在 VLM 中引入可学习的标记 (“ActionQuery”) ,显式提取与动作相关的特征——如 OpenVLA-OFT 等强大的 SOTA 模型采用了这一方法。
虽然这些方法各有优点,但此前从未有人在统一框架下系统地对它们进行比较——直到现在。
VLA-Adapter: 双条件的故事
VLA-Adapter 项目始于两个关键问题:
- VLM 的哪些层能提供生成动作的最佳特征?
- 哪种特征类型更优——原始特征还是动作查询 (ActionQuery) ?
研究团队测试了四种组合:
- 单层原始特征
- 所有层原始特征
- 单层动作查询特征
- 所有层动作查询特征
在一个高难度基准 (LIBERO-Long) 上的结果如下:
研究发现:
- 原始特征: 中间层表现最佳。深层特征过于依赖抽象语义,丢失了有用细节。
- 动作查询: 深层表现最佳,因为这些标记是从零开始训练的,到最后能积累丰富的多模态信息。
- 多层胜于单层: 使用所有层优于只用一层,并且免去了手动寻找“最佳层”的过程。
整体上,所有层动作查询性能最佳——但有趣的是,在部分高难度子任务中,中间层的原始特征反而优于动作查询:
由此产生了核心思想: 动态结合使用原始特征与动作查询特征。
带有桥接注意力的策略网络
基于上述洞见,作者设计了一个轻量级策略网络,其核心组件是新颖的桥接注意力 (Bridge Attention) 模块。
在策略网络的每一层:
三路注意力机制:
- 交叉注意力 (原始特征) 聚焦来自 VLM 原始特征的精细多模态信息。
- 交叉注意力 (动作查询) 聚焦凝练、以动作为中心的 VLM 输出。
- 自注意力 细化当前的动作规划。
原始特征的可学习门控:
一个参数g
(经 tanh 激活) 学习在何种程度上注入原始特征细节——仅在需要时补充动作查询。拼接与优化:
将三路注意力的输出拼接起来,形成当前层更新后的动作表征。
采用简单的 L1 损失进行端到端训练:
\[ \min_{\theta} \mathcal{J}(\theta) = \mathbb{E}\left[ \left\| \pi_{\theta}(\mathbf{A}_{t}^{\tau}, \mathcal{C}_{t}^{\mathcal{R}}, \mathcal{C}_{t}^{\mathcal{AQ}}, \sigma_{0}(\mathcal{P}_{t}), \tau) - \mathbf{A}_{t} \right\|_{1} \right] \]实验: 小模型,大成效
必要性与效率
当与未进行机器人预训练的 VLM 搭配时,VLA-Adapter 的桥接性能远超 OFT:
即使冻结主干网络,VLA-Adapter 依然表现稳健——而 OFT 则彻底失效:
它的速度也非常快——吞吐量超过 219 Hz,而 OpenVLA-OFT 仅有 71 Hz:
基准测试中的 SOTA 表现
在 LIBERO 基准上,VLA-Adapter 的微型 0.5B 主干取得了 97.3% 平均成功率,媲美甚至超越 7B 模型:
在 CALVIN 零样本泛化测试中,它完成了最长的动作序列并取得最高成功率:
真实机器人实验的成功
团队将 VLA-Adapter 部署在一台 6 自由度的 Synria Alicia-D 机器人上:
在物理任务中,其成功率超过了 ACT 和基于 OFT 的桥接策略:
消融实验: 性能来源分析
- ActionQuery 数量: 64 个最优——在信息丰富度和效率之间取得平衡。
- 条件类型: 混合使用所有层原始特征与所有层动作查询效果最佳。
- 注入程度: 对原始特征采用可学习门控,对动作查询进行完全注入,可实现最佳性能。
结论: 降低机器人智能的门槛
VLA-Adapter 提供了一种高性能、轻量级的桥接方案,有效结合感知与动作:
- 使用微型主干即可实现 SOTA。
- 单块消费级 GPU 训练 8 小时即可完成。
- 显著降低显存占用并加快推理速度——让更多团队可实际部署。
关键结论:
实现顶尖机器人性能已不再依赖庞大的预训练 VLM 和海量算力。VLA-Adapter 的设计理念将引领下一波高效视觉-语言-动作模型——让强大的机器人控制力对研究人员、创业团队和爱好者来说都触手可及。