引言: 机器人视觉的高昂代价

在人工智能飞速发展的版图中,我们见证了从基于文本的大型语言模型 (LLMs) 向多模态系统的巨大转变。我们不再仅仅满足于让 AI 写诗,我们希望它能看清世界,更重要的是,能够对其 采取行动。这种雄心壮志催生了视觉-语言-动作 (Vision-Language-Action, VLA) 模型——这是一类能够摄取视觉数据和语言指令并输出机器人控制动作的系统。

理想情况下,机器人应该能够看着一张杂乱的桌子,听到“把香蕉放进绿色的碗里”这样的指令,并流畅地执行任务。像 OpenVLA 这样的模型通过重新利用大规模预训练的视觉-语言模型 (VLMs) 用于机器人控制,在这个方向上取得了重大进展。

然而,这其中有个陷阱。这些模型的计算成本极其昂贵。

机器人视觉的标准方法是将图像的每一部分都视为同等重要。一张桌子的照片被切成数百个小方块 (patches) ,模型以同样的强度处理每一个方块——无论那个方块包含的是目标物体、机器人的夹爪,还是一块空白的墙壁。这种“视觉税”造成了巨大的瓶颈,需要巨大的 GPU 资源和训练时间,使得许多小型实验室和大学无法触及最先进的研究。

但是,如果机器人不需要看所有东西呢?如果它能像人类一样,只关注重要的物体和它自己的手,而忽略无关的背景呢?

这就是 Oat-VLA 的核心前提,这篇新研究论文介绍了 以物体-智能体为中心的 Token 化 (Object-Agent-centric Tokenization) 。 通过教导模型“聚焦于重要事项”,研究人员在大幅降低计算成本的同时,实际上提高了性能。在这篇文章中,我们将拆解 Oat-VLA 的架构,探索它如何将视觉输入减少 93% 以上,并分析为什么这种聚焦的方法能带来更快的收敛速度和更稳健的现实世界操作能力。

图 1: 在 LIBERO 数据集上全量微调时,我们的方法 Oat-VLA 与 OpenVLA 的比较。左图: 动作 token 准确率相对于训练时间的关系。Oat-VLA 的收敛速度快了 2 倍以上。右图: 四个 LIBERO 任务套件的平均成功率相对于训练步数的关系。

如上图 1 所示,结果令人震惊: Oat-VLA 的收敛速度是目前最先进的 OpenVLA 的两倍多,这证明在机器人学习中,少做工有时能产生更好的结果。

背景: 从像素到动作

要理解为什么 Oat-VLA 是一项重大创新,我们首先需要了解 VLA 的标准架构以及效率低下的根源。

标准 VLA 流程

视觉-语言-动作模型通常通过结合两个信息流来工作:

  1. 视觉: 来自机器人摄像头的图像。
  2. 语言: 一条指令 (例如,“拿起立方体”) 。

目标是预测一个 动作 (Action) (例如,机械臂应该如何移动) 。

在像 OpenVLA 这样的模型中,视觉处理由视觉编码器 (通常是 Vision Transformer 或 ViT) 处理。编码图像的标准方法是 分块 (patching) 。 一张 \(224 \times 224\) 像素的图像被分成一个方块网格,通常每个方块是 \(14 \times 14\) 像素。这会产生 \(16 \times 16 = 256\) 个分块。

这 256 个分块中的每一个都被转换成一个数字向量,称为 视觉 token 。 这 256 个 token 随后与来自用户指令的文本 token 一起被送入大型语言模型 (LLM) 的庞大大脑中。

分块的问题

问题在于,LLM 将每个 token 都视为需要分析的信息片段。如果你喂给它 256 个视觉 token,它就必须处理它们所有之间的关系。

在一个典型的机器人场景中,也许 20 个分块覆盖了你想拿起的物体,另外 20 个覆盖了机器人的夹爪。剩下的 216 个分块可能只是桌面或背景墙。然而,模型花费在处理这些背景分块上的算力与处理目标物体一样多。从信息角度来看,这是低效的;从硬件角度来看,这是昂贵的。

Oat-VLA 将这种视觉 token 化方案确定为主要瓶颈。研究人员提出了一个简单的问题: 我们能否丢弃背景,只把“有用”的像素喂给 LLM?

核心方法: Oat-VLA

论文提出的解决方案是 Oat-VLA (Object-Agent-centric Tokenization for VLAs,以物体-智能体为中心的 VLA Token 化) 。其理念是从固定的分块网格转向对场景的语义理解。

该方法用两种特定类型的 token 替换了 256 个通用分块 token:

  1. 以物体为中心的 Token (Object-Centric Tokens) : 关于场景中物体的概要信息。
  2. 以智能体为中心的 Token (Agent-Centric Tokens) : 关于机器人末端执行器 (夹爪) 的高分辨率细节。

通过这种方法,Oat-VLA 将视觉 token 的数量从 256 个减少到了仅 16 个。让我们分解每个组件是如何工作的。

图 2: Oat-VLA 引入了一个视觉 token 化过程,提取以物体为中心和以智能体为中心的 token。然后将这些 token 喂给 LLM 进行动作预测。

图 2 展示了完整的流程。请注意图像是如何在被重新组合并发送到 LLM (Llama 2) 之前被分成两个处理流的。

1. 以物体为中心的 Token: 压缩“是什么”

为了与世界互动,机器人需要知道存在什么物体以及它们在哪里。然而,它不需要整个桌子的像素级完美重建;它需要语义摘要。

掩码过程

Oat-VLA 使用一个外部的以物体为中心的模型 (具体来说是 FT-Dinosaur )来分析图像。该模型执行语义分割——它将属于同一物体的像素归为一组。

对于给定的图像,系统提取 \(N\) 个掩码 (在这篇论文中,他们使用了 7 个掩码) 。每个掩码对应场景中一个独特的物体或有意义的区域。

视觉 Token 池化

一旦生成了掩码,系统就会查看原始的视觉嵌入 (来自 DinoV2/SigLIP 编码器) 。Oat-VLA 不是保留与一个物体相关的所有分块 token (可能有几十个) ,而是将它们压缩成每个物体一个 token。

他们通过一种称为 池化 (Pooling) 的数学运算来实现这一点。

公式 1: 以物体为中心的池化公式

如上式定义:

  • \(\mathbf{v}_k\) 代表特定分块的视觉 token。
  • \(\mathbf{m}_n^k\) 是掩码值,表示该分块是否属于物体 \(n\)。
  • 系统对属于特定掩码的所有分块 token 进行平均 (池化) ,以创建一个单一的物体 token \(\mathbf{t}_j\)。

结果是一组仅 7 个代表场景语义内容 (“物体”) 的 token。

2. 以智能体为中心的 Token: 保留“怎么做”

如果系统只使用物体 token,它可能会在精细操作上失败。为什么?因为池化会压缩信息。虽然“平均池化”很适合概括一根香蕉,但它会模糊高频细节,而这些细节对于确切知道机器人的指尖相对于香蕉的位置是必要的。

机器人操作需要对 末端执行器 (夹爪) 有精确的空间感知。为了解决这个问题,Oat-VLA 引入了以智能体为中心的 token。

夹爪检测

系统运行一个轻量级的检测器 (基于 ResNet 的 Faster R-CNN) 来在图像中找到机器人夹爪的精确 2D 像素坐标。这是一个关键步骤,因为依赖机器人校准数据在多样化的数据集中往往不可靠或不可用。

局部网格

一旦确定了夹爪的位置,系统就会提取一个以该点为中心的 \(3 \times 3\) 原始视觉分块网格。与物体 token 不同,这 9 个分块 不进行池化 。 它们被保留为独特的高分辨率 token。

这确保了 LLM 在动作发生的确切位置——机器人的指尖——接收到未压缩的高保真视觉信息。

3. 组合输入

VLA 的最终视觉输入包括:

  • 7 个以物体为中心的 Token (场景里有什么?)
  • 9 个以智能体为中心的 Token (我的手在哪里?)

总计: 16 个视觉 Token。

与 OpenVLA 使用的 256 个 token 相比,这是 93.75% 的缩减 。 这些 token 被拼接起来,通过一个投影器 (一个小型的神经网络,将视觉数据转化为 LLM 的语言空间) ,并喂入 Llama 2 主干以预测机器人的下一步动作。

实验结果

理论听起来很合理: 关注重要的部分以节省算力。但是丢弃 93% 的视觉 token 会损害性能吗?研究人员使用广泛认可的基准测试,将 Oat-VLA 与 OpenVLA 进行了对比测试。

1. 训练效率与速度

减少 token 数量最直接的好处之一是可以在 GPU 内存中放入更多数据。这允许在训练期间使用更大的 批量大小 (batch size)

  • OpenVLA: 批量大小为 32。
  • Oat-VLA: 批量大小为 64 (在相同硬件上) 。

这种效率直接转化为训练速度。回顾 图 1 , 我们可以看到 Oat-VLA 达到高准确率的速度比 OpenVLA 快得多。这不仅仅是处理速度的问题;学习 本身也更有效率。研究人员认为,通过去除背景分块的“噪音”,模型可以更容易地学习与任务相关的特征。

2. LIBERO 基准测试

LIBERO 是一套用于评估终身机器人学习的标准任务套件。它包括各种挑战,从空间推理 (LIBERO-Spatial) 到长视距任务 (LIBERO-10) 。

研究人员使用全量微调比较了 Oat-VLA 和 OpenVLA。

图 3: LIBERO 上的评估,每 5K 训练 (全量微调) 步数进行一次。图表使用了前后各一次评估的均值滤波。

图 3 中,观察绿线 (Oat-VLA) 与红线 (OpenVLA) :

  • 更快的收敛: Oat-VLA 在训练过程的早期就迅速达到了高成功率 (看前 20k 步) 。
  • 更高的上限: 在像 LIBERO-GoalLIBERO-10 这样的困难任务中,Oat-VLA 保持了一致的领先优势。

论文还比较了使用 LoRA (低秩自适应) 的结果,这是一种流行的参数高效微调方法。

表 1: LIBERO 上的 LoRA 微调成功率比较。OpenVLA、Octo 和 Diffusion Policy 的数字取自 OpenVLA [10]。

表 1 所示,Oat-VLA 在每个类别中都优于 OpenVLA,平均成功率为 78.6% , 而 OpenVLA 为 76.5% 。 这证实了 token 缩减策略没有丢失关键信息;它实际上帮助模型更好地泛化。

3. 现实世界的稳健性

模拟结果很好,但机器人生活在现实世界中。团队在物理 xArm 6 机器人上测试了模型执行拾取和放置任务的情况。他们测试了 分布内 (In-Distribution) 任务 (机器人以前见过的任务) 和 分布外 (Out-Of-Distribution) 任务 (新物体或新排列) 。

图 4: 上图: 部分现实世界任务的设置。(a) 把香蕉放进绿碗里 (b) 把红方块放进棕色袋子里 (c) 栉瓜在绿色方块前面 (d) 番茄在生菜左边。下图: 表格报告了现实世界任务的成功率和成功试验次数。

图 4 中的结果凸显了一个关键的定性差异。Oat-VLA 实现了 59% 的总体成功率 , 而 OpenVLA 为 41%

研究人员指出,OpenVLA 经常以“愚蠢”的方式失败——在物体 上方 的空气中抓取,或者将物品放在目标位置稍微偏一点的地方。Oat-VLA 很可能是由于精确的以智能体为中心的 token,在最终接近和抓取时更加准确。这验证了在夹爪周围保留高分辨率分块对于精细运动控制至关重要的假设。

4. 硬件效率

最后,对于预算有限的学生和研究人员来说,硬件方面的影响是巨大的。由于 Oat-VLA 使用的视觉 token 如此之少,每个样本的内存占用要低得多。

表 5: 8xH100 节点上的 GPU 内存使用率和吞吐量 (每秒训练样本数) 。

表 5 展示了吞吐量的比较。在全量微调下,Oat-VLA 每秒可以处理 320 个样本 , 而 OpenVLA 为 157 个 。 实际上,这是原始训练吞吐量的 2 倍加速 。 这意味着以前需要一周的实验现在可以在 3 天内完成。

为什么有效? (消融研究)

在研究中,问“为什么”至关重要。是物体 token 起的作用?还是智能体 token?还是两者兼有?研究人员进行了消融研究来分离这些因素。

表 2: Oat-VLA 设计选择在 LIBERO 上的消融实验

表 2 提供了答案:

  1. 单一图像 Token: 如果你将 整个 图像压缩成一个 token,性能会崩溃 (平均 60%) 。模型丢失了太多的空间细节。
  2. 仅以物体为中心: 如果你使用物体掩码但 忽略 夹爪 (没有智能体 token) ,性能仍然很差 (61.3%) 。这证明仅知道场景中 有什么 是不够的;你需要看到交互过程。
  3. Oat-VLA (完整版) : 结合物体摘要和智能体细节产生了最佳结果 (77.1%) 。

这证实了“物体-智能体”二元性是必要的。你需要物体的全局上下文 (压缩后) 和智能体的局部上下文 (详细) 。

结论与启示

Oat-VLA 为机器人学习的未来提出了一个令人信服的论点: 效率不仅仅关于速度;它关于聚焦。

通过应用一种归纳偏置——告诉模型物体和夹爪是重要的,而背景不是——研究人员成功地:

  1. 减少了约 94% 的视觉 token。
  2. 使训练速度翻倍。
  3. 提高了模拟和现实世界中的成功率。

对于学生和从业者来说,这篇论文强调了架构设计中的重要一课。我们通常假设“数据越多越好”或“端到端学习会搞定一切”。然而,Oat-VLA 表明,注入领域知识——具体来说,即理解操作是关于 物体智能体 的——可以显著优于暴力破解的方法。

随着 VLA 规模的不断扩大,像 Oat-VLA 这样的技术对于保持训练成本可控以及让更广泛的科学界能够接触到先进的机器人策略将至关重要。视觉税已经降低,机器人的学习速度比以往任何时候都快。