引言

想象一下，让机器人打扫厨房。指令看似简单: “打扫厨房。”然而，对机器人来说，这并非单一动作，而是一系列复杂的序列: 走到台面，找到海绵，拿起它，移到水槽，打开水龙头，刷盘子，最后把盘子放进沥水架。

近年来，视觉-语言-动作 (Vision-Language-Action，简称 VLA) 模型彻底改变了机器人技术。通过在海量的机器人行为和语言数据集上进行训练，这些模型已变得非常擅长理解指令并执行简短、独立的任务。但问题在于: 虽然它们很擅长“拿起海绵”，但当被要求连续完成十个这样的动作而不出错时，往往会惨败。

这就是长时程操作 (long-horizon manipulation) 的问题。随着任务变长，微小的误差会不断累积。机器人可能成功拿起了物体，但如果抓取位置稍微偏离中心，接下来的步骤 (放置物体) 就会变得成倍困难。这就是所谓的技能链问题 (skill chaining problem) 。

在这篇文章中，我们将深入解读 Long-VLA , 这是一篇提出统一、端到端解决方案的新研究论文。我们将探讨研究人员如何使用一种巧妙的“掩码 (masking) ”策略，帮助机器人在正确的时间关注正确的信息，从而以最先进的成功率完成长序列动作。

背景: 长时程任务的困境

要理解为什么 Long-VLA 是必要的，我们首先需要看看目前机器人是如何学习的。

标准 VLA 模型

标准的视觉-语言-动作模型接收语言指令 (例如，“打开抽屉”) 和视觉观察 (摄像头画面) 作为输入，并输出机器人动作。

VLA 模型的定义。VLA 模型根据输入的语言指令和当前环境状态生成动作序列。

如上图 8 所示，该模型充当了一个将感知转化为运动的“大脑”。这些模型通常是“统一的”，意味着单个神经网络处理所有事情。虽然这对于可扩展性和数据效率非常有利，但当任务需要一长串不同的技能时，这些模型就会陷入挣扎。

技能链问题

为什么长任务会失败？这通常归结为分布偏移 (distribution shift) 。

当机器人接受训练时，它看到的是“完美”的样本。但在长序列中，如果机器人完成了任务 A (例如，打开抽屉) 但将夹爪留在了稍微奇怪的位置，任务 B (例如，把积木放进去) 就会从一个机器人从未见过的状态开始。

图 9: CALVIN 基准测试中诸如状态不匹配等技能链挑战的示意图。

图 9 很好地说明了这一点。在独立设置 (左上) 中，任务开始得很完美。在连续设置 (左下) 中，机器人必须处理前一个任务留下的烂摊子。图 (b) 中的曲线展示了残酷的现实: 随着连续链接的任务数量增加，成功率急剧下降。

现有解决方案及其缺陷

研究人员试图解决这个问题，通常是通过分解 (decomposition) ——将大任务分解成更小的块。

统一模型 (a): 一个大模型做所有事。利于学习，但不适合长序列。
独立模型 (b): 一个模型负责“移动” (到达物体) ，另一个完全不同的模型负责“交互” (操作物体) 。这效果更好，但破坏了“端到端”的学习流程。你无法联合训练它们，它们也不共享知识。
自适应输入 (c): 在分解的基础上针对不同阶段使用不同的输入，但仍然依赖独立的模块。

图 1 展示了以前的方法与 Long-VLA 的对比。

正如在图 1 中可视化的那样, Long-VLA (d) 提供了第四种方式: 一个利用输入级自适应 (input-level adaptation) 的统一模型 。它保留了单个强大大脑的好处，但会根据正在执行的任务阶段调整其“感官”。

核心方法: Long-VLA

研究人员的关键洞察是，机器人在不同时间需要关注不同的事物。

第一阶段: 移动阶段 (The Moving Phase) 。 当机器人向物体移动时，它需要看到整个场景。它需要知道桌子在哪里，障碍物在哪里，以及目标的大致位置。它不需要担心夹爪手指毫米级的细节。
第二阶段: 交互阶段 (The Interaction Phase) 。 当机器人正在抓取或操作时，一般的房间布局就不那么重要了。它需要高度专注于它的手和物体。背景干扰 (如有人走过或光线变化) 应该被忽略。

Long-VLA 利用一种称为相位感知输入掩码 (Phase-Aware Input Masking) 的技术，在单个模型内实现了这种区分。

1. 数据与相位分解

首先，研究人员将他们的训练数据 (机器人轨迹) 切分为两个阶段:

移动阶段: 从开始直到机器人接近物体。
交互阶段: 从接近物体直到任务完成。

至关重要的是，他们不只是分割数据；他们还在动作空间中添加了一个“相位标识符” token (\(s_p\))。这明确告知了模型它应该处于哪种模式。

2. 基于掩码的输入级自适应

这是论文的核心。模型接收来自多个摄像头的输入:

静态相机 (\(s_b\)) : 工作空间的固定视角 (第三人称视角) 。
夹爪相机 (\(s_g\)) : 安装在机器人手上的相机 (第一人称/自我中心视角) 。

在标准 VLA 中，模型始终处理所有这些图像。Long-VLA 引入了一种掩码策略 :

在移动期间: 模型被强制关注静态相机和对象检测信息。夹爪相机输入被掩蔽 (忽略) 。
在交互期间: 模型专注于夹爪相机 。静态相机被掩蔽，以防止背景干扰。

图 2: Long-VLA 概览，展示了三个阶段: 分解、掩码和端到端训练。

如上图 2 所示:

图 (a) 展示了数据的拆分和标记。
图 (b) 可视化了掩码过程。注意不同的模态是如何根据阶段被阻挡的。
图 (c) 展示了 Transformer 架构摄入这些经过掩码处理的 token。

掩码的数学原理

掩码不仅仅是删除数据；它是在 Transformer 的注意力 (Attention) 机制中通过数学方式实现的。

注意力权重 \(\mathbf{A}\) 的计算如下:

方程 1: 掩码注意力机制。

这里，\(\mathbf{M}_{ij}\) 是掩码矩阵。如果 \(\mathbf{M}_{ij} = 0\)，注意力得分就变为零。这有效地切断了特定 token 之间的信息流。通过根据当前阶段设置掩码，网络“蒙住了”自己的眼睛不看无关数据，从而使其能够完全专注于对当前任务毫秒级操作至关重要的传感器。

3. 利用检测增强导航

为了帮助机器人在“移动”阶段 (依赖静态相机) 进行导航，研究人员集成了对象检测模块 (使用 Grounding DINO) 。

检测模块在静态图像中的目标物体周围绘制边界框。这些边界框被编码并融合到静态图像特征中。这为机器人提供了来自第三人称视角的清晰“目标锁定”，减少了到达物体时的误差。

4. 统一端到端训练

尽管有这些明显的阶段区分，整个系统是作为一个大模型进行训练的。损失函数包括用于动作生成的标准扩散损失:

扩散损失方程

以及用于保持视觉目标与语言指令一致的对齐损失:

总损失方程

因为它是一个单一模型，所以它保留了 VLA 的数据效率。它在有用的地方学习共享表示，但掩码迫使它在必要的地方专门化其注意力。

实验与结果

为了证明 Long-VLA 确实解决了“长时程”问题，作者必须在需要链接许多动作的任务上对其进行测试。

设置: L-CALVIN 与真实世界

标准基准 CALVIN 通常测试 5 个任务的序列。作者创建了 L-CALVIN , 将其扩展到 10 个任务 , 为误差累积创造了更严苛的测试环境。

他们还使用 UR5e 机械臂搭建了一个真实世界的机器人工作站，在两个场景中进行测试:

分拣 (Sorting) : 将彩色积木移入碗中 (强调重复的准确性) 。
清理 (Cleaning) : 一个涉及按钮、水龙头和物体的复杂厨房任务 (强调多样化技能) 。

图 3: 真实世界设置，展示了机械臂以及分拣/清理任务。

仿真结果

L-CALVIN 基准测试的结果令人瞩目。

图 4: L-CALVIN 上的仿真性能。

看图 4 中的表格，对比基准策略 (Base Policy) (标准 VLA) 与 Long-VLA 。

在 \(D \rightarrow D\) 设置 (见过的环境) 中，注意“10”这一列 (连续完成 10 个任务的成功率) 。
基准策略的成功率为 0.11 。
Long-VLA 的成功率为 0.20——提升了 81% 。

随着任务长度的增加，差距也在扩大。这证实了 Long-VLA 在防止通常会导致长序列失败的误差方面要好得多。

真实世界的鲁棒性

真实世界的实验凸显了 Long-VLA 表现如此出色的原因: 它忽略了干扰。

分拣任务

在分拣任务中，机器人必须拿起积木并将它们放入碗中。

图 5: 分拣任务的真实世界性能。

在图 5 中，请看未见过的光照 (Unseen Lighting) 和视觉干扰 (Visual Distraction) 这两行。当光照变化或添加视觉混乱时，标准模型会崩溃。而 Long-VLA 保持了较高的成功率。为什么？因为在关键的“交互”阶段 (拿起积木) ，掩码迫使机器人通过夹爪相机观看，并忽略静态相机看到的混乱的桌面背景。

清理任务

清理任务甚至更难。

图 14: 清理任务执行情况对比

图 14 展示了定性对比。基准策略 (上图) 未能抓住方块，这可能是由于轻微的校准误差或视觉干扰。Long-VLA (下图) 流畅地执行了整个序列: 按下按钮 -> 抓住玉米 -> 放进水槽 -> 按下黄色按钮。

清理任务的定量结果 (下图 6) 反映了分拣任务的结果: Long-VLA 占据主导地位，特别是在链条的后期阶段。

图 6: 清理任务的真实世界性能。

与最先进技术 (SOTA) 的比较

作者将 Long-VLA 与主要竞争对手进行了比较，包括 GR-1、RoboVLMs 和强大的 \(\pi_0\) 模型。

图 11: 真实世界场景下的更多对比。

在真实世界对比 (图 11) 中，Long-VLA 始终优于 \(\pi_0\)，尤其是在面临视觉干扰时 (下图) 。折线图显示，虽然其他模型的成功率随时间迅速下降 (向下倾斜) ，但 Long-VLA 保持了更平坦、更稳定的成功曲线。

结论

Long-VLA 代表了使通用机器人走向实用的重要一步。该论文指出，长任务的主要障碍不仅仅是“学习动作”，而是管理将这些动作串联在一起时发生的累积误差 。

通过承认机器人在任务的不同阶段需要不同的“感官”——用于移动的广角视觉，用于交互的聚焦宏观视觉——并通过架构无关的掩码强制执行这一点，Long-VLA 实现了两全其美。它在推理时表现得像一个模块化系统，但在学习时像一个统一系统那样进行训练。

主要结论

统一且自适应: 你不需要为不同的子任务建立独立的模型；你只需要控制单个模型内的信息流。
注意力很关键: 强迫模型忽略无关数据 (掩码) 是提高对光照变化和视觉混乱鲁棒性的有效方法。
更长时程成为可能: 利用这些技术，机器人可以超越简单的“拾取和放置”，可靠地执行 10 步以上的复杂工作流程。

随着机器人走出实验室，进入我们混乱、不可预测的家庭环境，像 Long-VLA 这样强调鲁棒性和误差处理的技术将变得至关重要。这篇论文表明，有时候，为了看清解决方案，你必须知道不该看什么。

引言#

背景: 长时程任务的困境#

标准 VLA 模型#

技能链问题#

现有解决方案及其缺陷#

核心方法: Long-VLA#

1. 数据与相位分解#

2. 基于掩码的输入级自适应#

掩码的数学原理#

3. 利用检测增强导航#

4. 统一端到端训练#

实验与结果#

设置: L-CALVIN 与真实世界#

仿真结果#

真实世界的鲁棒性#

分拣任务#

清理任务#

与最先进技术 (SOTA) 的比较#

结论#

主要结论#

引言