引言
想象一下,让机器人打扫厨房。指令看似简单: “打扫厨房。”然而,对机器人来说,这并非单一动作,而是一系列复杂的序列: 走到台面,找到海绵,拿起它,移到水槽,打开水龙头,刷盘子,最后把盘子放进沥水架。
近年来,视觉-语言-动作 (Vision-Language-Action,简称 VLA) 模型彻底改变了机器人技术。通过在海量的机器人行为和语言数据集上进行训练,这些模型已变得非常擅长理解指令并执行简短、独立的任务。但问题在于: 虽然它们很擅长“拿起海绵”,但当被要求连续完成十个这样的动作而不出错时,往往会惨败。
这就是长时程操作 (long-horizon manipulation) 的问题。随着任务变长,微小的误差会不断累积。机器人可能成功拿起了物体,但如果抓取位置稍微偏离中心,接下来的步骤 (放置物体) 就会变得成倍困难。这就是所谓的技能链问题 (skill chaining problem) 。
在这篇文章中,我们将深入解读 Long-VLA , 这是一篇提出统一、端到端解决方案的新研究论文。我们将探讨研究人员如何使用一种巧妙的“掩码 (masking) ”策略,帮助机器人在正确的时间关注正确的信息,从而以最先进的成功率完成长序列动作。
背景: 长时程任务的困境
要理解为什么 Long-VLA 是必要的,我们首先需要看看目前机器人是如何学习的。
标准 VLA 模型
标准的视觉-语言-动作模型接收语言指令 (例如,“打开抽屉”) 和视觉观察 (摄像头画面) 作为输入,并输出机器人动作。

如上图 8 所示,该模型充当了一个将感知转化为运动的“大脑”。这些模型通常是“统一的”,意味着单个神经网络处理所有事情。虽然这对于可扩展性和数据效率非常有利,但当任务需要一长串不同的技能时,这些模型就会陷入挣扎。
技能链问题
为什么长任务会失败?这通常归结为分布偏移 (distribution shift) 。
当机器人接受训练时,它看到的是“完美”的样本。但在长序列中,如果机器人完成了任务 A (例如,打开抽屉) 但将夹爪留在了稍微奇怪的位置,任务 B (例如,把积木放进去) 就会从一个机器人从未见过的状态开始。

图 9 很好地说明了这一点。在独立设置 (左上) 中,任务开始得很完美。在连续设置 (左下) 中,机器人必须处理前一个任务留下的烂摊子。图 (b) 中的曲线展示了残酷的现实: 随着连续链接的任务数量增加,成功率急剧下降。
现有解决方案及其缺陷
研究人员试图解决这个问题,通常是通过分解 (decomposition) ——将大任务分解成更小的块。
- 统一模型 (a): 一个大模型做所有事。利于学习,但不适合长序列。
- 独立模型 (b): 一个模型负责“移动” (到达物体) ,另一个完全不同的模型负责“交互” (操作物体) 。这效果更好,但破坏了“端到端”的学习流程。你无法联合训练它们,它们也不共享知识。
- 自适应输入 (c): 在分解的基础上针对不同阶段使用不同的输入,但仍然依赖独立的模块。

正如在图 1 中可视化的那样, Long-VLA (d) 提供了第四种方式: 一个利用输入级自适应 (input-level adaptation) 的统一模型 。 它保留了单个强大大脑的好处,但会根据正在执行的任务阶段调整其“感官”。
核心方法: Long-VLA
研究人员的关键洞察是,机器人在不同时间需要关注不同的事物。
- 第一阶段: 移动阶段 (The Moving Phase) 。 当机器人向物体移动时,它需要看到整个场景。它需要知道桌子在哪里,障碍物在哪里,以及目标的大致位置。它不需要担心夹爪手指毫米级的细节。
- 第二阶段: 交互阶段 (The Interaction Phase) 。 当机器人正在抓取或操作时,一般的房间布局就不那么重要了。它需要高度专注于它的手和物体。背景干扰 (如有人走过或光线变化) 应该被忽略。
Long-VLA 利用一种称为相位感知输入掩码 (Phase-Aware Input Masking) 的技术,在单个模型内实现了这种区分。
1. 数据与相位分解
首先,研究人员将他们的训练数据 (机器人轨迹) 切分为两个阶段:
- 移动阶段: 从开始直到机器人接近物体。
- 交互阶段: 从接近物体直到任务完成。
至关重要的是,他们不只是分割数据;他们还在动作空间中添加了一个“相位标识符” token (\(s_p\))。这明确告知了模型它应该处于哪种模式。
2. 基于掩码的输入级自适应
这是论文的核心。模型接收来自多个摄像头的输入:
- 静态相机 (\(s_b\)) : 工作空间的固定视角 (第三人称视角) 。
- 夹爪相机 (\(s_g\)) : 安装在机器人手上的相机 (第一人称/自我中心视角) 。
在标准 VLA 中,模型始终处理所有这些图像。Long-VLA 引入了一种掩码策略 :
- 在移动期间: 模型被强制关注静态相机和对象检测信息。夹爪相机输入被掩蔽 (忽略) 。
- 在交互期间: 模型专注于夹爪相机 。 静态相机被掩蔽,以防止背景干扰。

如上图 2 所示:
- 图 (a) 展示了数据的拆分和标记。
- 图 (b) 可视化了掩码过程。注意不同的模态是如何根据阶段被阻挡的。
- 图 (c) 展示了 Transformer 架构摄入这些经过掩码处理的 token。
掩码的数学原理
掩码不仅仅是删除数据;它是在 Transformer 的注意力 (Attention) 机制中通过数学方式实现的。
注意力权重 \(\mathbf{A}\) 的计算如下:

这里,\(\mathbf{M}_{ij}\) 是掩码矩阵。如果 \(\mathbf{M}_{ij} = 0\),注意力得分就变为零。这有效地切断了特定 token 之间的信息流。通过根据当前阶段设置掩码,网络“蒙住了”自己的眼睛不看无关数据,从而使其能够完全专注于对当前任务毫秒级操作至关重要的传感器。
3. 利用检测增强导航
为了帮助机器人在“移动”阶段 (依赖静态相机) 进行导航,研究人员集成了对象检测模块 (使用 Grounding DINO) 。
检测模块在静态图像中的目标物体周围绘制边界框。这些边界框被编码并融合到静态图像特征中。这为机器人提供了来自第三人称视角的清晰“目标锁定”,减少了到达物体时的误差。
4. 统一端到端训练
尽管有这些明显的阶段区分,整个系统是作为一个大模型进行训练的。损失函数包括用于动作生成的标准扩散损失:

以及用于保持视觉目标与语言指令一致的对齐损失:

因为它是一个单一模型,所以它保留了 VLA 的数据效率。它在有用的地方学习共享表示,但掩码迫使它在必要的地方专门化其注意力。
实验与结果
为了证明 Long-VLA 确实解决了“长时程”问题,作者必须在需要链接许多动作的任务上对其进行测试。
设置: L-CALVIN 与真实世界
标准基准 CALVIN 通常测试 5 个任务的序列。作者创建了 L-CALVIN , 将其扩展到 10 个任务 , 为误差累积创造了更严苛的测试环境。
他们还使用 UR5e 机械臂搭建了一个真实世界的机器人工作站,在两个场景中进行测试:
- 分拣 (Sorting) : 将彩色积木移入碗中 (强调重复的准确性) 。
- 清理 (Cleaning) : 一个涉及按钮、水龙头和物体的复杂厨房任务 (强调多样化技能) 。

仿真结果
L-CALVIN 基准测试的结果令人瞩目。

看图 4 中的表格,对比基准策略 (Base Policy) (标准 VLA) 与 Long-VLA 。
- 在 \(D \rightarrow D\) 设置 (见过的环境) 中,注意“10”这一列 (连续完成 10 个任务的成功率) 。
- 基准策略的成功率为 0.11 。
- Long-VLA 的成功率为 0.20——提升了 81% 。
随着任务长度的增加,差距也在扩大。这证实了 Long-VLA 在防止通常会导致长序列失败的误差方面要好得多。
真实世界的鲁棒性
真实世界的实验凸显了 Long-VLA 表现如此出色的原因: 它忽略了干扰。
分拣任务
在分拣任务中,机器人必须拿起积木并将它们放入碗中。

在图 5 中,请看未见过的光照 (Unseen Lighting) 和视觉干扰 (Visual Distraction) 这两行。当光照变化或添加视觉混乱时,标准模型会崩溃。而 Long-VLA 保持了较高的成功率。为什么?因为在关键的“交互”阶段 (拿起积木) ,掩码迫使机器人通过夹爪相机观看,并忽略静态相机看到的混乱的桌面背景。
清理任务
清理任务甚至更难。

图 14 展示了定性对比。基准策略 (上图) 未能抓住方块,这可能是由于轻微的校准误差或视觉干扰。Long-VLA (下图) 流畅地执行了整个序列: 按下按钮 -> 抓住玉米 -> 放进水槽 -> 按下黄色按钮。
清理任务的定量结果 (下图 6) 反映了分拣任务的结果: Long-VLA 占据主导地位,特别是在链条的后期阶段。

与最先进技术 (SOTA) 的比较
作者将 Long-VLA 与主要竞争对手进行了比较,包括 GR-1、RoboVLMs 和强大的 \(\pi_0\) 模型。

在真实世界对比 (图 11) 中,Long-VLA 始终优于 \(\pi_0\),尤其是在面临视觉干扰时 (下图) 。折线图显示,虽然其他模型的成功率随时间迅速下降 (向下倾斜) ,但 Long-VLA 保持了更平坦、更稳定的成功曲线。
结论
Long-VLA 代表了使通用机器人走向实用的重要一步。该论文指出,长任务的主要障碍不仅仅是“学习动作”,而是管理将这些动作串联在一起时发生的累积误差 。
通过承认机器人在任务的不同阶段需要不同的“感官”——用于移动的广角视觉,用于交互的聚焦宏观视觉——并通过架构无关的掩码强制执行这一点,Long-VLA 实现了两全其美。它在推理时表现得像一个模块化系统,但在学习时像一个统一系统那样进行训练。
主要结论
- 统一且自适应: 你不需要为不同的子任务建立独立的模型;你只需要控制单个模型内的信息流。
- 注意力很关键: 强迫模型忽略无关数据 (掩码) 是提高对光照变化和视觉混乱鲁棒性的有效方法。
- 更长时程成为可能: 利用这些技术,机器人可以超越简单的“拾取和放置”,可靠地执行 10 步以上的复杂工作流程。
随着机器人走出实验室,进入我们混乱、不可预测的家庭环境,像 Long-VLA 这样强调鲁棒性和误差处理的技术将变得至关重要。这篇论文表明,有时候,为了看清解决方案,你必须知道不该看什么。
](https://deep-paper.org/en/paper/2508.19958/images/cover.png)