引言
想象一下,你正在教一个孩子“关门”。你不需要详细描述旋转门把手和推门的肌肉运动。相反,孩子是通过理解因果关系来学习的: 有一扇开着的门,发出了一个指令,预期的结果是一扇关着的门。如果孩子能根据当前的场景和你的指令在脑海中想象出“关着的门”的状态,他们就隐含地理解了达到这种状态所需的动作。
在机器人领域,弥合“看” (视觉) 与“做” (行动) 之间的鸿沟是一个巨大的挑战。虽然我们拥有像 CLIP 这样能够对齐图像和文本的强大模型,但仅仅知道一把勺子的图片对应单词“spoon”,并不足以告诉机器人如何把它拿起来。
这就引出了 LaVA-Man (Language-guided Visual-Action representations for Robot Manipulation,用于机器人操作的语言引导视觉-动作表示) 。这项由伦敦玛丽女王大学和伦敦大学学院的研究人员提出的新框架,提出了一种引人入胜的方法: 通过教机器人预测未来的视觉状态来让它学会行动。
在这篇文章中,我们将详细拆解 LaVA-Man 的工作原理,通过解释它为何引入包含 3,200 个物体的庞大新数据集,以及“梦想”未来如何帮助机器人在现实世界中执行复杂任务。

问题所在: 视觉与行动之间的鸿沟
当前最先进的机器人操作方法通常依赖于预训练的视觉语言模型 (VLMs) 。标准的工作流程通常如下:
- 机器人观察场景 (编码图像) 。
- 机器人阅读指令 (编码文本) 。
- 模型计算两者之间的相似度。
- 策略网络尝试将这种相似度映射为物理动作。
这里的缺陷在于缺乏因果基础 (causal grounding) 。 这些模型擅长识别物体 (“那是一个红色积木”) ,但它们难以捕捉操作的动态性 (“如果我推红色积木,它会移动到那里”) 。它们将场景视为静态快照,而不是等待被改变的动态环境。
LaVA-Man 通过一个自监督的借口任务 (pretext task) 解决了这个问题。模型不仅仅是将文本与图像进行匹配,而是被训练来重建一个掩码目标图像 (masked goal image) 。 本质上,机器人被问道: “给定这个起始图像和这个指令,请填补你行动之后世界样子的空白。”
数据瓶颈: 引入 OOPP
在深入架构之前,我们必须解决机器学习中的一个常见瓶颈: 数据。为了学习可泛化的技能,机器人需要看到各种各样的物体。然而,现有的桌面操作数据集 (如 Ravens 或 VIMA) 在某种程度上是有限的。它们通常只包含简单的几何形状或一小部分重复的物体。
如果一个机器人只在立方体和球体上训练,当被要求拿起一个恐龙玩具或一袋薯片时,它会感到困惑。
为了解决这个问题,作者引入了 Omni-Object Pick-and-Place (OOPP) 数据集。

如上图 3 所示,OOPP 数据集是一个巨大的飞跃:
- 180 个物体类别: 范围从食物、日用工具到玩具。
- 3,200 个唯一实例: 高质量、真实扫描的物体。
- 丰富的语言标注: 超越简单模板的多样化指令。
这种多样性确保了模型在训练时,不仅仅是死记硬背特定的形状;它正在学习一种“物体先验 (object prior) ”——即对不同类型的物理物体如何在空间中存在和表现的一般性理解。

核心方法: 通过“做梦”来学习
LaVA-Man 的核心是其自监督学习方法。其目标是学习一种能连接视觉观察、语言和动作的表示,而不需要为每一个训练步骤提供昂贵的人工动作标签 (如精确的关节角度) 。
借口任务: 目标图像预测
研究人员提出了一个“借口任务”——模型为了学习有用特征而执行的辅助工作。在这种情况下,任务是目标图像预测 。
设置如下:
- 输入: 工作空间的初始图像 (\(o_s\)) 和文本指令 (\(l_{s \to f}\)) 。
- 目标: 目标图像 (\(o_f\)) ,展示动作完成后的场景。
模型并不会获得完整的目标图像。相反,作者使用了非对称掩码 (Asymmetric Masking) 。 他们获取目标图像并将其大部分涂黑 (掩盖) 。模型必须使用完整的输入图像和文本指令来重建目标图像中缺失的像素。
为了成功做到这一点,模型必须“理解”指令。如果文本说“把红苹果放进碗里”,模型必须在目标图像的碗里生成红色的像素。这迫使神经网络学习指令与视觉变化之间的因果关系。
架构
该架构使用了孪生视觉 Transformer (Siamese Vision Transformer, ViT) 。让我们看看其结构:

- 孪生编码器 (Siamese Encoders) : 两个相同的 ViT 编码器分别处理输入图像和掩码目标图像。
- 融合模块 (Fusion Module) : 这是一个关键步骤。模型不能孤立地处理图像和文本。它使用交叉注意力 (Cross-Attention) 层来混合模态:
- 文本-图像交叉注意力: 指令与输入图像有何关联?
- 图像-文本交叉注意力: 输入图像与指令有何关联?
- 解码器 (Decoder) : 解码器接收融合后的特征,并尝试预测目标图像的缺失块 (patches) 。
在数学上,借口任务如下所示:

其中 \(\Phi\) 是编码器/融合过程,\(\Psi_p\) 是输出重建目标图像 \(\hat{o}_f\) 的预测头。
从预测到行动
一旦模型在这个“做梦”任务上进行了预训练,它就学会了对视觉动态的丰富理解。但机器人需要实际移动。
对于下游任务 (如实际抓取物体) ,研究人员对模型进行了微调。他们附加了一个轻量级的动作头 (Action Head) (\(\Psi_a\))。
有趣的是,在推理 (测试) 期间,机器人显然没有真实的目标图像 (因为它还没有发生!) 。但是,模型被设计为处理掩码输入。研究人员向模型输入一个完全掩盖 (空白) 的目标图像。预训练模型随后根据其训练生成预测的目标图像 (\(\hat{o}_f\))。
这个预测出的“想象”随后与当前的观察一起被输入到动作头中,以决定动作:

通过显式地使用预测的未来状态 (\(\hat{o}_f\)),机器人根据它认为物体应该最终到达的位置来规划其动作。
实验与结果
作者在广泛使用的模拟基准和真实机器人任务中评估了 LaVA-Man。
模拟: Ravens 基准测试
Ravens 基准测试是桌面操作 (堆叠积木、打包盒子等) 的标准测试。LaVA-Man 与 CLIPort 和 Voltron 等强基准进行了比较。

如表 1 所示,LaVA-Man 显著优于基准模型。它的平均成功率达到 81% , 而 CLIPort 为 73%,Voltron 为 54%。它在涉及“未见物体”的任务中表现尤为出色,证明了在多样化的 OOPP 数据集上进行的预训练使其能够泛化到之前未见过的物品。
可视化“梦境”
人们可能会问: 这些预测的目标图像有多好?由于模型使用的是掩码自编码器 (MAE) 方法,输出可能会有些模糊 (缺乏高频细节) 。然而, 语义内容才是关键。

在图 13 中,请看“Prediction” (预测) 列。即使图像是模糊的,结构变化也是正确的。
- 在第二行 (“Place squash inside of the pot”,把南瓜放进锅里) ,模型成功地在金属锅内幻化出了南瓜的形状。
- 在第四行 (“Move the duck toy”,移动鸭子玩具) ,黄色的斑点正确地出现在了抽屉顶部。
这证明了模型不仅仅是在复制像素;它正在对空间关系和物体持久性进行推理。
真实世界的机器人性能
模拟是有用的,但现实世界是混乱的。作者在物理 UR5 机械臂上部署了 LaVA-Man,执行堆叠积木、折叠布料和打包物体等任务。

图 5 可视化了可供性图 (Affordance Maps) 。 这些热力图显示了机器人决定移动的位置。
- 第一行: 指令是“Pick the yellow cube to bowl” (把黄色方块拿进碗里) 。*抓取 (Pick) *图 (中间) 在黄色方块上发出亮光。*放置 (Place) *图 (右侧) 在碗上发光。
- 第二行: “Fold cloth from left to right” (从左向右折叠布料) 。模型识别出布料的一角作为抓取点,布料的中心作为目标点。
该模型在真实硬件上实现了高成功率,证明了在模拟中学习到的视觉表示有效地迁移到了现实中。
消融实验: 我们真的需要掩码吗?
研究人员进行了消融研究,以确保他们的设计选择是合理的。

在图 6(a) 中,他们测试了没有非对称掩码的模型 (“w/o Asym. mask”) 。性能从 81% 下降到 77%。这证实了强迫模型从部分信息中重建目标比简单地向其展示答案能提供更强的学习信号。
图 6(b) 同样有趣: 它展示了掩码比例的影响。 0.95 的比例 (掩盖 95% 的目标图像) 产生了最好的结果。如果比例太低 (0.75) ,任务太容易,模型学不到鲁棒的特征。如果比例是 1.0 (100% 掩盖) ,由于没有任何来自目标状态的视觉提示,问题变得过于模糊,模型难以收敛。
结论与启示
LaVA-Man 代表了我们对机器人学习思考方式的转变。该框架不再将指令视为动作的简单标签,而是将指令视为对未来状态的描述。
通过结合 OOPP 数据集的巨大多样性和目标图像预测的因果推理,LaVA-Man 在多个基准测试中取得了最先进的结果。它本质上是在教机器人“三思而后行 (look before they leap) ”——或者更准确地说,“先可视化再行动”。
局限性与未来工作
作者指出了几个定义未来研究路径的局限性:
- 模糊的预测: MAE 架构产生低分辨率的“梦境”。虽然语义正确,但更清晰的预测可以提高细粒度任务的精度。
- 2D 限制: 当前模型在 2D 图像上运行。它有时在依赖深度的任务 (如堆叠非常特殊的几何体) 上表现挣扎,因为它缺乏显式的 3D 意识。
- 伪可供性 (Pseudo Affordance) : 模型选取热力图值最高的像素。对于复杂的物体,“中心”像素可能不是最佳的抓取位置 (例如,抓取杯子的手柄与杯沿) 。
尽管存在这些局限性,LaVA-Man 为下一代语言引导机器人提供了稳健、可泛化的基础。随着视觉生成模型 (如扩散模型) 变得更快、更准确,我们可以期待这种“先预测后行动”的范式变得更加强大。
](https://deep-paper.org/en/paper/2508.19391/images/cover.png)