引言: 长程任务的挑战
想象一下,要求机器人“做晚饭”。对你来说,这是一个简单的请求。但对机器人而言,这代表了一系列惊人且复杂的、物理落地的动作序列: 打开冰箱,识别食材,抓取洋葱,将其放在砧板上,拿起刀,等等。
在机器人学习领域,我们要称之为长程操作任务 (long-horizon manipulation tasks) 。 它们之所以极具挑战性,是因为错误会累积。如果机器人连打开冰箱都搞砸了,后续的计划就毫无意义了。
为了解决这个问题,研究人员通常求助于模仿学习 (Imitation Learning) ——通过演示来教导机器人。理想情况下,我们希望机器人能从“无标签的玩耍数据 (unlabeled play data) ”中学习。这些数据是人类在与机器人互动、移动物体和探索环境时随意收集的,没有特定的目标标签。收集这些数据很便宜,但从中学习却极其混乱。
最近的趋势是尝试使用生成式 AI 来解决这个问题。其逻辑是: “如果我们能使用视频生成模型 (就像迷你版的 Sora) 来‘幻想’出一段机器人完成任务的视频,我们就可以直接让机器人跟随这段视频操作。”
然而,生成式视频规划器存在两个巨大的问题:
- 幻觉 (Hallucination) : 扩散模型臆造的是像素,而非物理规律。它们可能会生成一段视频,里面碗凭空消失了,或者机械臂长出了第二个肘部。
- 速度: 逐像素生成视频帧在计算上非常昂贵,每个计划通常需要数秒钟——这对于实时控制来说太漫长了。
Vis2Plan 应运而生,这是一个采用不同方法的全新框架。它不再凭空构想新视频,而是从现有数据中提取符号计划 (symbolic plans) , 并检索真实的、物理上有效的图像来指导机器人。
在这篇深度文章中,我们将探讨 Vis2Plan 如何结合两全其美的方法: 符号 AI 的推理能力和现代计算机视觉的丰富感知能力。
Vis2Plan 的架构
Vis2Plan 是一个分层框架。它将高层的“思考” (规划) 与底层的“执行” (控制) 分离开来。但与需要人类手动编码规则 (如 PDDL) 的传统符号规划器不同,Vis2Plan 能够自动从原始视频中提取符号。
让我们看看高层架构:

如图 1 所示,该系统分两个不同阶段工作:
- 离线学习 (底部流) : 系统消化无标签的玩耍数据,以学习符号、转移图和策略模块。
- 在线推理 (顶部流) : 当给定一个目标时,规划器找到一条符号路径,将其转换为视觉子目标 (图像) 序列,并使用底层控制器执行它们。
这种方法的妙处在于它是白盒 (white-box) 的。与输出向量并让你“相信它”的黑盒神经网络不同,Vis2Plan 生成的是可读的符号计划。你可以检查机器人打算采取的步骤。
第一阶段: 从像素到符号
如何在没有人工标注的情况下,将一段混乱的厨房视频转化为清晰、离散的符号?Vis2Plan 利用了视觉基础模型 (Vision Foundation Models, VFMs) 。
研究人员认识到,虽然原始像素数据是高维且嘈杂的,但任务状态通常仅在物体交互时才会发生变化。例如,“锅”在炉子上时处于一种稳态,而在水槽里时处于另一种稳态。两者之间的移动只是过渡。
1.1 视频预处理与跟踪
首先,系统需要了解场景中有什么。它使用 SAM2 (Segment Anything Model 2) 来跟踪物体,并使用 SigLIP2 从这些物体中提取丰富的视觉特征。这将视频从像素流转换为以物体为中心的特征向量流。
1.2 基于稳态识别的技能分割
这里的核心洞察是稳态识别 (Stable State Identification) 。 系统分析特征向量随时间的变化。当物体的视觉特征在一段时间内保持相似时,这代表一个“稳态”。当它们快速变化时,则表示正在发生动作。

如图 2 所示:
- 输入: 原始视频帧。
- 分割: 通过计算时间相似性 (帧 \(t\) 与帧 \(t+1\) 有多相似?) ,系统识别变化的峰值。这些峰值标志着子技能之间的边界。
- 聚类: 系统对稳态进行凝聚聚类 (agglomerative clustering) 。如果视频 A 中的“锅在炉子上”与视频 B 中的看起来相似,它们就会被聚类到同一个符号状态 。
这有效地将连续视频转化为离散节点的序列,从而允许构建符号转移图 。
1.3 符号图
第一阶段的结果是一个有向图,其中节点是物体状态,边是可能的转移。

图 12 展示了该图的可视化效果。每个节点 (如节点 19) 代表世界的一种特定配置 (例如,“物体 2 处于状态 3”) 。这个图就是机器人用来执行任务导航的地图。因为它是从真实数据构建的,图中的每一次转移都是机器人实际看到过的。
第二阶段: 学习规划模块
拥有图固然好,但要执行任务,机器人需要三种特定的学习能力:
- 状态预测: “我现在在哪里?”
- 可达性: “我真的能从图像 A 到达图像 B 吗?”
- 控制: “我该如何移动手臂来到达图像 B?”
2.1 下一符号状态预测器
由于机器人通过摄像头观察世界,它需要将其当前的图像观测 \(O_t\) 映射到符号图中的一个节点。研究人员训练了一个分类器 \(C_{\theta}\),该分类器接收图像并预测下一个可能的符号状态。

这个预测器充当了连续现实世界与离散符号地图之间的桥梁。
2.2 可达性估计器
这无疑是防止产生幻觉的最关键组件。仅仅因为两个状态在图中相连,并不意味着机器人可以从当前的特定姿态在它们之间进行物理转换。
Vis2Plan 训练了一个可达性估计器 (Reachability Estimator) \(R_{\psi}\)。这是一个使用对比强化学习 (Contrastive Reinforcement Learning) 训练的神经网络。

如图 13 所示,该网络接收当前观测图像和潜在的子目标图像。它输出一个分数,表示转换的可行性。
训练使用了 MC-InfoNCE 损失函数:

简单来说,这个方程迫使网络为数据集中实际发生的转换 (正样本对) 分配高分,并为随机配对 (负样本对) 分配低分。如果规划器建议了一个违反物理规律或机器人能力的跳跃,这个估计器将输出低分,允许规划器拒绝该建议。
2.3 底层控制器
最后,系统需要一个策略来移动机器人。Vis2Plan 使用目标条件策略 (Goal-Conditioned Policy) 。 它接收当前图像和下一个视觉子目标 (由规划器选择) ,并输出电机动作 (关节角度、抓手位置) 。

该策略通过对玩耍数据的短片段进行行为克隆来训练。它不需要知道长期目标;它只需要知道如何从“这里”到达“紧接着的下一步”。
第三阶段: 符号引导的视觉规划 (推理)
现在我们将所有内容整合在一起。机器人被放置在厨房里,并被告知: “把锅放在炉子上。”
这个过程遵循“搜索-检索-验证”模式,如图 3 所示。

步骤 1: 符号规划 (搜索) 机器人观察场景 (\(O_t\)) 并识别其当前的符号状态。它查看目标符号 (\(z_g\))。然后,它在第一阶段构建的符号图上运行 A 搜索算法* 。 这找到了一条符号的最短路径: \(z_{start} \rightarrow z_1 \rightarrow z_2 \rightarrow z_{goal}\)。
步骤 2: 视觉锚定 (检索) 符号是抽象的。底层控制器需要像素。对于计划中的每个符号 (例如,“锅被举在炉子上方”) ,系统会从数据集中检索与该符号匹配的一组真实图像。
步骤 3: 可达性过滤 (验证) 系统现在拥有图像集的序列。它需要选择特定的序列 \(O_1, O_2, \dots, O_n\),以创建最平滑、最可行的路径。
它解决了一个优化问题:

它使用可达性估计器 (\(R_{\psi}\)) 对转移进行评分。它选择最大化可达性 (确保物理一致性) 的图像序列。
优化技巧: 为了加快速度,Vis2Plan 预先计算了可达性特征。运行时不再将繁重的图像输入网络,而是简单地进行预计算向量的点积运算。

图 14 比较了标准方法 (慢) 与 Vis2Plan 的优化方法 (快) 。这种优化使得 Vis2Plan 的运行速度比视频生成模型快几个数量级。
实验与结果
研究人员在两个环境中评估了 Vis2Plan:
- LIBERO 仿真: 机器人操作的标准基准。
- 真实世界: 机械臂与玩具厨房互动 (操作锅、碗和蔬菜) 。
定量性能
结果是决定性的。Vis2Plan 显著优于基线,特别是在长程任务 (多阶段任务) 上。

在表 1 (仿真) 中,请看“Long Horizon (长程) ”列。端到端方法 (如 GC-Transformer) 完全失败 (0% 成功率) 。基于扩散的视频规划器 (AVDC) 表现挣扎。Vis2Plan 在最难的任务上达到了 72-82% 的成功率。
真实世界的结果也反映了这一成功:

Vis2Plan 在各项任务中的平均成功率为 0.71 , 而基于扩散的视频规划器 (AVDC) 仅达到 0.18 。
速度对比
最令人印象深刻的成果之一是效率。因为 Vis2Plan 是检索现有图像而不是生成新图像,所以它的速度快得令人难以置信。

表 7 显示,扩散规划器 (AVDC) 需要 1.42 秒来构思一个计划,而 Vis2Plan 仅需 0.03 秒 。 在机器人技术中,这种差异就是流畅动作与卡顿停顿之间的天壤之别。
定性分析: 为什么其他方法会失败?
该论文对生成式视频规划器失败的原因进行了精彩的分析。

图 5 突出了“幻觉”问题。
- AVDC (扩散): 在红框中,生成模型简单地“删除”了碗。它凭空消失了。底层控制器因物体丢失而困惑,导致失败。
- GSR (图搜索检索): 该基线基于朴素的视觉相似性连接状态。它从拿着平底锅的状态直接跳跃到平底锅突然出现在其他地方的状态,导致机器人胡乱挥舞。
相比之下,Vis2Plan 生成的计划在物理上是一致的,因为它检索的是实际发生过的真实图像。

图 15 展示了 Vis2Plan 的实际运行情况。 符号子目标 (顶行) 提供高层逻辑,而视觉子目标 (底行) 为控制器提供像素级的完美目标。无论是在仿真中把碗放在炉子上,还是在现实世界中把青葱放入锅中,计划都是连贯的。
结论
Vis2Plan 代表了我们从无标签数据中思考机器人规划方式的转变。它不再依赖端到端学习的“黑魔法”或视频生成模型昂贵的“幻觉”,而是采用了一种结构化的方法。
关键要点:
- 符号引导很强大: 通过提取离散状态,我们获得了经典规划 (A* 搜索) 的可靠性。
- 检索优于生成: 对于机器人规划而言,寻找一张保证物理可行性的真实图像通常比生成一张合成图像更好 (也更安全) 。
- 效率至关重要: 机器人需要在现实世界中行动。能在 0.03 秒内运行的规划器实现了 1 秒级规划器无法比拟的实时响应能力。
通过有效弥合符号推理与视觉模仿之间的鸿沟,Vis2Plan 为机器人提供了一个稳健的蓝图,使其能够仅通过观察我们的玩耍就能学会复杂的多步骤任务。
](https://deep-paper.org/en/paper/2505.08444/images/cover.png)