引言
人类是如何学习与新环境交互的?如果你把一个蹒跚学步的孩子放在一张摆满积木和杯子的桌子前,他们不会只是随机地抽动肌肉直到发生有趣的事情。他们会观察物体,形成一个小目标 (例如,“我想把蓝色积木放进杯子里”) ,然后尝试执行它。如果放不进去,他们会学习。如果成功了,他们会记住结果并尝试新的东西。
长期以来,机器人的学习方式并非如此。主流范式——强化学习 (Reinforcement Learning, RL) ——通常依赖于“随机”探索,本质上就是尝试随机动作,看看什么能带来奖励或改变摄像头画面中的像素值。在复杂的现实环境中,这种方法效率低下且具有潜在危险。一个随机挥舞的机械臂更有可能打破杯子,而不是把它叠起来。
一篇名为 “想象、验证、执行” (Imagine, Verify, Execute,简称 IVE) 的新论文提出了一种向代理式探索 (Agentic Exploration) 的转变。通过利用视觉语言模型 (VLMs) 的常识和推理能力,研究人员创建了一个像人类一样探索的系统: 它想象一个目标,验证其是否可行,然后执行它。

如上图 1 所示,RL 智能体 (中) 专注于最大化数学覆盖率,往往缺乏语义意义;而 IVE (右) 模仿了人类 (左) 理解、想象和验证的过程。
“抽搐式”学习的问题
要理解为什么 IVE 是必要的,我们首先需要看看传统方法在现实世界中为何举步维艰。
在模拟视频游戏中,RL 智能体表现出色。它们可以失败数百万次来学习一种策略。但在机器人技术中,我们面临两个巨大的障碍:
- 语义盲区 (Semantic Blindness) : 传统的内在奖励 (好奇心) 通常基于像素的新颖性。对于标准的 RL 智能体来说,闪烁的灯光可能比堆叠积木更“有趣”,因为像素变化更剧烈。它并不理解物体。
- 物理可行性 (Physical Feasibility) : VLM 可能拥有语义知识 (它知道杯子是用来装东西的) ,但它往往缺乏物理基础。它可能会“想象”把一个大盒子放进一个小杯子里——这是一个在语义上有趣但在物理上不可能的想法。
IVE 框架弥补了这一差距。它使用像 GPT-4 这样的模型的语义智能来提出有趣的目标,但将其包裹在一个严谨的记忆和验证系统中,以确机器人的行为既新颖又在物理上可行。
IVE 框架: 深入解析
IVE 代表想象 (Imagine) 、验证 (Verify) 、执行 (Execute) 。 这是一个闭环系统,无需人工干预或预定义的奖励即可运行。让我们一步步拆解其架构。
1. 场景描述器: 看见世界
在机器人进行规划之前,它必须理解它看到的是什么。原始像素对于高层规划来说噪音太大了。IVE 通过将 RGB-D 观测转换为场景图 (Scene Graph) 来解决这个问题。
场景图是世界的结构化表示。计算机看到的不再是像素,而是节点 (物体) 和边 (关系) 。

如上面的方程定义:
- \(V\) 代表物体集合 (例如,红杯子、蓝积木) 。
- \(E\) 代表它们之间的关系 (例如,堆叠在…上、靠近…) 。
场景描述器 (Scene Describer) 使用 VLM 分析摄像头画面并生成此图。这种抽象至关重要,因为它允许机器人进行符号推理。它不关心光照条件或纹理;它只知道“蓝色积木在托盘上”。
2. 探索器: 想象力与记忆
一旦理解了当前状态, 探索器 (Explorer) 模块就会接管。这是整个操作的“大脑”。它的工作是想象一个未来的场景图——一种目前不存在但可能存在的配置。
然而,我们不希望机器人一遍又一遍地做同样的事情。为了防止这种情况,IVE 利用了一个记忆 (Memory) 模块。系统会存储所有先前访问过的场景图的历史记录。
当探索器规划移动时,它会查询这个记忆库以寻找类似的过去情况。

该方程选择在一定阈值 (\(\tau\)) 内与当前状态 (\(\mathcal{G}_t\)) 相似的过去图 (\(\mathcal{G}_j\)) 。通过查看在类似情况下已经做过的事情,探索器可以刻意生成一个新颖的目标——即它以前没有尝试过的东西。
一旦设定了目标 (例如,“把红杯子放在托盘上”) ,探索器就会生成一系列高层技能来实现它。

在这里,规划 \(\mu\) 由可解释的命令组成,如“move(Red cup, Stacked on, Tray)” (移动红杯子,堆叠在托盘上) 。
3. 验证器: 理性的声音
这就是 IVE 与标准 VLM 方法的区别所在。VLM 就像自信的即兴表演者——它们会乐于建议危险或不可能的动作。
验证器 (Verifier) 模块充当系统的“良知”。它查看探索器提出的计划,并根据最近的历史对其进行评估。
- 托盘已经满了吗?
- 我们 5 分钟前试过这个,但因为堆叠倒塌而失败了吗?
- 这种放置稳固吗?
如果验证器说“不”,计划就会被拒绝,探索器必须想象其他东西。如果它说“是”,计划就会进入执行阶段。这对于现实世界中安全、有效的探索至关重要。
4. 动作工具: 变为现实
最后,高层计划需要转化为机器人的动作。 动作工具 (Action Tools) 模块将语义命令转化为低层电机控制。

如上图 4 所示,像“堆叠白色盒子”这样的命令被分解为一个流水线: 寻找物体 (a),寻找目标位置 (b),计算抓取姿态 (c),以及执行动作 (d, e)。
这种模块化非常强大。机器人的“思考”部分 (VLM) 不需要知道如何计算关节角度;它只需要知道调用哪个工具。
它有效吗?实验与结果
研究人员在模拟环境 (VimaBench) 和现实世界的 UR5e 机械臂上测试了 IVE。他们将其与标准的 RL 探索方法 (如随机网络蒸馏 - RND) 和人类操作员进行了比较。
探索多样性
探索的主要目标是看到尽可能多的不同状态。这里使用的指标是熵 (Entropy) ——在这种情况下,更高的熵意味着机器人访问了更多种类的独特场景配置。

使用上面的公式,其中 \(p(s)\) 是访问某个状态的概率,研究人员测量了智能体的“好奇”程度。

结果 (图 5) 令人震惊:
- 相比 RL 的巨大提升: 与 RL 基线相比,IVE (蓝线) 实现了4.1 到 7.8 倍的状态熵增长 。 RL 智能体倾向于陷入困境或探索无关紧要的变化。
- 与人类相比的竞争力: IVE 发现了人类专家展示的场景多样性的 82% 到 122% 。 在某些情况下,它甚至超过了人类,因为人类往往会忘记他们 20 分钟前做了什么,而 IVE 的记忆模块确保它不断寻求新的配置。
各组件的重要性
复杂的架构真的有必要吗?研究人员进行了消融研究,移除了系统的部分组件以观察会发生什么。

图 6 说明了“想象、验证、执行”循环的必要性:
- 无记忆 (w/o Memory,绿色) : 没有记忆,机器人不断重复相同的动作,导致多样性低。
- 无验证器 (w/o Verifier,图中未显示但在讨论中提及) : 没有验证器,机器人尝试不可能的任务,导致执行失败。
- 无探索器 (w/o Explorer,红色) : 使用简单的规则代替 VLM 想象,导致了僵化、无趣的行为。
下游效用: 从数据中学习
探索的终极考验是收集的数据是否真的有用。其他机器人能从 IVE 收集的经验中学习吗?
研究人员使用 IVE 收集的数据来训练特定任务的策略 (行为克隆) 和训练世界模型 (预测物理规律) 。

表 1 显示了在不同来源的数据上训练的行为克隆策略的成功率。
- 在 RL 探索数据 (RND/RE3) 上训练的策略几乎完全失败 (0% - 8% 的成功率) 。数据实在不够有意义。
- 在 IVE 数据上训练的策略达到了高达 58% 的成功率 , 与在人类数据上训练的策略相当甚至略好。
这是一个重大发现。这意味着我们可以让 IVE 机器人彻夜“玩弄”物体,由此产生的数据质量足以用来训练机器人稍后执行特定任务。
结论与启示
“想象、验证、执行”论文为机器人学习的未来提出了一个令人信服的论点。通过从随机的运动尝试转向结构化的、语义化的好奇心,机器人可以探索得更快、更安全、更有效。
主要启示包括:
- 语义很重要: 理解物体和关系 (通过场景图) 比仅仅看像素能带来更丰富的探索。
- 记忆是关键: 知道你已经尝试过什么是发现你未曾尝试之事的关键。
- 验证填补鸿沟: 一个“神智检查”模块使我们能够在物理世界中使用强大但容易产生幻觉的 VLM。
这种方法让我们离通用机器人又近了一步,这些机器人可以进入一个新环境,环顾四周,并自主地教会自己世界是如何运作的——就像我们一样。
](https://deep-paper.org/en/paper/2505.07815/images/cover.png)