机器人如何通过“想象”来探索：摆脱随机动作的束缚

引言

人类是如何学习与新环境交互的？如果你把一个蹒跚学步的孩子放在一张摆满积木和杯子的桌子前，他们不会只是随机地抽动肌肉直到发生有趣的事情。他们会观察物体，形成一个小目标 (例如，“我想把蓝色积木放进杯子里”) ，然后尝试执行它。如果放不进去，他们会学习。如果成功了，他们会记住结果并尝试新的东西。

长期以来，机器人的学习方式并非如此。主流范式——强化学习 (Reinforcement Learning, RL) ——通常依赖于“随机”探索，本质上就是尝试随机动作，看看什么能带来奖励或改变摄像头画面中的像素值。在复杂的现实环境中，这种方法效率低下且具有潜在危险。一个随机挥舞的机械臂更有可能打破杯子，而不是把它叠起来。

一篇名为 “想象、验证、执行” (Imagine, Verify, Execute，简称 IVE) 的新论文提出了一种向代理式探索 (Agentic Exploration) 的转变。通过利用视觉语言模型 (VLMs) 的常识和推理能力，研究人员创建了一个像人类一样探索的系统: 它想象一个目标，验证其是否可行，然后执行它。

人类、RL 和 IVE 探索策略的比较。

如上图 1 所示，RL 智能体 (中) 专注于最大化数学覆盖率，往往缺乏语义意义；而 IVE (右) 模仿了人类 (左) 理解、想象和验证的过程。

“抽搐式”学习的问题

要理解为什么 IVE 是必要的，我们首先需要看看传统方法在现实世界中为何举步维艰。

在模拟视频游戏中，RL 智能体表现出色。它们可以失败数百万次来学习一种策略。但在机器人技术中，我们面临两个巨大的障碍:

语义盲区 (Semantic Blindness) : 传统的内在奖励 (好奇心) 通常基于像素的新颖性。对于标准的 RL 智能体来说，闪烁的灯光可能比堆叠积木更“有趣”，因为像素变化更剧烈。它并不理解物体。
物理可行性 (Physical Feasibility) : VLM 可能拥有语义知识 (它知道杯子是用来装东西的) ，但它往往缺乏物理基础。它可能会“想象”把一个大盒子放进一个小杯子里——这是一个在语义上有趣但在物理上不可能的想法。

IVE 框架弥补了这一差距。它使用像 GPT-4 这样的模型的语义智能来提出有趣的目标，但将其包裹在一个严谨的记忆和验证系统中，以确机器人的行为既新颖又在物理上可行。

IVE 框架: 深入解析

IVE 代表想象 (Imagine) 、验证 (Verify) 、执行 (Execute) 。这是一个闭环系统，无需人工干预或预定义的奖励即可运行。让我们一步步拆解其架构。

1. 场景描述器: 看见世界

在机器人进行规划之前，它必须理解它看到的是什么。原始像素对于高层规划来说噪音太大了。IVE 通过将 RGB-D 观测转换为场景图 (Scene Graph) 来解决这个问题。

场景图是世界的结构化表示。计算机看到的不再是像素，而是节点 (物体) 和边 (关系) 。

代表场景图结构的方程。

如上面的方程定义:

\(V\) 代表物体集合 (例如，红杯子、蓝积木) 。
\(E\) 代表它们之间的关系 (例如，堆叠在…上、靠近…) 。

场景描述器 (Scene Describer) 使用 VLM 分析摄像头画面并生成此图。这种抽象至关重要，因为它允许机器人进行符号推理。它不关心光照条件或纹理；它只知道“蓝色积木在托盘上”。

2. 探索器: 想象力与记忆

一旦理解了当前状态, 探索器 (Explorer) 模块就会接管。这是整个操作的“大脑”。它的工作是想象一个未来的场景图——一种目前不存在但可能存在的配置。

然而，我们不希望机器人一遍又一遍地做同样的事情。为了防止这种情况，IVE 利用了一个记忆 (Memory) 模块。系统会存储所有先前访问过的场景图的历史记录。

当探索器规划移动时，它会查询这个记忆库以寻找类似的过去情况。

记忆检索方程。

该方程选择在一定阈值 (\(\tau\)) 内与当前状态 (\(\mathcal{G}_t\)) 相似的过去图 (\(\mathcal{G}_j\)) 。通过查看在类似情况下已经做过的事情，探索器可以刻意生成一个新颖的目标——即它以前没有尝试过的东西。

一旦设定了目标 (例如，“把红杯子放在托盘上”) ，探索器就会生成一系列高层技能来实现它。

显示探索器生成的技能序列的方程。

在这里，规划 \(\mu\) 由可解释的命令组成，如“move(Red cup, Stacked on, Tray)” (移动红杯子，堆叠在托盘上) 。

3. 验证器: 理性的声音

这就是 IVE 与标准 VLM 方法的区别所在。VLM 就像自信的即兴表演者——它们会乐于建议危险或不可能的动作。

验证器 (Verifier) 模块充当系统的“良知”。它查看探索器提出的计划，并根据最近的历史对其进行评估。

托盘已经满了吗？
我们 5 分钟前试过这个，但因为堆叠倒塌而失败了吗？
这种放置稳固吗？

如果验证器说“不”，计划就会被拒绝，探索器必须想象其他东西。如果它说“是”，计划就会进入执行阶段。这对于现实世界中安全、有效的探索至关重要。

4. 动作工具: 变为现实

最后，高层计划需要转化为机器人的动作。 动作工具 (Action Tools) 模块将语义命令转化为低层电机控制。

在现实环境中将技能转化为动作的示例。

如上图 4 所示，像“堆叠白色盒子”这样的命令被分解为一个流水线: 寻找物体 (a)，寻找目标位置 (b)，计算抓取姿态 (c)，以及执行动作 (d, e)。

这种模块化非常强大。机器人的“思考”部分 (VLM) 不需要知道如何计算关节角度；它只需要知道调用哪个工具。

它有效吗？实验与结果

研究人员在模拟环境 (VimaBench) 和现实世界的 UR5e 机械臂上测试了 IVE。他们将其与标准的 RL 探索方法 (如随机网络蒸馏 - RND) 和人类操作员进行了比较。

探索多样性

探索的主要目标是看到尽可能多的不同状态。这里使用的指标是熵 (Entropy) ——在这种情况下，更高的熵意味着机器人访问了更多种类的独特场景配置。

定义状态熵的方程。

使用上面的公式，其中 \(p(s)\) 是访问某个状态的概率，研究人员测量了智能体的“好奇”程度。

跨模拟和现实环境的探索能力评估。

结果 (图 5) 令人震惊:

相比 RL 的巨大提升: 与 RL 基线相比，IVE (蓝线) 实现了4.1 到 7.8 倍的状态熵增长 。 RL 智能体倾向于陷入困境或探索无关紧要的变化。
与人类相比的竞争力: IVE 发现了人类专家展示的场景多样性的 82% 到 122% 。在某些情况下，它甚至超过了人类，因为人类往往会忘记他们 20 分钟前做了什么，而 IVE 的记忆模块确保它不断寻求新的配置。

各组件的重要性

复杂的架构真的有必要吗？研究人员进行了消融研究，移除了系统的部分组件以观察会发生什么。

IVE 的消融研究显示缺少关键模块时的性能下降。

图 6 说明了“想象、验证、执行”循环的必要性:

无记忆 (w/o Memory，绿色) : 没有记忆，机器人不断重复相同的动作，导致多样性低。
无验证器 (w/o Verifier，图中未显示但在讨论中提及) : 没有验证器，机器人尝试不可能的任务，导致执行失败。
无探索器 (w/o Explorer，红色) : 使用简单的规则代替 VLM 想象，导致了僵化、无趣的行为。

下游效用: 从数据中学习

探索的终极考验是收集的数据是否真的有用。其他机器人能从 IVE 收集的经验中学习吗？

研究人员使用 IVE 收集的数据来训练特定任务的策略 (行为克隆) 和训练世界模型 (预测物理规律) 。

比较在不同数据集上训练的策略成功率的表格。

表 1 显示了在不同来源的数据上训练的行为克隆策略的成功率。

在 RL 探索数据 (RND/RE3) 上训练的策略几乎完全失败 (0% - 8% 的成功率) 。数据实在不够有意义。
在 IVE 数据上训练的策略达到了高达 58% 的成功率 , 与在人类数据上训练的策略相当甚至略好。

这是一个重大发现。这意味着我们可以让 IVE 机器人彻夜“玩弄”物体，由此产生的数据质量足以用来训练机器人稍后执行特定任务。

结论与启示

“想象、验证、执行”论文为机器人学习的未来提出了一个令人信服的论点。通过从随机的运动尝试转向结构化的、语义化的好奇心，机器人可以探索得更快、更安全、更有效。

主要启示包括:

语义很重要: 理解物体和关系 (通过场景图) 比仅仅看像素能带来更丰富的探索。
记忆是关键: 知道你已经尝试过什么是发现你未曾尝试之事的关键。
验证填补鸿沟: 一个“神智检查”模块使我们能够在物理世界中使用强大但容易产生幻觉的 VLM。

这种方法让我们离通用机器人又近了一步，这些机器人可以进入一个新环境，环顾四周，并自主地教会自己世界是如何运作的——就像我们一样。

引言#

“抽搐式”学习的问题#

IVE 框架: 深入解析#

1. 场景描述器: 看见世界#

2. 探索器: 想象力与记忆#

3. 验证器: 理性的声音#

4. 动作工具: 变为现实#

它有效吗？实验与结果#

探索多样性#

各组件的重要性#

下游效用: 从数据中学习#

结论与启示#

引言