引言

想象一下你在找钥匙。你不会拿着放大镜扫描天花板的每一毫米或盯着空白的墙壁看；你会看桌子，翻翻沙发垫，或者在门附近找找。你的搜索是主动的、探索性的，并且由一个关于东西通常在哪里的“心智模型”所引导。

现在，想象一下要求机器人“找到香蕉”。对于机器人来说，这是一项极其复杂的任务，被称为开放词汇物体定位 (Open-Vocabulary Object Localization) 。机器人必须理解什么是“香蕉” (语义理解) ，在可能杂乱且从未见过的环境中导航 (探索) ，并理解它的物理运动如何改变它所看到的东西 (动力学) 。

目前的方法通常分为两大阵营:

模仿学习 (Imitation Learning) : 通过向机器人展示数千次人类演示来教导它们。这种方法昂贵且难以扩展。
视觉语言模型 (VLMs) : 询问像 GPT-4 这样的模型该做什么。虽然 VLM 很聪明，但它们缺乏“物理基础 (physical grounding) ”——它们可能会告诉机器人穿过桌子移动，因为它们不理解场景的物理约束。

WoMAP (World Models for Active Perception，用于主动感知的世界模型) 应运而生。在最近的一篇论文中，普林斯顿大学的研究人员介绍了一种新颖的“配方”，用于训练机器人找到任何物体，而无需任何人类演示。通过结合逼真的仿真、潜在世界模型和语言理解，WoMAP 实现了显著高于当前最先进基准的成功率。

WoMAP 使用世界模型将高层动作提议落地，并最大化预测奖励。在这个例子中，给定三个高层 VLM 提议，WoMAP 在潜在空间中评估了每个动作展开的结果后，选择“看碗后面”作为最佳选择。

在这篇文章中，我们将拆解 WoMAP 的架构，探索它如何使用“梦境般”的轨迹来规划现实世界的行动。

核心挑战: 主动感知

感知不是被动的。当我们看一个场景时，我们会移动头部来理解深度或确认物体的身份。这就是主动感知 (Active Perception) 。

对于机器人来说，这个问题被建模为部分可观测马尔可夫决策过程 (POMDP) 。机器人的视野有限，遮挡物会隐藏物体，传感器也有噪声。给定一个语言指令 $l$ (例如，“找到杯子”) ，机器人必须选择一系列动作 (移动其相机/手臂) 以最大化看到目标物体的概率。

困难在于三个需求的交叉点:

语义理解: 知道目标长什么样。
动力学建模: 知道当机器人移动时环境如何变化。
可扩展性: 在无需数千小时人类驾驶机器人的情况下学会这一点。

WoMAP 的配方

WoMAP 通过一个三部分的流程解决了这些挑战。它有效地为机器人创建了一个“健身房”来进行学习，在这个健身房里训练一个大脑 (世界模型) ，然后在部署期间使用这个大脑来验证 VLM 的建议。

左: WoMAP 的核心组件。基于高斯泼溅的可扩展数据生成 (第 3.2 节) ，带有物体检测奖励监督的世界建模 (第 3.3 节) ，以及潜在空间动作规划 (第 3.4 节) 。右: 动作优化过程。给定任务和当前观测，VLM 生成高层提议，我们将其转换为粗略动作 (绿色箭头) ；每个动作在 WoMAP 的奖励梯度场内进一步优化 (红色箭头) ，并执行具有最高预测奖励的动作序列。

让我们分解上图中展示的每个组件。

要素 1: 基于高斯泼溅的可扩展数据生成

机器人技术最大的瓶颈之一是数据。收集现实世界的数据很慢，而且对硬件有危险。仿真虽然快，但通常看起来很“卡通化”，这就产生了“仿真到现实的差距 (sim-to-real gap) ”，即在仿真中训练的机器人在现实世界中会失败。

WoMAP 利用 高斯泼溅 (Gaussian Splatting) 桥接了这一差距。

高斯泼溅是一种技术，它可以从简单的视频录制中创建高度逼真的 3D 场景表示。研究人员拍摄一分钟的场景视频 (比如凌乱的餐桌) ，算法将其重建为 3D 高斯云。这允许系统渲染新视角 (novel views) ——即摄像机在录制过程中从未实际访问过的角度的图像。

使用高斯泼溅进行数据生成。我们为每个场景训练高斯泼溅，并通过语义标注 [25] 获取地面实况物体位置以进行信息丰富的视图采样。每个观测都用 GroundingDINO [26] 进行标记，以获得所有训练目标的置信度分数。

如上图所示，该流程的工作原理如下:

录制视频: 捕捉现实世界的场景。
生成泼溅 (Splat) : 创建逼真的 3D 环境。
语义标注: 使用 CLIP 和 GroundingDINO 等模型自动标记物体 (例如，识别 3D 空间中的“香蕉”或“剪刀”) 。
轨迹采样: 自动生成数千条穿过这个虚拟场景的随机机器人路径。

这实际上允许机器人“构想”出仿真中的训练数据。它可以练习从 10,000 个不同的角度看仿真中的香蕉，生成一个数据集 $\mathcal{D} = \{(o_i, r_i, P_i)\}$，其中包含观测 (图像) 、奖励 (我看到物体了吗？) 和姿态 (相机在哪里？) 。

在 PyBullet 和高斯泼溅中生成的训练轨迹的可视化。

其结果是一个既具有物理真实性又具有大规模的训练集，而这一切都源自几分钟的视频。

要素 2: 潜在世界模型

有了数据，下一步就是训练机器人的环境内部模型。 世界模型 (World Model) 允许智能体预测其行为的后果。“如果我向左移动，我会看到什么？”

WoMAP 的世界模型在 潜在空间 (latent space) 中运行。它不是试图预测下一张图像的每一个像素 (这在计算上很昂贵且容易出错) ，而是将图像压缩成紧凑的向量表示 ($z_t$) 并预测该向量如何变化。

用于同时进行动力学和奖励预测的世界模型架构。

该架构由三部分组成:

观测编码器 ($h_\theta$): 将原始图像压缩为潜在状态 $z_t$。研究人员发现使用预训练的 DINOv2 编码器 (冻结参数，不进行微调) 提供了最稳健的视觉特征。
动力学预测器 ($q_\psi$): 给定当前状态和动作，预测下一个潜在状态 $z_{t+1}$。
奖励预测器 ($v_\phi$): 预测状态的效用。“这里的目标物体可见度有多少？”

秘密武器: 无重构训练

大多数传统的世界模型 (如 Dreamer) 使用 图像重构 作为训练信号。它们试图将潜在状态解码回像素，并检查它是否与原始图像匹配。

WoMAP 的作者认为这对于此任务是不必要的，甚至是有害的。重构迫使模型关注无关的细节 (如墙壁的纹理) ，而不是手头的任务 (寻找物体) 。此外，这会导致训练不稳定。

相反，WoMAP 使用 密集奖励蒸馏 (Dense Reward Distillation) 。它们利用物体检测器的置信度分数来监督模型。如果机器人移动到一个物体检测器说“我有 90% 的把握这是香蕉”的位置，模型就会学到这个转换会产生高奖励。这有效地将大型视觉模型 (GroundingDINO) 的知识蒸馏到了轻量级的世界模型中。

冻结 vs. 微调 DINOv2 编码器。微调 DINOv2 编码器通常会导致训练不稳定，从而对性能产生负面影响。

上面的消融研究强调了为什么他们冻结了 DINOv2 编码器。尝试微调编码器 (下降到零或剧烈波动的线) 导致了不稳定性，而使用冻结的预训练特征 (较平滑的顶部曲线) 则带来了稳定的学习。

要素 3: VLM 指导下的规划

世界模型可以预测未来，但如果没有计划，它本身并不知道哪个未来最值得追求。

在一个复杂的房间里，随机搜索是低效的。人类使用常识: “苹果可能在水果盘里，而不是在订书机下面。”大语言模型 (LLMs) 和 VLM 拥有这种语义常识。

WoMAP 结合了这两者:

提议: 机器人将其当前视图发送给 VLM (如 GPT-4) 并征求建议。VLM 可能会建议: “看碗后面”或“检查桌子的左侧”。
落地 (WoMAP 步骤) : 这些建议是高层次且粗糙的。WoMAP 接受这些候选建议，并使用其世界模型来模拟特定的轨迹。它运行一个优化循环 (模型预测控制) 来微调确切的相机角度和移动，以最大化预测奖励。

$()\n\\begin{array} { r l } { \\underset { a _ { t : t + T } } { \\operatorname* { m a x } } } & { \\displaystyle \\sum _ { \\tau = 1 } ^ { T } ( \\mathbb { E } _ { v _ { \\phi } } [ r _ { t + \\tau } \\mid z _ { t + \\tau } , e _ { g } ) ] + \\gamma \\left| a _ { t + \\tau - 1 } - a _ { t + \\tau - 2 } \\right| _ { 1 } ) , } \\ { \\mathrm { s u b j e c t ~ t o } } & { z _ { t + \\tau } \\sim q _ { \\psi } ( z _ { t + \\tau } \\mid z _ { t + \\tau - 1 } , a _ { t + \\tau - 1 } ) \\ \\forall \\tau \\in [ T ] , } \\end{array}\n()$

在数学上，系统求解上面的优化问题。它搜索一系列动作 ($a_{t:t+T}$) ，以最大化预期奖励 (看到物体) ，同时惩罚不平稳的移动 (平滑项) 。

实验与结果

研究人员在仿真环境 (PyBullet) 和现实世界环境 (使用 TidyBot) 中评估了 WoMAP，涵盖了不同难度的任务。

定性表现

行为上的视觉差异是惊人的。在下图中，机器人的任务是找到藏在马克杯后面的香蕉。

WM-Grad (蓝色) : 一个没有 VLM 指导的基本世界模型规划器陷入了局部极小值，走了一条绕圈的路径。
VLM (黄色) : VLM 建议了方向，但缺乏获得良好视野所需的精确度。
WoMAP (橙色) : 它果断地绕过遮挡物以观察目标。

TidyBot 上所有规划器轨迹的可视化。当被要求寻找一个物体，例如被马克杯遮挡的香蕉时，WoMAP 比其他规划器更有效地找到了目标物体 (香蕉) 。如图所示，WM-Grad 计算出了低效、迂回的路径，而 DP 没有去看不被遮挡的地方。详见第 4.3 节和论文视频。此外，我们展示了使用 WoMAP 规划时不同时间步长的场景和腕部相机图像 (右) 。

定量成功率

数据支持了视觉效果。团队测试了不同的场景难度 (简单、中等、困难) 和初始化难度 (起始视角的糟糕程度) 。

PyBullet 评估任务和结果。在 PyBullet 场景 (按难度递增顺序呈现) 和初始姿态条件: 简单 (E)、中等 (M) 和困难 (H) 下的主动物体定位成功率 (半透明条) 和效率得分 (实心条) 。WoMAP 在所有场景和初始姿态条件下均优于所有基准方法。

在上面的 PyBullet 评估中，WoMAP (橙色条) 始终占据优势。

对比 VLM: VLM 经常完全失败 (在困难任务中成功率接近 0.1-0.2) ，因为它构想出的动作在物理上是不可能或无效的。
对比扩散策略 (DP): 模仿学习基准 (粉色) 难以泛化。它表现得很“习惯性”，即使在新的场景布局中没有意义，也朝着训练数据中看到的方向移动。

结果在高斯泼溅仿真环境中同样成立:

高斯泼溅评估任务和结果。在高斯泼溅场景和初始姿态条件: 简单 (E)、中等 (M) 和困难 (H) 下的主动物体定位成功率 (半透明条) 和效率得分 (实心条) 。与 PyBullet 场景一样，WoMAP 通过有效的动作落地和优化优于所有基准方法。

仿真到现实的迁移

也许最令人印象深刻的结果是零样本仿真到现实的迁移 (Zero-Shot Sim-to-Real Transfer) 。该模型完全是在从高斯泼溅生成的数据上训练的。它从未在物理机器人硬件上训练过。

然而，当部署在真实的 TidyBot 上时:

$表 1: VLM 和 WoMAP 的零样本仿真到现实迁移的成功率 \$( \\% )\$。$

WoMAP 在随机现实世界场景 (“GS-Random”) 中实现了 63% 的成功率 , 而直接使用 VLM 的成功率为 0% 。 VLM 在现实世界中失败主要是因为它不断建议违反机器人关节限制或忽略物理约束的动作。WoMAP 的世界模型充当了现实检查员，将这些建议转化为可行的动作。

泛化能力

最后，一个稳健的机器人必须处理光照和措辞的变化。研究人员在极端光照条件 (红光、蓝光) 和背景变化下测试了 WoMAP。

视觉泛化设置: 光照和背景条件。

虽然性能略有下降 (如预期) ，但即使在截然不同的光照下，WoMAP 仍保持了 50% 的成功率，这表明 DINOv2 和世界模型学习到的潜在特征对视觉噪声具有鲁棒性。

各种背景和光照条件下的视觉泛化结果。

它在语义上也能泛化。如果训练时是找“香蕉”，当被要求找“甜的东西”或“热带食物”时，它仍然能成功，这归功于奖励预测器中使用的语言嵌入。

同一类别中未见查询和物体的泛化图: (左) 香蕉， (中) 剪刀， (右) 马克杯。我们看到物体/查询与我们训练物体中存在的相似物体的语义相似度 (余弦距离) 与暗示模型性能的效率得分呈正相关。

结论

WoMAP 代表了机器人主动感知领域向前迈出的重要一步。通过摆脱对昂贵人类演示和不稳定图像重构目标的依赖，它提供了一个教机器人“看”的可扩展“配方”。

关键要点如下:

仿真即数据: 高斯泼溅允许我们将简短的视频转化为无限的训练游乐场。
不要重构，要蒸馏: 预测奖励 (来自基础模型) 比重构像素更有效。
信任，但要核实: VLM 拥有极好的常识，但物理感很差。世界模型通过将语言提议落地到物理现实中来弥补这一差距。

随着机器人从结构化的工厂进入我们凌乱、不可预测的家庭，像 WoMAP 这样结合语义推理与物理预见能力的架构将是其成功的关键。

引言#

核心挑战: 主动感知#

WoMAP 的配方#

要素 1: 基于高斯泼溅的可扩展数据生成#

要素 2: 潜在世界模型#

秘密武器: 无重构训练#

要素 3: VLM 指导下的规划#

实验与结果#

定性表现#

定量成功率#

仿真到现实的迁移#

泛化能力#

结论#

引言