引言
你如何在拥挤的房间里找到出口?你可能不会只盯着自己的脚,等到障碍物碰到脚趾时才做出反应。相反,你会进行心理模拟。你会想象一条路径,预测某人可能会挡住你的路,并在迈出一步之前调整你的轨迹。你拥有一个内部世界模型,使你能够模拟未来。
然而,在机器人领域,导航传统上更多是反应式的或“硬编码”的。大多数最先进的导航策略都是通过监督学习训练的,将当前的观察结果直接映射到动作上。虽然有效,但这些策略缺乏灵活性。一旦训练完成,它们就无法轻易适应新的约束 (例如“不要左转”) 或在陌生环境中推理动作的长期后果。
这就引出了具身智能 (Embodied AI) 领域一个令人着迷的发展: 导航世界模型 (Navigation World Model, NWM) 。

如图 1 所示,NWM 将导航视为一个视频生成问题。通过训练生成模型根据过去的观察和特定动作来预测未来的视频帧,研究人员创建了一个允许机器人“想象”其运动后果的系统。这使得机器人能够模拟数千种潜在的未来,评估哪一种能让它最接近目标,然后执行该计划——有效地将人类的心理模拟能力带给了自主智能体。
在这篇深度文章中,我们将探讨 NWM 的工作原理、使其高效的新颖架构,以及它如何超越传统的导航策略。
背景: 世界模型与生成式 AI
要理解 NWM,我们需要连接两个概念: 强化学习中的世界模型和计算机视觉中的扩散模型 。
什么是世界模型?
在机器人学和强化学习中,“世界模型”是环境的内部表征。形式上,如果一个智能体处于状态 \(s_t\) 并采取动作 \(a_t\),世界模型会预测下一个状态 \(s_{t+1}\)。如果机器人拥有一个好的世界模型,它就不需要在现实世界中尝试危险的动作来观察后果;它可以直接查询其内部模型。
生成式视频的兴起
最近,我们看到了文本生成视频模型 (如 Sora) 的爆炸式增长。这些模型充分理解光线、运动和物体恒存性的物理规律,能够生成逼真的片段。NWM背后的研究人员提出了一个关键问题: 我们能否将这种视频生成能力重新用于机器人控制?
NWM 不是根据文本提示生成视频,而是生成以导航动作为条件的视频。如果模型理解“向前移动”会导致图像中的走廊变大且物体变近,那么它实际上已经学会了导航的物理规律。
核心方法: 导航世界模型
NWM 的核心是一个条件生成模型。让我们分解其数学公式、时间处理方式以及旨在使其计算可行的特定架构。
1. 公式化: 预测未来
目标是学习一个函数,该函数接收过去的视觉观察和一系列动作,并输出未来的视觉观察。
由于直接处理原始像素的计算成本很高,系统首先使用变分自编码器 (VAE) 将图像编码为压缩的潜空间 (latent space) 。设 \(x_i\) 为图像, \(s_i\) 为其潜伏表示。世界模型 \(F_\theta\) 定义为一个随机映射:

这里, \(\mathbf{s}_\tau\) 代表过去帧的历史 (上下文) , \(a_\tau\) 是动作。模型实际上是在问: “鉴于我在过去几秒钟看到的情况,并假设我向这边移动,世界接下来会是什么样子?”
2. 动作和时间条件
标准的机器人动作通常由线速度 (前进/后退) 和角速度 (转弯) 组成。然而,预测需要知道经过了多少时间。
NWM 输入一个元组 \((u, \phi, k)\),其中:
- \(u\): 平移参数 (移动) 。
- \(\phi\): 旋转参数 (偏航角) 。
- \(k\): 时间偏移 (预测未来多长时间) 。
这个显式的时间偏移是一个强大的补充。它允许模型充当模拟器,你可以要求它“展示 1 秒后的状态”或“展示 4 秒后的状态”。
动作是在时间窗口内聚合的:

为了将这些条件输入神经网络,动作、时间偏移和扩散时间步长的标量值被嵌入向量并求和:

这个向量 \(\xi\) 调节神经网络,确保生成的视频帧符合机器人打算进行的特定运动。
3. 架构: 条件扩散 Transformer (CDiT)
这可能是该论文最重要的技术贡献。标准的扩散 Transformer (DiT) 功能强大但计算量大。在标准 Transformer 中,注意力的复杂度相对于输入序列长度是二次方的 (\(O(N^2)\)) 。如果你想以长历史帧作为条件,模型对于实时机器人应用来说会太慢。
为了解决这个问题,作者提出了条件扩散 Transformer (CDiT) 。

如图 2 所示,CDiT 块将正在生成的当前帧的处理与过去上下文帧的处理分离开来:
- 多头自注意力 (Multi-Head Self-Attention) : 仅应用于未来帧 (正在被去噪的目标) 的 Token。
- 多头交叉注意力 (Multi-Head Cross-Attention) : 目标帧关注过去的上下文帧。
通过将过去帧视为通过交叉注意力访问的固定上下文 (类似于文本生成图像模型处理文本提示的方式) ,复杂度相对于上下文帧的数量变为线性 。 这使得 NWM 能够扩展到 10 亿参数并使用更长的上下文历史,而不会变得极其缓慢。
4. 训练目标
该模型作为标准扩散模型进行训练。它获取一个干净的未来潜伏状态 \(s_{\tau+1}\),向其中添加噪声,并尝试在给定上下文和动作的情况下去除噪声 (去噪) 以预测干净状态。

5. 从预测到规划
拥有一个能预测未来的模型很有用,但它实际上如何进行导航呢?研究人员使用了一个模型预测控制 (MPC) 框架。
机器人想要到达目标图像 \(s^*\)。它需要找到一系列动作,使预测的未来状态 \(s_T\) 看起来与 \(s^*\) 相似。
他们定义了一个机器人试图最小化的能量函数 (代价函数) :

该方程包含三个部分:
- 相似度: 预测的未来帧 \(s_T\) 与目标帧 \(s^*\) 有多接近?
- 动作有效性: 提议的动作是否可行?
- 安全性: 预测的未来状态是否涉及掉下悬崖或撞墙?
规划过程简化为找到最小化该能量的动作序列:

系统采样许多随机动作序列,使用 NWM 模拟它们,使用上述方程对它们进行评分,并选择最好的一个。
实验与结果
NWM 在大量机器人数据集 (SCAND, TartanDrive, RECON, HuRoN) 和来自 Ego4D 的无标签视频数据上进行了训练。实验测试了模型合成视频、规划路径以及泛化到新环境的能力。
1. 视频预测质量
首先,模型真的理解世界吗?研究人员将 NWM 与名为 DIAMOND (一种基于 UNet 的扩散世界模型) 的基线进行了比较。

图 4 显示,NWM 在较长的时间范围内 (长达 16 秒) 生成了更逼真的视频 (更低的 FID) 和更准确的预测。

如上表所示,Fréchet 视频距离 (FVD) ——一种视频质量指标——对于 NWM 来说显著更低,表明其生成的视频更加清晰且在时间上更加一致。
2. 效率: CDiT 与 DiT
新架构真的更好吗?

图 5 中的图表证实了架构假设。CDiT 模型 (蓝色气泡) 聚集在左下角,这意味着它们以非常低的计算成本实现了低误差 (低 LPIPS) 。标准的 DiT 模型 (红色气泡) 需要大量的计算才能达到类似的性能。
3. 导航规划性能
终极测试是机器人能否利用这种“做梦”的能力进行导航。
轨迹排序: 一个强大的用例是使用 NWM 来复核另一个策略。想象一下,一个标准的导航策略建议了 16 条不同的路径。NWM 可以模拟所有 16 条路径的视频,并根据哪一条实际上到达了视觉目标来对它们进行排序。

定量结果:

表 2 显示,与 NoMaD 和 GNM 等最先进的策略相比,NWM 实现了最低的绝对轨迹误差 (ATE) 。这证明“想象”路径比简单地对当前视图做出反应能带来更准确的导航。
4. 带约束的规划
与硬编码策略相比,世界模型的最大优势之一是可控性 。 如果你告诉一个标准策略“到达目标”,它会走最优路径。但是如果你说“到达目标,但先直行 3 米”,标准策略就会失效。
使用 NWM,你只需过滤掉任何不满足约束的想象轨迹即可。


表 3 证明 NWM 可以处理复杂的指令,如“先向前”或“先左右”,同时仍能成功到达目的地。
5. 泛化到未知环境
最后,模型能否仅凭单张图像在它从未见过的环境中幻想路径?

图 8 显示模型为未见过的户外环境生成了看似合理的视频序列。至关重要的是,研究人员发现添加无标签视频数据 (如 Ego4D 录像,其中没有机器人动作标签) 显著提高了这种能力。

通过观看数千小时的人类视频 (Ego4D) ,模型学习了关于世界如何运动的通用视觉先验,这有助于它泛化到新的机器人环境中。
结论与启示
导航世界模型代表了我们对机器人自主性思考方式的转变。NWM 不再是硬编码行为或仅依赖试错的强化学习,而是赋予了机器人具有想象力的视觉皮层。
主要收获:
- 线性复杂度: 条件扩散 Transformer (CDiT) 使得以长上下文历史为条件生成高质量视频在计算上变得可行。
- 灵活性: 与监督策略不同,NWM 允许即插即用的约束和“测试时”规划。
- 数据可扩展性: 模型受益于多样化的数据,包括无标签的人类视频,以建立对物理和几何的稳健理解。
局限性: 该系统并不完美。如下图 10 所示,在非常陌生的环境中可能会发生“模式坍塌”,即模型逐渐忘记当前的上下文,开始生成看起来像其训练数据的通用场景。

尽管存在这些限制,NWM 为“通用机器人”铺平了道路——这些机器不仅能遵循指令,还能模拟其动作的结果,以便在现实世界中做出更安全、更明智的决策。就像人类在执行困难任务前会进行心理演练一样,未来的机器人可能也会花费大量时间在“做梦”上。
](https://deep-paper.org/en/paper/2412.03572/images/cover.png)