引言

你如何在拥挤的房间里找到出口？你可能不会只盯着自己的脚，等到障碍物碰到脚趾时才做出反应。相反，你会进行心理模拟。你会想象一条路径，预测某人可能会挡住你的路，并在迈出一步之前调整你的轨迹。你拥有一个内部世界模型，使你能够模拟未来。

然而，在机器人领域，导航传统上更多是反应式的或“硬编码”的。大多数最先进的导航策略都是通过监督学习训练的，将当前的观察结果直接映射到动作上。虽然有效，但这些策略缺乏灵活性。一旦训练完成，它们就无法轻易适应新的约束 (例如“不要左转”) 或在陌生环境中推理动作的长期后果。

这就引出了具身智能 (Embodied AI) 领域一个令人着迷的发展: 导航世界模型 (Navigation World Model, NWM) 。

图 1. 导航世界模型的概念。(a) 模型接收上下文和动作以预测未来视频。(b) 在已知环境中评估规划的轨迹。(c) 在未知环境中幻想看似合理的路径。

如图 1 所示，NWM 将导航视为一个视频生成问题。通过训练生成模型根据过去的观察和特定动作来预测未来的视频帧，研究人员创建了一个允许机器人“想象”其运动后果的系统。这使得机器人能够模拟数千种潜在的未来，评估哪一种能让它最接近目标，然后执行该计划——有效地将人类的心理模拟能力带给了自主智能体。

在这篇深度文章中，我们将探讨 NWM 的工作原理、使其高效的新颖架构，以及它如何超越传统的导航策略。

背景: 世界模型与生成式 AI

要理解 NWM，我们需要连接两个概念: 强化学习中的世界模型和计算机视觉中的扩散模型 。

什么是世界模型？

在机器人学和强化学习中，“世界模型”是环境的内部表征。形式上，如果一个智能体处于状态 \(s_t\) 并采取动作 \(a_t\)，世界模型会预测下一个状态 \(s_{t+1}\)。如果机器人拥有一个好的世界模型，它就不需要在现实世界中尝试危险的动作来观察后果；它可以直接查询其内部模型。

生成式视频的兴起

最近，我们看到了文本生成视频模型 (如 Sora) 的爆炸式增长。这些模型充分理解光线、运动和物体恒存性的物理规律，能够生成逼真的片段。NWM背后的研究人员提出了一个关键问题: 我们能否将这种视频生成能力重新用于机器人控制？

NWM 不是根据文本提示生成视频，而是生成以导航动作为条件的视频。如果模型理解“向前移动”会导致图像中的走廊变大且物体变近，那么它实际上已经学会了导航的物理规律。

核心方法: 导航世界模型

NWM 的核心是一个条件生成模型。让我们分解其数学公式、时间处理方式以及旨在使其计算可行的特定架构。

1. 公式化: 预测未来

目标是学习一个函数，该函数接收过去的视觉观察和一系列动作，并输出未来的视觉观察。

由于直接处理原始像素的计算成本很高，系统首先使用变分自编码器 (VAE) 将图像编码为压缩的潜空间 (latent space) 。设 \(x_i\) 为图像， \(s_i\) 为其潜伏表示。世界模型 \(F_\theta\) 定义为一个随机映射:

方程 1: 图像编码为潜伏状态，以及给定上下文和动作后的下一状态的概率预测。

这里， \(\mathbf{s}_\tau\) 代表过去帧的历史 (上下文) ， \(a_\tau\) 是动作。模型实际上是在问: “鉴于我在过去几秒钟看到的情况，并假设我向这边移动，世界接下来会是什么样子？”

2. 动作和时间条件

标准的机器人动作通常由线速度 (前进/后退) 和角速度 (转弯) 组成。然而，预测需要知道经过了多少时间。

NWM 输入一个元组 \((u, \phi, k)\)，其中:

\(u\): 平移参数 (移动) 。
\(\phi\): 旋转参数 (偏航角) 。
\(k\): 时间偏移 (预测未来多长时间) 。

这个显式的时间偏移是一个强大的补充。它允许模型充当模拟器，你可以要求它“展示 1 秒后的状态”或“展示 4 秒后的状态”。

动作是在时间窗口内聚合的:

方程 2: 在特定时间窗口内聚合动作。

为了将这些条件输入神经网络，动作、时间偏移和扩散时间步长的标量值被嵌入向量并求和:

方程 3: 将动作、时间和扩散时间步长的嵌入组合成单个调节向量。

这个向量 \(\xi\) 调节神经网络，确保生成的视频帧符合机器人打算进行的特定运动。

3. 架构: 条件扩散 Transformer (CDiT)

这可能是该论文最重要的技术贡献。标准的扩散 Transformer (DiT) 功能强大但计算量大。在标准 Transformer 中，注意力的复杂度相对于输入序列长度是二次方的 (\(O(N^2)\)) 。如果你想以长历史帧作为条件，模型对于实时机器人应用来说会太慢。

为了解决这个问题，作者提出了条件扩散 Transformer (CDiT) 。

图 2. 条件扩散 Transformer (CDiT) 块结构。注意自注意力机制与交叉注意力机制的分离。

如图 2 所示，CDiT 块将正在生成的当前帧的处理与过去上下文帧的处理分离开来:

多头自注意力 (Multi-Head Self-Attention) : 仅应用于未来帧 (正在被去噪的目标) 的 Token。
多头交叉注意力 (Multi-Head Cross-Attention) : 目标帧关注过去的上下文帧。

通过将过去帧视为通过交叉注意力访问的固定上下文 (类似于文本生成图像模型处理文本提示的方式) ，复杂度相对于上下文帧的数量变为线性。这使得 NWM 能够扩展到 10 亿参数并使用更长的上下文历史，而不会变得极其缓慢。

4. 训练目标

该模型作为标准扩散模型进行训练。它获取一个干净的未来潜伏状态 \(s_{\tau+1}\)，向其中添加噪声，并尝试在给定上下文和动作的情况下去除噪声 (去噪) 以预测干净状态。

方程 4: 用于训练扩散模型的简单 MSE 损失函数。

5. 从预测到规划

拥有一个能预测未来的模型很有用，但它实际上如何进行导航呢？研究人员使用了一个模型预测控制 (MPC) 框架。

机器人想要到达目标图像 \(s^*\)。它需要找到一系列动作，使预测的未来状态 \(s_T\) 看起来与 \(s^*\) 相似。

他们定义了一个机器人试图最小化的能量函数 (代价函数) :

方程 5: 包含与目标的相似度、动作有效性和安全约束的能量函数。

该方程包含三个部分:

相似度: 预测的未来帧 \(s_T\) 与目标帧 \(s^*\) 有多接近？
动作有效性: 提议的动作是否可行？
安全性: 预测的未来状态是否涉及掉下悬崖或撞墙？

规划过程简化为找到最小化该能量的动作序列:

方程 6: 规划的最小化目标。

系统采样许多随机动作序列，使用 NWM 模拟它们，使用上述方程对它们进行评分，并选择最好的一个。

实验与结果

NWM 在大量机器人数据集 (SCAND, TartanDrive, RECON, HuRoN) 和来自 Ego4D 的无标签视频数据上进行了训练。实验测试了模型合成视频、规划路径以及泛化到新环境的能力。

1. 视频预测质量

首先，模型真的理解世界吗？研究人员将 NWM 与名为 DIAMOND (一种基于 UNet 的扩散世界模型) 的基线进行了比较。

图 4. NWM (绿/蓝线) 在长视距下比 DIAMOND 基线 (红/橙线) 实现了显著更低的 FID (质量更好) 和更高的准确性。

图 4 显示，NWM 在较长的时间范围内 (长达 16 秒) 生成了更逼真的视频 (更低的 FID) 和更准确的预测。

图 6. 视频合成质量对比。FVD 越低越好。NWM 在所有数据集上都大幅优于 DIAMOND。

如上表所示，Fréchet 视频距离 (FVD) ——一种视频质量指标——对于 NWM 来说显著更低，表明其生成的视频更加清晰且在时间上更加一致。

2. 效率: CDiT 与 DiT

新架构真的更好吗？

图 5. 计算成本 (TFLOPs) 与性能 (LPIPS) 的对比。CDiT 模型 (蓝色) 以标准 DiT (红色) 一小部分的计算成本实现了更好的性能。

图 5 中的图表证实了架构假设。CDiT 模型 (蓝色气泡) 聚集在左下角，这意味着它们以非常低的计算成本实现了低误差 (低 LPIPS) 。标准的 DiT 模型 (红色气泡) 需要大量的计算才能达到类似的性能。

3. 导航规划性能

终极测试是机器人能否利用这种“做梦”的能力进行导航。

轨迹排序: 一个强大的用例是使用 NWM 来复核另一个策略。想象一下，一个标准的导航策略建议了 16 条不同的路径。NWM 可以模拟所有 16 条路径的视频，并根据哪一条实际上到达了视觉目标来对它们进行排序。

图 7. 使用 NWM 对轨迹进行排序。模型可视化了三条潜在路径。损失最低的路径 (预测 3) 被选中。

定量结果:

表 2. 导航性能对比。ATE (误差) 越低越好。NWM 达到了最先进的结果。

表 2 显示，与 NoMaD 和 GNM 等最先进的策略相比，NWM 实现了最低的绝对轨迹误差 (ATE) 。这证明“想象”路径比简单地对当前视图做出反应能带来更准确的导航。

4. 带约束的规划

与硬编码策略相比，世界模型的最大优势之一是可控性 。如果你告诉一个标准策略“到达目标”，它会走最优路径。但是如果你说“到达目标，但先直行 3 米”，标准策略就会失效。

使用 NWM，你只需过滤掉任何不满足约束的想象轨迹即可。

图 9. 可视化带约束的规划。绿色轨迹 (0) 被选中，因为它在满足“先左/右转”约束的同时最小化了代价。

表 3. NWM 成功遵守了约束 (如“先向前移动”) ，且与目标的偏差极小。

表 3 证明 NWM 可以处理复杂的指令，如“先向前”或“先左右”，同时仍能成功到达目的地。

5. 泛化到未知环境

最后，模型能否仅凭单张图像在它从未见过的环境中幻想路径？

图 8. NWM 仅使用单张起始图像在完全未知的环境中想象轨迹。

图 8 显示模型为未见过的户外环境生成了看似合理的视频序列。至关重要的是，研究人员发现添加无标签视频数据 (如 Ego4D 录像，其中没有机器人动作标签) 显著提高了这种能力。

表 4. 增加无标签 Ego4D 数据提高了在未知环境 (Go Stanford 数据集) 中的性能。

通过观看数千小时的人类视频 (Ego4D) ，模型学习了关于世界如何运动的通用视觉先验，这有助于它泛化到新的机器人环境中。

结论与启示

导航世界模型代表了我们对机器人自主性思考方式的转变。NWM 不再是硬编码行为或仅依赖试错的强化学习，而是赋予了机器人具有想象力的视觉皮层。

主要收获:

线性复杂度: 条件扩散 Transformer (CDiT) 使得以长上下文历史为条件生成高质量视频在计算上变得可行。
灵活性: 与监督策略不同，NWM 允许即插即用的约束和“测试时”规划。
数据可扩展性: 模型受益于多样化的数据，包括无标签的人类视频，以建立对物理和几何的稳健理解。

局限性: 该系统并不完美。如下图 10 所示，在非常陌生的环境中可能会发生“模式坍塌”，即模型逐渐忘记当前的上下文，开始生成看起来像其训练数据的通用场景。

图 10. 一个称为模式坍塌的失败案例。在未知环境中，模型可能会最终丢失特定场景的上下文。

尽管存在这些限制，NWM 为“通用机器人”铺平了道路——这些机器不仅能遵循指令，还能模拟其动作的结果，以便在现实世界中做出更安全、更明智的决策。就像人类在执行困难任务前会进行心理演练一样，未来的机器人可能也会花费大量时间在“做梦”上。

引言#

背景: 世界模型与生成式 AI#

什么是世界模型？#

生成式视频的兴起#

核心方法: 导航世界模型#

1. 公式化: 预测未来#

2. 动作和时间条件#

3. 架构: 条件扩散 Transformer (CDiT)#

4. 训练目标#

5. 从预测到规划#

实验与结果#

1. 视频预测质量#

2. 效率: CDiT 与 DiT#

3. 导航规划性能#

4. 带约束的规划#

5. 泛化到未知环境#

结论与启示#

引言