想象一下,你正准备把一个沉重的陶瓷碗叠放在一个易碎的玻璃杯上。还没等你动手,你的大脑就已经在瞬间运行了一次模拟。你预见到了碗滑落、玻璃杯破碎以及随之而来的狼藉。因此,在你接触物体之前,你就已经调整了抓握的力度和接近的方式。

这种基于行动“预测未来”的能力是人类灵活性的基础。在机器人领域,这一概念通过世界模型 (World Models) 得以实现——这是一种允许机器人预测其行为后果的内部模拟器。然而,赋予机器人这种预见能力极其困难。预测未来视频帧中的每一个像素不仅计算成本高昂,而且往往会导致模糊、不符合物理规律的“幻觉”。

在这篇文章中,我们将深入探讨 LaDi-WM (Latent Diffusion-based World Model,基于潜在扩散的世界模型) ,这是 CoRL 2025 发表的一项新框架。这篇论文提出了一个巧妙的变通方案: 机器人不应预测像素,而应利用扩散模型来预测世界的“潜在”本质——具体来说,就是几何结构和语义信息。

让我们一起探索 LaDi-WM 是如何工作的,为什么它在基准测试中比现有方法表现高出近 30%,以及它如何使机器人能够在行动前“优化”其想法。

问题所在: 像素 vs. 潜在变量

要理解为什么 LaDi-WM 是必要的,我们首先必须审视当前预测性操作的局限性。

像素预测的陷阱

传统的世界模型通常试图预测未来的视频帧 (像素) 。虽然视觉效果令人印象深刻,但这对于控制来说效率很低。机器人不需要知道 5 米外墙上某个像素的确切颜色值;它需要知道它试图抓取的把手的几何形状,以及“杯子”与“碗”之间的语义区别。像素级扩散模型体积庞大、速度缓慢,并且难以泛化到新环境中。

简单潜在模型的局限性

另一种方法是预测潜在状态 (latent states) ——即世界的压缩数值表示。像 DreamerV3 这样的方法在视频游戏中表现出色。然而,在机器人领域,这些潜在空间通常仅针对图像重建进行优化。它们往往丢失了精确操作任务 (如叠碗或打开抽屉) 所需的细粒度几何细节 (形状、边缘、深度) 和语义上下文 (物体是什么) 。

LaDi-WM 登场: 两全其美

LaDi-WM 的核心洞察在于,我们不需要从头开始训练一种表示方法。我们已经拥有了强大的、能够理解世界的视觉基础模型 (Visual Foundation Models, VFMs)

研究人员建议结合两种特定类型的预训练知识:

  1. DINO (几何特征) : 擅长理解局部几何结构、物体部件和对应关系。
  2. SigLIP/CLIP (语义特征) : 擅长理解全局上下文和与语言对齐的语义。

通过预测这些特定特征如何随时间演变,而不是预测像素,机器人可以获得既轻量又富含关键信息的预测结果。

展示本文提出方法的整体框架: 左侧为世界模型训练,右侧为策略学习。

如上图 2 所示,该系统分为两个阶段:

  1. 学习世界模型 (左) : 训练一个扩散模型,从与任务无关的视频中预测未来的潜在状态。
  2. 策略学习 (右) : 机器人利用训练好的世界模型来想象未来状态并优化其动作。

1. 双重潜在空间

第一步是提取状态。模型不是处理原始图像 \(I_t\),而是将观测结果处理成一个组合的潜在向量 \(\mathbf{z}_t\)。

\[ \begin{array} { r } { \mathbf { z } _ { t } = [ \mathbf { z } _ { t } ^ { D } ; \mathbf { z } _ { t } ^ { S } ] = [ f _ { d i n o } ( I _ { t } ) ; f _ { s i g l } ( I _ { t } ) ] , } \end{array} \]

这里,\(\mathbf{z}_t^D\) 代表 DINO 特征 (几何) ,\(\mathbf{z}_t^S\) 代表 SigLIP 特征 (语义) 。通过将它们拼接在一起,机器人通过一个既能捕捉物体在哪里又能捕捉物体是什么的视角来感知世界。

2. 交互式扩散建模

标准的扩散模型向数据添加噪声,并学习逆转该过程以生成新数据。然而,LaDi-WM 有两种不同类型的数据 (几何和语义) ,它们遵循不同的分布。如果你只是简单地将它们拼接并一起扩散,模型可能难以学习各自独特的动态。如果你分别训练它们,就会失去物体形状与其身份之间的联系。

作者引入了交互式扩散 (Interactive Diffusion) 。 这种机制允许几何流和语义流在去噪过程中相互“对话”。

扩散过程旨在根据历史和动作预测未来的潜在状态序列 \(\mathbf{z}_{t+1:t+k+1}\):

\[ \begin{array} { r } { \mathbf { z } _ { t + 1 : t + k + 1 } \sim p _ { \theta } ( \mathbf { z } _ { t + 1 : t + k + 1 } | \mathbf { z } _ { t - l : t } , a _ { t : t + k } ) , } \end{array} \]

在逆向 (生成) 过程中,模型估计几何信息的“干净” (去噪) 版本以帮助引导语义信息,反之亦然。

干净分量 \(C_\theta\) 使用分解网络进行估计:

\[ \begin{array} { r l } & { C _ { \theta } ^ { D } = f _ { \theta _ { 1 } } ( \mathbf { z } _ { t + 1 : , n } ^ { D } , n , \mathbf { z } _ { t - l : t } ^ { D } , a _ { t : t + k } ) , } \\ & { C _ { \theta } ^ { S } = f _ { \theta _ { 2 } } ( \mathbf { z } _ { t + 1 : , n } ^ { S } , n , \mathbf { z } _ { t - l : t } ^ { S } , a _ { t : t + k } ) . } \end{array} \]

然后将这些干净的估计值交叉馈送到去噪网络中:

\[ \begin{array} { r } { \mathbf { z } _ { t + 1 : , \theta } ^ { D } , \eta _ { \theta } ^ { D } = f _ { \theta _ { 3 } } ( \mathbf { z } _ { t + 1 : , n } ^ { D } , n , C _ { \theta } ^ { S } , a _ { t : t + k } ) , } \\ { \mathbf { z } _ { t + 1 : , \theta } ^ { S } , \eta _ { \theta } ^ { S } = f _ { \theta _ { 4 } } ( \mathbf { z } _ { t + 1 : , n } ^ { S } , n , C _ { \theta } ^ { D } , a _ { t : t + k } ) . } \end{array} \]

这为什么重要? 看一看下面的可视化图。红线显示了特征之间的注意力连接。

交互式扩散的可视化分析,展示了与非交互式方法相比,交互如何将连接对齐到相同的对象。

在左侧 (“无交互”) 中,模型难以将几何特征与其对应的语义特征联系起来——注意力是分散的。在右侧 (“有交互”) 中,红线清晰地连接了场景的相关部分。模型理解抽屉把手的几何形状属于抽屉这个语义概念。

预测策略: 三思而后行

拥有世界模型只是成功了一半。机器人需要一个利用该模型来行动的策略 (大脑) 。LaDi-WM 引入了一种具有迭代优化 (Iterative Refinement) 机制的预测性操作策略

想象循环

大多数机器人策略是“反应式”的: 看到状态 \(\to\) 输出动作。 LaDi-WM 是“反思式”的:

  1. 初始猜测: 策略根据当前历史输出初步的动作序列。
  2. 想象: 世界模型接收此动作并预测未来的潜在状态 (如果我这样做会发生什么?) 。
  3. 优化: 策略将想象的未来作为新输入,并修正其动作。

图解利用 LaDi-WM 进行预测策略优化的循环过程。

如上图 1 所示:

  • 步骤 1: 策略生成初始动作 (\(a^{init}\))。
  • 步骤 2: LaDi-WM 预测轨迹 (想象的状态) 。
  • 步骤 3: 策略观察这些想象的状态并生成优化后的动作 (\(a^{ref}\))。

思维的收敛

这个优化过程不仅仅是一次性的。它可以循环进行。作者发现,迭代这一过程可以显著提高动作的质量。

热力图显示预测动作分布随着迭代次数增加而变得更加锐利。

上面的热力图 (图 7) 可视化了机器人动作的概率分布。在迭代 1 中,分布是发散的——机器人是不确定的。到了迭代 4,“热点” (亮黄色) 变得紧密且集中。机器人已经“想通”了问题,并对自己的计划充满信心。

实验结果

理论听起来很扎实,但实际效果如何?作者在 LIBERO-LONG (一个具有挑战性的长视距操作基准测试) 和真实场景中测试了 LaDi-WM。

仿真性能

与之前的最先进方法 (如 Seer 和 ATM) 相比,LIBERO-LONG 上的结果令人震惊。

比较 LIBERO-LONG 基准测试性能的表格。

如表 1 所示,LaDi-WM 实现了 68.7% 的平均成功率 (Avg.SR) , 而 Seer 为 53.6%,ATM 为 44.0%。这是性能上的巨大飞跃。值得注意的是,它在需要精确交互的任务中占据主导地位,例如“打开炉子并将摩卡壶放在上面” (任务 1) ,得分为 88.3%,而最接近的竞争对手仅为 71.7%。

真实世界泛化

机器人论文通常难以跨越“仿真到现实 (Sim-to-Real) ”的鸿沟。然而,LaDi-WM 展示了令人印象深刻的迁移能力。作者在一个物理 7自由度机械臂上进行了测试,执行叠碗和整理杂货等任务。

真实世界实验设置和执行示例 (如叠碗和打开抽屉) 的图像。

展示真实世界性能变体的表格。 * (注: 参考图片库中的真实世界表格,在上下文中列为表 5) *

在真实世界实验中,完整的 LaDi-WM 系统实现了 60.0% 的成功率 , 显着高于普通行为克隆 (Vanilla Behavior Cloning) 的 40.0%。

至关重要的是,真实世界表格中的消融实验揭示了两个关键发现:

  1. 像素扩散失败: 使用基于像素的扩散将成功率降至 51.4%。这证实了潜在空间对于控制来说更为稳健。
  2. 无扩散失败: 完全移除扩散方面将成功率降至 49.3%。

可扩展性

现代人工智能的一个标志是可扩展性——如果你给模型投喂更多数据,它会变得更好吗?

展示世界模型和策略模型可扩展性的图表。

图 3 证实了 LaDi-WM 具有有效的可扩展性。

  • (a): 随着演示数量的增加,世界模型的预测误差 (MSE) 下降。
  • (b): 增加策略训练数据会导致成功率持续提升,保持对基准线的领先。
  • (c): 简单地把模型做大 (增加参数) 可以持续提升在 LIBERO 和 CALVIN 基准测试上的性能。

为什么交互很重要: 深入剖析

作者进行了消融实验,以证明其扩散模型中的“交互”部分不仅仅是一个噱头。

展示世界模型架构消融研究的表格。

表 3 显示,移除交互 (独立处理 DINO 和 SigLIP 流) 会使成功率从 60.7% 降至 58.9%。虽然这看起来很小,但在特定的复杂任务中,差距会拉大。此外,完全移除语义特征 (SigLIP) 会导致成功率显着下降至 57.3%,证明仅有几何信息是不够的——机器人需要理解它拿的是什么

结论

LaDi-WM 代表了具身智能 (Embodied AI) 向前迈出的重要一步。通过摆脱像素预测并采用几何和语义的双重潜在空间,它解决了未来预测“模糊”的问题。

关键要点如下:

  1. 不要预测像素: 预测基础模型 (DINO + SigLIP) 的潜在特征。
  2. 交互是关键: 几何和语义必须一起扩散以保持一致性。
  3. 三思而后行: 使用世界模型迭代优化策略的动作,可以带来更高的成功率和更低的不确定性。

这种方法表明,为了让机器人在物理世界中智能地行动,它们需要一个快速、具有语义感知能力且几何精确的内部模拟器。LaDi-WM 正好提供了这样的蓝图。