梦想成真: 机器人如何完全离线微调技能
在机器人领域,“观察”一项任务和“掌握”它之间存在巨大的鸿沟。
想象一下你在学打网球。你可以观看职业选手的比赛( 模仿学习 ),你可能会学会姿势。但要真正打好球,你需要走进球场,击打成千上万次球,并根据球的落点调整你的挥拍动作( 强化学习 )。
对人类来说,这种练习虽然累人但很安全。而对机器人来说,在现实世界中“练习”是昂贵、缓慢且危险的。一个为了学习新技能而胡乱挥舞的机器人可能会打碎它拿着的物体,损坏自己的电机,或者伤到旁边的人。
这引出了现代人工智能机器人技术的一个重要瓶颈: 如何在没有现实世界试错风险的情况下微调机器人的策略?
一个名为 DiWA (基于世界模型的扩散策略适应) 的新框架提供了一个令人信服的解决方案。它允许机器人“梦想”着去练习。通过学习一个世界的心理模型,机器人可以在脑海中运行数千次练习迭代——完全离线地微调其动作——而无需在现实世界中移动分毫。
在这篇文章中,我们将解构 DiWA 的工作原理,通过分析它为何能结合扩散模型和世界模型的优势,并看看它在真实硬件上取得的惊人成果。
问题所在: 现实世界练习的高昂代价
要理解为什么 DiWA 是必要的,我们需要先看看机器人学习中的两种主导范式:
- 模仿学习 (Imitation Learning, IL): 机器人模仿人类专家。
- *优点: * 安全且学得快。
- *缺点: * 脆弱。如果机器人稍微偏离了人类走过的路径,它不知道如何恢复,因为它从未见过那种情况。
- 强化学习 (Reinforcement Learning, RL): 机器人通过试错来学习。
- *优点: * 鲁棒性强。机器人学会从错误中恢复以最大化奖励。
- *缺点: * 样本效率低 。 学习一项技能通常需要数百万次交互。在物理机器人上完成复杂任务几乎是不可能的。
最近的进展为我们带来了 扩散策略 (Diffusion Policies) , 它将机器人的动作生成视为一个“去噪”过程 (类似于 DALL-E 生成图像的方式) 。这些策略非常擅长捕捉复杂、多模态的人类行为。然而,它们仍然受到模仿学习局限性的影响——如果没有更多的数据,它们很难适应新情况。
研究人员曾尝试将 RL 应用于扩散策略 (一种称为 DPPO 的方法) ,但这仍然需要与环境进行在线交互。

如上图所示,DiWA (c) 打破了这种依赖。它不再与现实世界交互,而是与一个学习到的 世界模型 (World Model) 进行交互。
核心概念: 在梦中学习
DiWA 代表 Diffusion with World Models Adaptation (基于世界模型的扩散策略适应) 。其直觉是在机器人的神经网络内部构建一个模拟器。如果模拟器足够好,机器人就可以在那里练习。
该框架分四个不同阶段运行:
- 世界模型训练: 从非结构化的玩耍数据中学习世界是如何运作的。
- 策略预训练: 通过模仿专家来学习基本行为。
- 奖励估计: 学习识别什么样的状态是“成功”的。
- 离线微调: 这是核心创新——在世界模型内部使用强化学习来改进策略。
让我们逐步拆解这些步骤。

1. 世界模型 (模拟器)
在机器人能够练习之前,它需要一个游乐场。DiWA 使用了一个 潜在世界模型 (Latent World Model) 。 该模型不预测原始像素 (这在计算上既昂贵又困难) ,而是将视觉观察压缩成紧凑的“潜在状态” (\(z_t\))。
研究人员使用“玩耍数据 (play data)”来训练这个模型——这是指人类远程操作机器人随意摆弄物体的数据。这类数据的收集成本很低,因为它不需要标记成功或失败。世界模型学习环境的物理机制: “如果我处于状态 \(z_t\) 并应用动作 \(a_t\),下一个状态 \(z_{t+1}\) 会是什么样?”
转换动力学是使用循环状态空间模型 (Recurrent State-Space Model) 学习的:

这个方程本质上是说下一个隐藏状态取决于前一个状态和采取的动作。
2. 扩散策略
DiWA 使用扩散策略,这是目前机器人操作领域的最先进技术。
在标准机器人技术中,策略直接输出动作。而在扩散策略中,网络从随机噪声开始,迭代地“去噪” \(K\) 次以产生动作序列。这使得策略能够捕捉到简单网络容易错过的非常复杂、精确的运动。
3. 潜在奖励估计 (教练)
在真正的模拟器中,代码会告诉你是否赢了 (例如,return +1 if drawer_is_open) 。在现实世界中,我们没有这个函数。由于 DiWA 是离线运行的,它需要一种方法来评判自己想象中的梦境。
研究人员训练了一个 潜在奖励分类器 (Latent Reward Classifier) 。 他们取出一小部分专家演示数据 (任务已成功完成的数据) ,训练一个神经网络来观察潜在状态 \(z_t\) 并预测成功的概率。
为了使其具有鲁棒性,他们使用了对比损失函数 (NT-Xent)。这确保了“成功”状态在数学上紧密聚类在一起,并远离“失败”状态。

4. 梦境扩散 MDP
这是论文在技术上最新颖的部分。标准强化学习假设一个马尔可夫决策过程 (MDP): 状态 \(\to\) 动作 \(\to\) 下一个状态。
然而,扩散策略是独特的,因为生成 一个 动作涉及 多个 去噪步骤。DiWA 将整个过程建模为一个 梦境扩散 MDP (Dream Diffusion MDP) 。
想象机器人处于梦境状态。它需要决定做什么。
- 它从噪声开始。
- 它执行一个去噪步骤 (这被视为 MDP 中的一次“转换”) 。
- 它重复这个过程 \(K\) 次,直到得到一个清晰的动作。
- 它在世界模型中执行该动作以获得新状态。
这种公式化允许研究人员将标准的 RL 算法 (具体来说是 PPO,近端策略优化) 应用于扩散过程本身。这个特殊 MDP 中的“状态”既包括世界状态 (\(z_t\)),也包括动作中当前的噪声水平 (\(\bar{a}^k_t\))。

如上式所示,奖励仅在去噪链结束时 (当 \(k=1\) 时) 给予。
为了确保机器人不会“产生幻觉”出某种欺骗世界模型的策略 (这是代理发现物理引擎漏洞以获得高分的常见问题) ,DiWA 添加了 行为克隆正则化 (Behavior Cloning Regularization) 。 这建立了一个数学锚点,强制新策略保持在某种程度上接近原始专家演示。

它有效吗?
研究人员在 CALVIN 基准测试 (机器人操作的标准模拟器) 和真实硬件上评估了 DiWA。
模拟结果
这里的对比非常鲜明。基准方法 DPPO 需要与环境交互才能学习。而 DiWA 仅与其内部模型交互。
在下表中,请看“Total Physical Interactions” (总物理交互) 一行。DiWA 实现了与在线方法相当或更好的成功率,但在微调期间的物理交互为 零。

注意像 close-drawer (关抽屉) 或 turn-on-lightbulb (开灯泡) 这样的任务。预训练策略 (Base) 通常会失败 (例如,59% 的成功率) 。在使用 DiWA “做梦”之后,成功率跃升至 91%。竞争对手 DPPO 需要在环境中进行数百万步才能达到类似的水平。
下图直观地展示了这种效率。DiWA 线 (蓝色) 代表离线微调后策略的性能。其他线条显示了在线方法在数十万步之后才慢慢追赶上来。

现实世界的“做梦”
模拟是一回事,但现实世界是混乱的。一个基于真实摄像头数据训练的世界模型真的能足够准确地预测未来以训练策略吗?
研究人员收集了 4 小时的远程操作数据来训练世界模型。然后他们测试了其“构想”未来的能力。
结果在视觉上令人印象深刻。在下图中,机器人观察一个状态,世界模型预测接下来的 80 步 (约 10 秒) 视频。预测结果 (下排) 非常好地保持了机械臂和物体的几何形状。

由于世界模型是准确的,在其内部训练的策略可以迁移到现实中。团队测试了三项技能: 打开抽屉、关闭抽屉和推动滑块。

如图 4(b) 所示,随着模型在其想象中训练 (x 轴) ,成功率 (y 轴) 稳步攀升。例如,“关闭抽屉”技能 (绿线) 完全通过心理练习,从低成功率变为近乎完美。
为什么这很重要
DiWA 代表了我们对机器人训练思维方式的转变。
- 安全性: 通过将试错阶段转移到虚拟“大脑”中,我们保护了硬件和周围环境。
- 可扩展性: 我们拥有大量的“玩耍数据” (机器人移动、人类做事的视频) 。我们拥有的“专家数据” (完美标记的任务) 非常少。DiWA 允许我们使用大量的玩耍数据来构建世界模型,然后从稀缺的专家数据中挖掘出最大的性能。
- 数据效率: 有效“回收”离线数据以改进策略的能力,消除了对持续、昂贵的现实世界数据收集的需求。
结论
DiWA 弥合了模仿学习的稳定性与强化学习的适应性之间的鸿沟。通过将扩散去噪过程公式化为马尔可夫决策过程,并在学习到的世界模型内部解决它,机器人现在可以通过“做梦”达到精通。
虽然仍有一些局限性——世界模型必须是高质量的,而且它无法修复它未曾见过的物理现象——但这种方法为机器人打开了一扇大门,使它们无需持续的人工指导或危险的现实世界实验,就能不断适应和改进。
关键要点: 下次当一个机器人完美地执行一项复杂任务时,那可能是因为它在过去的几个小时里一直在梦中练习。
](https://deep-paper.org/en/paper/2508.03645/images/cover.png)