引言
在机器人领域,数据是最稀缺的资源。虽然大语言模型 (LLMs) 几乎吞噬了整个互联网来学习如何编写代码和诗歌,但机器人却受困于一个更加缓慢的循环: 人类遥操作 (teleoperation) 。要教机器人折叠衬衫或倒咖啡,人类操作员通常必须手动引导机器人重复数百甚至数千次动作。
这种对人工数据采集的依赖造成了一个巨大的瓶颈。如果你在实验室里训练机器人抓取红苹果,它通常无法在厨房里抓取青苹果。为了解决这个问题,传统做法是你需要在厨房里收集更多数据。这种泛化能力的缺失,就是困扰该领域数十年的“Sim2Real (仿真到现实) ”和“Real2Real (现实到现实) ”鸿沟。
但是,如果机器人可以通过“做梦”而不是仅仅通过物理练习来学习,会发生什么呢?
一篇题为 DREAMGEN 的新研究论文提出了一种从根本上改变这一范式的流程。通过利用最先进的 视频世界模型 (Video World Models) ——即能够生成逼真视频的生成式 AI——研究人员找到了一种生成高质量、符合物理规律且多样化训练数据的方法。

如上图 1 所示,DREAMGEN 允许一个仅仅在一个房间里接受过单一枯燥任务 (抓取和放置) 训练的机器人,突然能够执行复杂的、从未见过的新行为——比如浇花或整理物品——而且是在它从未见过的环境中。这不仅仅是一个微小的增量收益;它代表了机器人泛化能力从 0 到 1 的突破。
在这篇深度文章中,我们将探讨 DREAMGEN 的工作原理,将视频“梦境”转化为物理动作背后的架构,以及表明我们正在进入可扩展机器人学习新时代的实验结果。
背景: 数据瓶颈与世界模型
要理解 DREAMGEN 的重要性,我们首先需要了解 机器人基础模型 (Robot Foundation Models) 的现状。这些是基于大量机器人交互数据集 (如 Open X-Embodiment 数据集) 训练的大型神经网络。虽然令人印象深刻,但它们受限于所摄取的数据。如果数据集中没有机器人打开微波炉的例子,模型通常就无法弄清楚该怎么做。
与机器人技术并行的是,计算机视觉领域见证了 视频生成模型 (或视频世界模型) 的爆发。像 OpenAI 的 Sora,或者开源的 WAN 和 CogVideoX 等模型,已经学会了从文本提示生成极其逼真的视频。它们理解光线、纹理,而且至关重要的是,它们理解相当多的物理规律 (例如,如果你扔下一个杯子,它会掉下来) 。
DREAMGEN 的核心洞察简单而深刻: 不再将视频世界模型视为规划器,而是将其视为合成数据生成器。 我们无需利用视频模型进行实时机器人控制 (这既慢又计算昂贵) ,而是在离线状态下利用它生成数千条“梦境”般的轨迹,对其进行标注,并通过这些合成经验来教导机器人。
DREAMGEN 流程
DREAMGEN 方法是一个分为 4 个阶段的流程,旨在弥合生成式视频与物理机器人控制之间的差距。研究人员将该流程的输出称为 “神经轨迹 (Neural Trajectories) ” ——即由 AI 生成、供 AI 使用的合成机器人数据。
让我们逐步分解这四个步骤。
第 1 步: 微调视频世界模型
现成的视频生成器是基于互联网数据 (YouTube、电影、素材库) 训练的。它们知道人类长什么样,但不一定理解特定机器人的具体运动学 (运动约束) ,比如 Fourier GR1 人形机器人或 Franka Emika 机械臂。

第一步是适应。研究人员采用预训练的视频世界模型 (如 WAN2.1) ,并使用低秩自适应 (LoRA) 在目标机器人的数据集上对其进行微调。这教会了模型机器人的“外观和感觉”——它的关节如何移动以及它如何与物体互动。有趣的是,他们发现即使经过这种微调,模型仍保留了其“互联网知识”,使其能够想象机器人在预训练期间学到的新环境中的样子。
第 2 步: 模型推演 (Rollout)
一旦模型理解了机器人的身体,就到了生成数据的时刻。这一步充当了“做梦”阶段。

系统会被提供一张初始图像 (世界的起始状态) 和一条文本指令 (例如,“浇花”或“拿起橘子”) 。视频世界模型随后会生成一个视频序列——即“推演 (Rollout) ”——描绘机器人执行该动作的过程。
这就是泛化奇迹发生的地方。你可以给模型一张它从未见过的厨房的初始帧,或者要求它执行一个微调数据中没有的动词 (比如“倒”) 。因为底层模型在互联网上看过数百万个倒水的视频,它可以合成机器人倒水的视频,即使该机器人从未在物理上做过这个动作。
第 3 步: 伪动作标注
这是技术上最具挑战性的部分。视频只是一系列像素 (\(H \times W \times T\)) 。机器人需要的是 动作——具体来说,是关节角度、速度或末端执行器的位置 (\(x, y, z, yaw, pitch, roll\)) 。生成式视频模型并不输出运动指令。
为了弥合这一差距,DREAMGEN 采用了一个 逆动力学模型 (Inverse Dynamics Model, IDM) 。

如上图 3(a) 所示,IDM 是一个独立的神经网络。它将两帧视频作为输入 (当前帧 \(S_t\) 和未来帧 \(S_{t+H}\)) ,并预测从状态 A 到状态 B 所需的物理动作 \(a_t\)。
研究人员实际上是在“观看”第 2 步生成的合成视频,并运行 IDM 来推测机器人 必须 采取什么运动指令才能产生这种运动。这个过程为视频标注了 伪动作 (Pseudo-Actions) 。
注: 作者还尝试了一种潜在动作模型 (LAPA) ,如图 3(b) 所示,它预测的是压缩潜在空间中的动作,而不是物理空间中的动作,但 IDM 方法是物理实验的主要驱动力。

第 4 步: 视觉运动策略训练
最后,我们来到了标准的机器人学习阶段。我们现在拥有了一个 “神经轨迹” 数据集——即第 3 步得出的视频帧与相应伪动作的配对数据。

视觉运动策略 (机器人的大脑) 在这个合成数据上进行训练。该策略学习获取机器人摄像头的图像并输出正确的动作。通过在成千上万条这种多样化的合成轨迹上进行训练,策略变得鲁棒且具有泛化能力,能够处理它在现实世界中从未遇到的场景。
实验与关键结果
DREAMGEN 流程在仿真环境 (RoboCasa) 和真实硬件 (GR1 人形机器人、Franka 机械臂、SO-100) 上都进行了广泛测试。结果验证了合成视频数据可以替代甚至超越人工数据采集的假设。
1. 数据增强与扩展
在仿真中,研究人员可以严格测试神经轨迹的“扩展定律”。他们比较了在有限的真实数据上训练机器人与增加越来越多的合成数据后的效果。

图 4 展示了清晰的 对数线性提升 。 随着合成神经轨迹数量 (x 轴) 的增加,机器人的成功率 (y 轴) 稳步攀升。
- 黄线 (高 Ground Truth 数据) : 即使你有大量的真实数据,添加合成数据也能将性能从约 50% 提升到近 60%。
- 蓝线 (低 Ground Truth 数据) : 在数据稀缺的情况下,合成数据提供了关键的支持。
最令人印象深刻的是,研究人员发现 仅 使用合成数据训练 (在策略训练阶段没有任何真实动作标签) 就达到了 20.6% 的成功率,证明了生成的“梦境”具有极高的质量。
2. 现实世界表现
仿真结果令人鼓舞,但现实世界的物理规律是无情的。团队在涉及柔性物体 (折叠布料) 、流体 (擦拭桌子) 和精确工具使用 (锤击) 的任务上测试了该流程。

图 5 总结了现实世界的收益。该方法在三种不同的机器人本体上进行了测试:
- GR1 人形机器人: 像锤击和折叠这样的任务成功率显著提高。例如,在“折叠”任务上,基线 GR00T 模型的成功率仅为 6.6%。使用 DREAMGEN 后,成功率达到了 36.6% 。
- Franka 机械臂: 标准的厨房任务也有类似的提升。
- SO-100: 一款低成本机械臂执行了复杂的任务,如“井字棋”,成功率从 25% 跃升至 65%。
这些任务使用传统的物理引擎很难模拟 (流体动力学和布料计算量很大) 。然而,视频世界模型可以自然地处理这些视觉效果,因为它们从互联网视频的预训练中理解了液体和织物的 视觉 动态。
3. “从 0 到 1”的泛化能力
该论文最引人注目的主张是能够泛化到全新的行为和环境中。
行为泛化: 研究人员 仅 使用抓取和放置 (pick-and-place) 的数据训练视频模型。然后,他们用新的文本指令提示模型,如“倒水”或“打开笔记本电脑”。

如表 1 所示,基线模型 (仅针对抓取和放置进行训练) 在“打开微波炉”或“揭开锅盖”等新颖任务上完全失败 (0% 成功率) 。 然而,经 DREAMGEN 训练的模型实现了:
- 打开 Macbook: 45% 成功率。
- 使用吸尘器: 55% 成功率。
- 新行为平均成功率: 43.2% 。
这意味着视频世界模型成功地将“打开”或“吸尘”的概念从人类视频转移到了机器人本体上,而无需显式的机器人训练数据。
环境泛化: 同样,通过给模型提供一张新环境 (未见过环境) 的单张照片,机器人在全新的地点实现了 28.5% 的成功率,而基线为 0%。

DREAMGEN BENCH: 机器人视频模型基准测试
意识到并非所有的视频模型都是生而平等的,作者推出了 DREAMGEN BENCH 。 该基准测试从两个对机器人至关重要的维度评估视频模型:
- 指令跟随 (Instruction Following, IF) : 视频是否真的展示了机器人按照要求行事?
- 物理对齐 (Physics Alignment, PA) : 机器人的动作是否符合物理规律 (没有物体瞬移或手穿过桌子) ?

图 6 揭示了视频模型在该基准测试中的得分与机器人最终成功率之间存在很强的正相关关系。这表明,随着更广泛的 AI 社区构建更好的视频生成模型 (如未来版本的 Sora 或 Cosmos) ,机器人学家只需将更好的生成器插入 DREAMGEN 流程,就能“免费”获得更好的机器人策略。
结论
DREAMGEN 代表了我们处理机器人学习方式的一个关键转变。它不再问“我们如何收集更多数据?”,而是问“我们如何合成更好的数据?”。
通过利用视频世界模型作为合成经验的引擎,研究人员证明了机器人可以:
- 以更少的人工遥操作更快地学习。
- 掌握涉及流体和布料的富物理特性任务。
- 泛化到它们从未物理接触过的全新行为和环境。
其影响是巨大的。如果机器人可以通过观看 YouTube 视频并“梦见”自己操作来学习“烹饪”,那么我们离能够在这个杂乱、不可预测的现实世界中运行的通用机器人又近了一步。“会做梦的机器人”时代已经到来,而它正是由生成式视频驱动的。
](https://deep-paper.org/en/paper/2505.12705/images/cover.png)