简介

想象一下,你正伸手去拿乱糟糟桌子上的咖啡杯。你不需要有意识地在脑海中像播放电影一样,逐帧、逐纹理地渲染出手部移动的逼真视频,然后再采取行动。相反,你的大脑在一个直观、隐式的层面上运作。它预测你动作的后果——抓握时的空间感、杯子的重量、避开订书机——而无需在脑海中渲染场景的每一个像素。

这种预测能力被称为世界建模 (World Modeling) 。 在机器人技术中,赋予机器这种能力是实现灵巧、智能行为的“圣杯”。

传统上,研究人员试图通过让机器人预测未来的视频帧来教它们建立世界模型。这种逻辑听起来很合理: 如果机器人能生成一段自己成功拿起杯子的视频,那么它肯定“理解”了其中涉及的物理和动力学原理。然而,这种方法代价高昂。生成高保真视频不仅计算量大,而且速度慢。更糟糕的是,这在训练过程中造成了利益冲突: 模型花费大量能力试图渲染木桌的完美纹理 (这与任务无关) ,却忽略了实际的机械臂动力学。

FLARE (Future LAtent REpresentation Alignment,未来潜在表示对齐) 应运而生。

在 NVIDIA 及其合作伙伴最近发表的一篇论文中,研究人员提出了一个新的框架,赋予机器人世界建模的优势,却无需承担视频生成的沉重负担。FLARE 不预测像素,而是预测潜在表示 (Latent Representations)——即未来状态的紧凑数学摘要。

在这篇文章中,我们将解构 FLARE。我们将探讨它如何修改标准的扩散策略 (Diffusion Policies),为什么“动作感知 (Action-Aware)”嵌入是其关键秘诀,以及这种方法如何让机器人能够从没有任何动作标签的人类视频中进行学习。

FLARE 与传统流匹配策略的比较。

核心问题: 策略学习与世界建模

要理解为什么 FLARE 是必要的,我们需要先看看机器人学习的现状。

现代机器人技术的主流范式是视觉运动策略学习 (Visuomotor Policy Learning) 。 你给机器人提供当前的观测 (来自摄像头的图像) 和一条指令 (例如,“拿起苹果”) ,机器人输出一个动作 (电机指令) 。最近, 扩散策略 (Diffusion Policies)流匹配 (Flow-Matching) 模型已经占据了该领域的主导地位。这些模型通过将随机噪声细化为精确的轨迹,学会了生成复杂的动作序列。

虽然有效,但这些“仅策略 (Policy Only)”方法 (如上图 1 上半部分所示) 是反应式的。它们将当前视觉映射到当前动作。它们缺乏一种机制来显式地推理其运动的长期后果。

另一种选择是基于世界模型 (World Model-based) 的学习,机器人预测未来的观测 \(O_{t+H}\)。如前所述,在像素空间中这样做效率低下。FLARE 通过将策略的内部状态与未来的潜在嵌入 (而不是原始像素) 对齐,从而弥合了这一差距。

背景: 用于控制的流匹配 (Flow Matching)

在深入架构之前,让我们简要建立数学基础: 流匹配 。 这是驱动机器人动作的生成引擎。

在这个设置中,我们有一个来自专家演示的动作块 (Action Chunk) \(A_t\) (未来动作序列) 。我们根据时间步 \(\tau\) (范围从 0 到 1) 向这个动作添加噪声。当 \(\tau=0\) 时,它是纯噪声;当 \(\tau=1\) 时,它是干净的动作。

加噪后的动作定义为:

加噪动作块的公式。

这里,\(\epsilon\) 是采样噪声。神经网络 (策略) 的目标是预测“速度”或从噪声向干净动作移动的方向。网络表示为 \(V_\theta\),它将当前观测嵌入 \(\phi_t\)、加噪动作 \(A_t^\tau\) 和机器人的本体感知状态 \(q_t\) 作为输入。

训练目标 (损失函数) 是最小化网络预测与重构动作所需的实际方向之间的差异:

流匹配损失函数公式。

在推理时 (当机器人实际运行时) ,模型从随机噪声开始,利用预测的速度迭代地细化它,以生成平滑的动作轨迹:

推理时的欧拉积分步骤。

作者使用扩散 Transformer (DiT) 来实现这一过程。现在,让我们看看 FLARE 如何修改这个标准架构。

FLARE 方法

FLARE 对标准的视觉-语言-动作 (VLA) 架构引入了“轻量级”修改。其目标是迫使策略在生成动作的同时“思考”未来。

1. 架构: 添加未来 Token

标准的 DiT 策略处理一系列 Token。通常,这些 Token 代表当前的机器人状态和加噪动作。FLARE 在这个序列中添加了一组可学习的未来 Token (Learnable Future Tokens)

请看下面的架构图:

FLARE 架构图,展示了未来 Token 和对齐损失。

信息流如下:

  1. 输入: 模型接收当前观测 (视觉 + 文本) 、当前关节状态 (\(q_t\)) 和加噪动作 (\(A_t^\tau\))。
  2. 未来 Token: 一组 \(M\) 个可学习的 Token 被附加到输入序列中。
  3. 处理: DiT 块通过自注意力机制 (Self-attention) 处理所有 Token。这意味着“未来 Token”可以关注“动作 Token”,反之亦然。它们共享信息。
  4. 提取: 在特定的中间层 \(L\),对应于未来 Token 的激活值被提取出来。
  5. 对齐: 这些提取的特征被投影,并与未来观测 (\(O_{t+H}\)) 的实际嵌入进行比较。

通过强制这些额外的 Token 预测未来嵌入,梯度会反向传播到整个网络。这迫使整个模型学习能够捕捉环境动态的内部表示。

2. 对齐损失 (Alignment Loss)

核心创新在于未来潜在对齐损失 (Future Latent Alignment Loss) 。 模型不再重构像素,而是最小化其预测的未来潜在状态与真值未来潜在状态之间的余弦距离。

设 \(f_\theta\) 为策略对未来 Token 的预测,\(g\) 为生成未来图像真值嵌入 (\(\phi_{t+H}\)) 的冻结编码器。损失函数为:

潜在对齐损失公式。

这意味着,如果机器人正准备拿起一个苹果,它的内部“未来 Token”在数学上应该看起来类似于苹果已经被拿起的那张图像的嵌入。

最终的训练目标结合了标准的动作生成 (流匹配) 和这种新的世界建模能力:

结合流匹配和对齐的总损失公式。

作者发现权重系数 \(\lambda = 0.2\) 效果最好。这确保了世界建模目标能够支持动作学习,而不会喧宾夺主。

3. “动作感知”嵌入 (Action-Aware Embedding)

一个关键问题依然存在: 我们应该使用什么模型来编码未来 (\(g\))?

你可能会想到使用标准的预训练模型,如 CLIP 或 SigLIP。虽然 FLARE 支持这样做,但作者发现通用的视觉模型捕捉了太多无关的细节 (如墙壁的颜色或光照阴影) 。

为了获得最佳性能,机器人需要关注任务相关的特征: 夹持器与物体的关系,或工具的几何形状。

为此,作者预训练了一个自定义的动作感知视觉-语言嵌入 (Action-Aware Vision-Language Embedding) 。 他们利用了海量的跨具身机器人数据集 (超过 2,000 小时) :

展示预训练数据混合的饼图。

他们使用了 Q-former 架构 (类似于 BLIP-2) 。该模块将视觉特征压缩成一小组 Token (32 个) 。至关重要的是,这个嵌入模型是被训练来预测动作的。这迫使嵌入丢弃背景噪声,只保留控制所需的信息。

基于 Q-former 的视觉语言嵌入模块图解。

在 FLARE 的下游训练期间,这个嵌入模型充当“教师” (\(g\) 函数) ,为未来潜在对齐提供目标。

实验结果

研究人员在两个严格的基准测试上评估了 FLARE: RoboCasa (仿真) 和使用 GR1 人形机器人的真实世界任务。

1. 仿真基准测试

RoboCasa 涉及复杂的厨房任务,如开门、打开炉灶和整理物品。GR1 仿真任务侧重于灵巧操作。

RoboCasa 和 GR1 仿真任务的视觉展示。

结果是决定性的。FLARE 显著优于标准的扩散策略,甚至优于其他世界模型基线,如 UWM (统一世界模型) 。

展示 RoboCasa 和 GR1 任务成功率的表格。

表 1 的主要结论:

  • FLARE vs. 仅策略 (Policy Only): 在困难的“拾取和放置 (Pick and Place)”任务中,FLARE 的成功率跃升至 53.2% , 而仅策略基线为 43.8%。
  • FLARE vs. 扩散策略 (Diffusion Policy): 差距更大 (53.2% vs 29.2%) 。
  • 效率: FLARE 实现了这些增益,却无需生成像素所带来的巨大计算开销。

2. 真实世界人形机器人控制

仿真很有用,但真正的考验是物理硬件。团队在执行桌面操作的 GR1 人形机器人上测试了 FLARE。

真实 GR1 机器人任务设置。

真实世界的结果与仿真结果一致。FLARE 显示出明显的优势,特别是在数据受限的情况下。

比较仅策略与 FLARE 性能的柱状图。

在上图 (右侧) 中,请注意平均 (Average) 性能。FLARE 在真实世界任务中实现了 95.3% 的成功率,而标准策略仅为 81.2%。

定性差异: 作者指出,基线策略通常表现得“贪婪”,试图直接移动到目标,并在此过程中撞倒障碍物 (如水瓶) 。而 FLARE 策略由于预测了未来状态,隐式地“预见”了碰撞。它学会了绕过瓶子到达目标,表现出更安全、更智能的行为。

FLARE 执行拾取和放置任务的连续画面。

3. “超能力”: 从无动作视频中学习

也许 FLARE 最令人兴奋的能力是它可以从人类第一人称视频 (Human Egocentric Videos) 中学习。

收集机器人数据很难,因为你需要遥操作机器人并记录精确的动作 (电机角度) 。收集人类做任务的视频很容易——只需在某人头上绑一个 GoPro。然而,人类视频没有机器人关节标签 (\(A_t\)),因此标准的策略学习 (公式 1) 无法使用它们。

FLARE 改变了游戏规则。因为它有一个世界建模损失 (公式 3) ,它可以通过严格优化对齐目标来在人类视频上进行训练。模型学会了: “如果我处于状态 A,未来状态应该看起来像 B。”它从人类那里学习任务的动态,即使没有动作标签。

研究人员在机器人从未见过的新颖物体 (Novel Objects) 上对此进行了测试。

利用人类视频训练并在新颖物体上测试的图解。

结果 (如上方的柱状图所示) 令人震惊:

  • 绿色条: 使用人类视频 + 仅 10 个机器人演示训练的 FLARE。
  • 灰色条: 仅使用机器人演示训练的 FLARE。

仅用 10 个机器人演示,加入人类视频后成功率翻了一番 (从约 40% 提高到 80%) 。这表明 FLARE 可以有效地将任务的“概念”从人类视频转移到机器人控制中。

FLARE 操作新颖物体,如玩具和蓝色胶带。

为什么有效? (消融实验)

论文包含了详细的消融实验来验证他们的设计选择。

特定的嵌入模型重要吗? 是的。虽然使用标准的 SigLIP 模型比什么都不用要好,但自定义的“动作感知”嵌入提供了最佳性能 (55.0% vs 49.6%) 。

比较不同嵌入模型的表格。

我们应该在哪里附加损失? DiT 有多个层。如果你过早强制对齐 (第 4 层) ,性能会下降。模型需要足够的深度来处理动作 Token,然后才能准确预测未来。第 6 层 (共 8 层) 被认为是最佳平衡点。

展示损失层和系数消融实验的图表。

处理分布偏移 (EMA): 因为策略在学习,其内部表示会发生变化。为了保持目标嵌入稳定且适应性强,作者使用了指数移动平均 (EMA) 来更新目标编码器。如下图所示,\(\rho=0.995\) 的系数产生了最高的成功率。

展示 EMA 系数影响的图表。

EMA 更新规则的公式。

结论

FLARE 代表了机器人智能向前迈出的重要一步。它成功地将世界模型的直觉与流匹配策略的精确性结合在一起。

通过预测潜在未来而不是像素,FLARE 保持了轻量级和可扩展性。它只需要极小的架构更改——仅仅是几个额外的 Token——却能提供最先进的性能。最重要的是,它解锁了用于机器人训练的巨大人类视频数据宝库,允许机器人从我们这里学习任务的动态,即使它们不知道我们使用的精确电机指令。

随着机器人从受控实验室走向纷繁复杂的现实世界,这种隐式预测“接下来会发生什么”的能力将是实现安全、可靠和通用自主性的关键。