预测未来能教会机器人行动吗?深入解析视频预测策略 (VPP)
在构建能够处理从叠衣服到组装电子产品等各种任务的通用机器人的征途中,视觉至关重要。对于机器人与世界互动而言,它必须能看到这个世界。然而,我们教机器人“看”的方式在很大程度上一直是静态的。我们通常给它们输入单张图像,实际上是要求它们基于冻结在时间中的快照做出复杂的决策。
但物理世界并不是静止的。它是因果关系的连续流。当你伸手去拿一杯咖啡时,你的大脑不仅仅是在处理视觉的当前帧;它在潜意识里预测未来——杯子的重量、手臂的轨迹以及里面晃动的液体。
一篇引人入胜的新研究论文 “Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations” (视频预测策略: 一种具有预测性视觉表征的通用机器人策略) ,挑战了静态机器人视觉的现状。研究人员提出了一个新的假设: 强大的视频扩散模型 (Video Diffusion Models, VDMs) 在经过训练以生成逼真视频后,本质上理解世界的物理规律和动力学。通过挖掘这种“预测性知识”,我们可以构建出移动更智能、能更好地泛化到新任务的机器人。
在这篇文章中,我们将解构 视频预测策略 (Video Prediction Policy, VPP) 。 我们将探讨它是如何将生成式视频模型重新用作高速机器人控制器的,其“预测性视觉表征”背后的架构,以及这种方法为何能大幅超越之前的最先进方法。
静态视觉的问题
要理解 VPP 的重要性,我们首先需要看看机器人目前是如何“看”的。大多数通用机器人策略依赖于在海量数据集上预训练的视觉编码器 (如 ResNet 或 ViT) 。这些编码器通常通过以下方式训练:
- 对比学习 (Contrastive Learning, 如 CLIP, R3M): 学习将图像与文本或其他图像对齐。
- 图像重建 (Image Reconstruction, 如 MAE): 学习从被遮挡的图块中重建图像。
虽然有效,但这些方法有一个盲点: 它们关注当下。它们捕捉静态的语义信息 (例如,“这是一个红色的杯子”) ,但忽略了动态信息 (例如,“这个杯子快要倒了”) 。

如图 1 所示,传统的视觉编码器 (上部) 将输入图像映射为静态表征。相比之下,本文提出的方法 (下部) 利用了 视频扩散模型 。 通过处理当前图像和指令,该模型不仅生成当前帧,还生成代表未来帧序列的张量。
研究人员认为,扩散模型内部的这些潜在变量——他们称之为 “预测性视觉表征” (Predictive Visual Representations)——包含了静态编码器根本无法捕捉的关于未来物理和动力学的丰富信息。
背景: 作为世界模型的视频扩散
在深入架构之前,让我们简要回顾一下驱动该系统的引擎: 扩散模型 (Diffusion Models) 。
扩散模型通过逆转噪声过程来生成数据。在训练期间 (前向过程) ,高斯噪声被逐渐添加到视频中,直到其变成随机静止噪声。然后,模型学习逆转这一过程,从噪声中预测出清晰的视频。
数学上,如果 \(x_0\) 是真实的视频样本,前向过程通过添加噪声创建 \(x_t\):

这里,\(\epsilon_t\) 是噪声,\(\alpha_t\) 控制噪声调度。神奇之处在于逆向过程,神经网络 \(\mu_{\theta}\) 学习去除噪声并恢复上一步骤 \(x_{t-1}\):

通常,这些模型用于创作艺术作品或素材视频。然而,“物理智能 (Physical Intelligence)”领域的最新研究表明,这些模型充当了世界模拟器。要生成一个手推动方块的连贯视频,模型必须隐式地“理解”摩擦、碰撞和物体恒常性。VPP 旨在提取这种隐式理解并将其提供给机器人的控制策略。
VPP 方法: 两阶段法
视频预测策略不仅仅是一个插入机器人的视频生成器。生成完整的视频计算成本高昂且速度慢——对于通常需要 10-20 Hz 频率的实时机器人控制来说太慢了。
VPP 通过将问题分解为两个不同的阶段来解决这个问题:
- 训练以操作为中心的视频预测器 (TVP): 为机器人任务创建一个强大的“世界模型”。
- 通过预测性表征进行动作学习: 利用 TVP 的内部结构来指导快速控制策略。
让我们逐一分解。
第一阶段: 文本引导的视频预测 (TVP) 模型
研究人员从一个强大的开源基础模型开始: Stable Video Diffusion (SVD) 。 虽然 SVD 理解通用视频 (如海浪拍打或人们行走) ,但它不一定理解机器人夹爪与特定门锁交互的细微差别。
为了弥补这一差距,他们将 SVD 微调为 操作 TVP 模型 (Manipulation TVP Model) 。 他们以初始帧 \(s_0\) 和语言指令 \(l_{emb}\) (通过 CLIP 嵌入) 作为条件。模型尝试预测未来的视频序列 \(x_0\)。
训练目标是标准的扩散损失——最小化预测噪声与添加到视频中的实际噪声之间的差异:

机器人的一个关键挑战是数据稀缺。为了构建一个鲁棒的“盒中物理学家”,作者结合了三种不同类型的数据:
- 互联网人类操作数据: 人们处理物体的视频 (Something-Something-v2)。
- 互联网机器人数据: 大规模数据集,如 Open X-Embodiment (OXE)。
- 领域特定数据: 来自特定机器人设置的视频。
他们使用特定的系数 \(\lambda\) 来平衡这些数据集,以确保模型在学习通用物理知识的同时不丢失领域特性:

第二阶段: 使用“单步”表征进行动作学习
这是论文最具创新性的部分。之前尝试使用视频模型进行控制的方法 (如 UniPi) 会生成完整的未来视频,然后使用逆动力学模型来弄清楚“我如何从 A 帧到达 B 帧?”这需要运行扩散去噪循环几十次,生成单个动作需要几秒钟——这太慢了。
VPP 采取了不同的路线。它将 TVP 模型用作 视觉编码器 , 而不是视频生成器。
“单步”洞察: 作者发现,你不需要运行完整的去噪循环就能获得有用的信息。通过仅运行视频模型的 单次前向传播 (输入当前图像和纯噪声) ,网络的内部特征就已经根据预测的未来进行了结构化。

如图 2 所示,该流程的工作原理如下:
- 输入: 当前图像和文本指令。
- TVP 编码器: 修改后的 Stable Video Diffusion 模型处理输入。
- 特征提取: VPP 不输出像素,而是从 U-Net 上采样层提取中间特征图。
- 聚合: 这些特征由“Video Former”处理,并输入到扩散策略中以预测动作。
特征聚合与 Video Former
视频扩散模型内部的表征是巨大的。它是一个维度为 \((T, C, H, W)\) 的张量——时间、通道、高度和宽度。为了让控制策略能够消化这些信息,VPP 采用了一种巧妙的聚合策略。
首先,他们从 TVP 模型的第 \(m\) 个上采样层提取特征 \(L_m\):

由于不同层具有不同的分辨率,他们使用线性插值将其调整为通用大小 (\(W_p \times H_p\)):

这些插值特征沿通道维度连接,形成密集的“预测性视觉表征” \(F_p\):

最后,一个 Video Former (基于 Transformer 的模块) 压缩这一高维数据。它利用时空注意力机制混合时间和空间上的信息,将视频特征浓缩为一组紧凑的 token \(Q''\),供策略网络使用。

扩散策略头 (Diffusion Policy Head)
最后一个组件是动作生成器。研究人员使用了 扩散策略 (Diffusion Policy) (具体来说是扩散 Transformer 或 DiT) 。该策略接收来自 Video Former 的 token \(Q''\),并学习将随机动作序列“去噪”为正确的机器人轨迹。

通过将 TVP 模型仅用作特征提取器 (单次传播) 而不是视频生成器 (多步去噪) ,VPP 在消费级硬件 (RTX 4090) 上实现了大约 7-10 Hz 的控制频率,使其适用于闭环实时控制。
实验验证
理论听起来很扎实,但它有效吗?作者在严格的基准测试上测试了 VPP,包括 CALVIN (仿真) 和两个真实世界的硬件平台。
1. CALVIN 基准测试
CALVIN 是长视距机器人任务的标准基准。最难的设置是 ABC \(\rightarrow\) D , 即机器人在环境 A、B 和 C 上训练,但必须在完全未见过的环境 D (不同的桌子纹理、光照和相机位置) 中执行任务。

结果令人震惊。使用的指标是“平均链长 (Average Chain Length)”——即机器人在失败前能连续遵循多少条指令。

如表 1 所示, VPP 达到了 4.33 的平均长度 , 打破了之前的最先进水平 (RoboUniview 为 3.65,Vidman 为 3.42) 。它的性能几乎是 Robo-Flamingo 等标准基准的两倍。更令人印象深刻的是,当仅使用 10% 的数据进行训练时,VPP 仍然优于许多使用完整数据集训练的竞争对手。
2. “单步”预测真的有效吗?
这种怀疑仍然存在: 通过扩散模型的单次前向传播真的能预测未来吗?通常,你需要 30 步以上才能获得清晰的图像。
作者可视化了这一单步过程的输出。虽然像素有噪点且纹理模糊,但 结构动力学 却惊人地准确。

在图 4 中,请看蓝色框 (1 Step Direct Prediction,单步直接预测) 。虽然它缺乏真实值 (Ground Truth,绿色) 那样的清晰细节,但它正确地预测了手臂和物体的 运动。对于机器人策略来说,高频纹理细节 (如桌子上的木纹) 是噪声;场景的结构演变才是信号。VPP 高效地捕捉到了这一信号。
3. 消融研究: 什么最重要?
研究人员进行了消融实验,以观察哪些组件推动了性能提升。
视觉编码器重要吗? 他们将 VPP 编码器替换为其他流行的编码器,如 VC-1 (使用掩码自编码器训练) 和 Stable-VAE (标准图像重建) 。

表 3 证实了 预测性视觉表征 (VDM) 具有显著优势 (4.33 对比 VC-1 的 1.23) 。这验证了核心假设: 捕捉未来的演变比仅捕捉静态语义对控制更有价值。
互联网数据重要吗? 移除互联网预训练数据导致性能显著下降 (从 4.33 降至 3.97) ,而移除 Stable Video Diffusion 初始化则导致性能大幅下降 (降至 1.63) 。这证明了从观看数百万个 YouTube 视频中学到的“物理常识”可以迁移到机器人控制中。

真实世界实验
仿真是一回事,真实世界是另一回事。作者在两个设置上部署了 VPP: 一个 Franka Panda 机械臂 和一个 12自由度灵巧手 (Dexterous Hand) 。

测试协议包括“见过任务 (Seen Tasks)” (类似于训练) 和“未见任务 (Unseen Tasks)” (新物体或背景) 。
泛化能力
在未见任务中,机器人必须操纵它从未见过的物体 (例如,一个网球,一把特定的勺子) 或在新的背景条件下操作。

图 6 展示了模型的鲁棒性。红色帧显示了视频模型对未来的预测,绿色线条显示了机器人的实际执行。即使对于未见过的物体,视频模型也能正确地构想出一个物体被移动的合理未来,并且策略成功地跟踪了这一隐式轨迹。
成功率

表 5 总结了 VPP 在真实世界中的主导地位。在复杂的灵巧手“未见任务”上,VPP 达到了 60% 的成功率 , 而最强的基准 (Susie) 仅达到 28%,标准的扩散策略仅为 11%。这表明预测性表征对于高维、接触密集型任务 (如灵巧操作) 尤为关键。
作者使用遥操作收集了这些实验的数据,利用了 Space Mouse 等工具,甚至为灵巧手使用了 Apple Vision Pro (如图 7 所示) 。

结论: 未来是预测性的
视频预测策略 (VPP) 代表了具身智能迈出的重要一步。通过弥合生成式视频模型与机器人控制之间的差距,作者证明了:
- 视频模型即世界模型: 预训练的视频扩散模型包含了对机器人技术极具价值的丰富物理先验。
- 动态 > 静态: 编码未来演变的表征远比仅编码当前状态的表征对控制更有用。
- 通过编码器使用实现效率: 使用生成模型不需要生成像素。利用单次前向传播的内部特征,既提供了预测的好处,又没有生成的计算成本。
VPP 使机器人不仅能够通过对所见做出反应来操作,还能通过预测将会发生什么来操作。随着视频基础模型的不断扩展和改进,这种“预测性”范式很可能代表了通用机器人策略的未来。
本博客文章基于论文 “Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations” (2025)。文中提出的观点和图片直接源自该原始材料。
附录: 可视化预测
为了满足好奇心,以下是更多可视化图,展示了底层 TVP 模型如何解读人类和机器人的动作。
人类操作预测:
即使仅输入静态图像,模型也能预测复杂的动作,如撕纸或移动瓶子。

机器人操作预测:
该模型可以跨越各种机器人形态和任务进行泛化,准确预测拾取和放置操作。

](https://deep-paper.org/en/paper/2412.14803/images/cover.png)