引言
生成式 AI 领域的发展速度惊人。在短短几年内,我们已经从模糊、邮票大小的 GIF 进化到了高清、电影级的视频生成。像 Sora、Kling 和 Gen-3 这样的模型能够渲染出与现实几乎无法区分的光照、纹理和构图。
然而,这其中有个问题。虽然这些模型已经精通了外观 (事物看起来的样子) ,但它们在运动 (事物移动的方式) 上却常常表现得很糟糕。
如果你尝试过文生视频模型,你可能见过这些伪影: 跑步者的两条腿融合成了一条,一个人面向前方却在倒退行走,或者物体像幽灵一样穿过实心墙壁。这些不仅仅是小瑕疵;它们是模型在模拟现实世界物理和动力学方面的根本性失败。
图 1. VideoJAM 结果。通过显式地将运动与外观一起建模,该框架生成了诸如旋转、跳跃和弹性形变等复杂的动作。
在这篇文章中,我们将深入探讨 VideoJAM , 这是一篇在 ICML 2025 上发表的研究论文。这篇论文准确地指出了为什么当前模型在运动方面举步维艰,并提出了一个令人惊讶的优雅解决方案: 强迫模型学习联合外观-运动 (Joint Appearance-Motion, JAM) 表示。
我们将探索作者如何修改训练目标使模型具备“运动感知”能力,以及他们如何引入一种称为内部引导 (Inner-Guidance) 的新颖推理技术,来引导生成过程走向物理合理性。
问题所在: 为什么视频模型在物理规律上表现不佳?
要解决问题,首先必须了解其根本原因。目前视频生成的主流架构是扩散 Transformer (DiT) 。 这些模型通常使用像素重建目标进行训练。简单来说,模型接收一个带有噪声的视频,并试图预测干净的视频 (或预测添加到其中的噪声) 。
研究人员假设这个标准目标函数就是罪魁祸首。在一个视频中,绝大多数信息是静态外观——颜色、纹理和背景。实际的运动 (随时间变化的像素) 只占信号的很小一部分。结果就是,模型优化的是看起来好看,而不是动得正确。
动机实验
为了证明这一假设,作者进行了一个有趣的实验。他们选取了一组训练视频并制作了两个版本:
- 原始视频 (Original) : 正常的视频。
- 置换视频 (Permuted) : 同样的视频,但帧在时间上被随机打乱。
如果一个模型理解运动,它应该对打乱的视频感到非常困惑。“损失 (Loss) ” (错误率) 应该会飙升,因为时间序列变得毫无意义。
图 2. 动机实验。橙色线显示了标准 DiT 模型。注意实线 (原始视频) 和虚线 (打乱视频) 在第 60 步之前几乎完全重合。这意味着模型无法区分连贯的视频和混乱的杂烩。
如图 2 所示,标准的 DiT 模型 (橙色线) 对时间扰动几乎不敏感 。 直到生成过程完成约 60% 时,模型并不在意帧的顺序是否错误。这证实了标准视频模型偏向于空间外观,而在生成的关键早期阶段很大程度上忽略了时间动力学。
此外,研究人员确定了何时运动会在扩散过程中被确定下来。通过向视频添加噪声并从不同的时间步重新生成 (SDEdit) ,他们发现粗略的运动和结构在第 20 步到第 60 步之间就被锁定了。
图 3. 到第 60 步时,视频的粗略运动和结构已基本确定。如果模型在这些步骤中不关注运动,结果将是不连贯的。
因为标准模型在这些特定步骤中忽略了时间顺序,它们无法生成连贯的运动,导致如下所示的“恐怖谷”效应。
图 4. 标准模型在基本力学 (慢跑) 、复杂体操、物体实体性和旋转方面表现挣扎。
解决方案: VideoJAM
VideoJAM 的核心理念是,模型不应该只看像素;它应该显式地学习这些像素是如何移动的。该框架由两个主要单元组成:
- 训练: 学习联合外观-运动表示。
- 推理: 使用内部引导来引导生成。
图 5. VideoJAM 框架。(a) 在训练期间,模型预测视频像素和光流。(b) 在推理期间,预测的光流用于引导生成。
1. 联合外观-运动表示 (训练)
研究人员需要一种方法来显式地表示运动。他们选择了光流 (Optical Flow) ——一种计算连续帧之间像素位移的表示方法。光流非常理想,因为它描述了动力学,而不关心纹理或光照。
为了使其与标准视频模型兼容,他们将光流向量转换为 RGB 图像格式 (使用颜色表示方向,强度表示速度) 。
架构修改
标准 DiT 模型接收一个噪声视频潜在变量 \(x_t\) 作为输入,并输出一个预测 \(u\)。VideoJAM 修改了架构以接受两个输入并产生两个输出 :
- 输入: 噪声视频 (\(x_t\)) + 噪声光流 (\(d_t\))。
- 输出: 预测视频 + 预测光流。
值得注意的是,这不需要重新设计巨大的 Transformer 主干网络。他们只需修改网络最前端和最后端的线性投影层:
- \(\mathbf{W}_{in}^+\) : 一个线性层,将连接后的视频和运动潜在变量投影到 Transformer 的嵌入空间中。
- \(\mathbf{W}_{out}^+\) : 一个线性层,将 Transformer 的输出投影回独立的视频和运动预测中。
前向传播的方程变为:

这里,\([x_t, d_t]\) 代表外观和运动的拼接。通过强迫模型同时处理两者,内部 Transformer 层必须学习一个能够理解外观和运动如何关联的统一潜在表示 。
新目标函数
损失函数被更新为同时最小化视频像素和运动图的误差。

通过在这个联合目标上进行训练,模型再也无法忽略时间动力学。如果它生成的视频像素散乱,光流预测就会出错,损失就会很高。
2. 内部引导 (推理)
训练模型预测运动固然好,但在生成时我们如何使用它呢?在推理时,我们从纯噪声开始。我们没有*真实基准 (ground-truth) *的运动视频来喂给模型。
作者引入了内部引导 (Inner-Guidance) 。 其想法是使用模型自己的运动预测作为向导。当模型开始生成视频时,它也会生成一份运动 (光流) 的“草稿”。即使这份草稿充满噪声,它也包含了关于物体应该向哪里移动的宝贵先验信息。
推导过程
在扩散模型中,我们经常使用无分类器引导 (Classifier-Free Guidance, CFG) 来使图像与文本提示对齐。VideoJAM 将其扩展为使视频与生成的运动对齐。
目标是从一个既尊重文本提示 (\(y\)) 又尊重运动 (\(d_t\)) 的分布中进行采样。采样分布如下所示:

这里,\(w_1\) 和 \(w_2\) 是引导尺度 (强度参数) 。
- \(w_1\) 推动模型去满足文本提示。
- \(w_2\) 推动模型去符合运动先验。
然而,标准引导假设条件是独立的或外部的。在 VideoJAM 中,运动 \(d_t\) 是由模型本身与视频 \(x_t\) 一起生成的。通过贝叶斯展开,作者推导出了分数更新规则:

转化为生成过程中的实际更新步骤,最终预测 \(\tilde{\mathbf{u}}^+\) 是三项的加权组合:

这个公式告诉模型:
- 开始于联合预测 (文本 + 视频 + 运动) 。
- 远离忽略文本的预测 (无条件) 。
- 远离忽略运动的预测 (仅外观) 。
这有效地“引导”了生成轨迹。如果模型开始生成一个人在行走,网络的“运动分支”会预测行走的光流。内部引导随后强迫像素生成遵循该光流,防止腿部融合或人物不自然地滑动。
实验结果
研究人员使用 VideoJAM 微调了两个版本的 DiT 模型 (40 亿和 300 亿参数) 。他们将这些模型与基础模型以及 Sora、Kling 和 Gen-3 等领先的专有模型进行了比较。
定性比较
视觉效果的对比非常明显。在下图中,请对比 VideoJAM 的结果 (右列) 与基线模型。
图 6. 定性比较。第 1 行: 提示词“引体向上”导致 DiT 失败 (人朝向错误) ,Kling 产生了幻觉结构。VideoJAM 的物理逻辑正确。第 2 行: “长颈鹿奔跑”。Sora 生成了倒退运动;VideoJAM 生成了自然的步态。第 3 行: “倒立”。基线模型在肢体位置和重力方面表现挣扎。
VideoJAM 始终能生成肢体连接正确、尊重重力且重复动作 (如轮盘赌) 保持稳定的视频。
定量基准
团队创建了 VideoJAM-bench , 这是一个专门设计用于压力测试运动生成 (体操、物理交互、旋转) 的数据集。他们使用 VBench (自动指标) 和人工评估对模型进行了评估。
表 1: 4B 参数模型比较

即使是较小的 VideoJAM-4B 模型也达到了 93.7 的运动得分,显着优于 CogVideo-5B (一个更大的模型) 。
表 2: 30B 参数模型比较

30B 模型的结果更加令人印象深刻。VideoJAM-30B 达到了 92.4 的运动得分 , 击败了 Sora (91.7) 和 Kling 1.5 (87.1)。在人工评估 (偏好投票) 中,VideoJAM 在运动质量上优于所有竞争对手。
消融研究
内部引导真的很重要吗?或者仅仅是训练就足够了?作者通过关闭组件测试了这一点。
表 3. 消融研究。
移除内部引导 (设置 \(w_2=0\)) 会显着降低运动得分。有趣的是,在推理过程中移除光流信号 (“w/o optical flow”) 对性能的损害最大,证明了联合推理过程至关重要。
局限性
VideoJAM 向前迈出了一大步,但它并非魔法。作者指出了两个主要的局限性:
- 远景运动 (Zoomed-out Motion) : 由于模型依赖光流,如果物体非常小 (例如远处的跳伞者) ,光流幅度会很微小。模型难以提取有意义的信号,导致运动不连贯。
- 复杂的交互物理: 虽然模型能更好地理解运动,但它没有显式的物理引擎。复杂的交互,如脚踢足球,仍然可能出现时机或接触错误。
图 7. 局限性。(a) 缩小视图场景限制了运动信号。(b) 细粒度的物体交互仍然具有挑战性。
结论
VideoJAM 凸显了生成式 AI 中的一个关键见解: 数据规模不是万能的。 仅仅向 Transformer 投喂更多视频并不能保证它学会物理规律。
通过识别标准训练目标中的偏差——外观对运动的压倒性优势——研究人员能够设计出一个针对性的解决方案。VideoJAM 教会模型通过联合表示“看到”运动,并利用这些知识在生成过程中进行自我修正。
结果就是产生了一个可以应用于任何视频模型的框架,能显着提高时间一致性,生成的视频不仅看起来真实,而且运动也合乎情理。当我们展望世界模拟器和 AI 视频的未来时,像 VideoJAM 这样的显式先验很可能在跨越恐怖谷的过程中发挥核心作用。
](https://deep-paper.org/en/paper/2502.02492/images/cover.png)