教 AI 学会运动：VideoJAM 如何解决生成式视频中的运动难题

引言

生成式 AI 领域的发展速度惊人。在短短几年内，我们已经从模糊、邮票大小的 GIF 进化到了高清、电影级的视频生成。像 Sora、Kling 和 Gen-3 这样的模型能够渲染出与现实几乎无法区分的光照、纹理和构图。

然而，这其中有个问题。虽然这些模型已经精通了外观 (事物看起来的样子) ，但它们在运动 (事物移动的方式) 上却常常表现得很糟糕。

如果你尝试过文生视频模型，你可能见过这些伪影: 跑步者的两条腿融合成了一条，一个人面向前方却在倒退行走，或者物体像幽灵一样穿过实心墙壁。这些不仅仅是小瑕疵；它们是模型在模拟现实世界物理和动力学方面的根本性失败。

VideoJAM 生成的文生视频样本，展示了芭蕾舞演员、滑板运动员和史莱姆操作。 图 1. VideoJAM 结果。通过显式地将运动与外观一起建模，该框架生成了诸如旋转、跳跃和弹性形变等复杂的动作。

在这篇文章中，我们将深入探讨 VideoJAM , 这是一篇在 ICML 2025 上发表的研究论文。这篇论文准确地指出了为什么当前模型在运动方面举步维艰，并提出了一个令人惊讶的优雅解决方案: 强迫模型学习联合外观-运动 (Joint Appearance-Motion, JAM) 表示。

我们将探索作者如何修改训练目标使模型具备“运动感知”能力，以及他们如何引入一种称为内部引导 (Inner-Guidance) 的新颖推理技术，来引导生成过程走向物理合理性。

问题所在: 为什么视频模型在物理规律上表现不佳？

要解决问题，首先必须了解其根本原因。目前视频生成的主流架构是扩散 Transformer (DiT) 。这些模型通常使用像素重建目标进行训练。简单来说，模型接收一个带有噪声的视频，并试图预测干净的视频 (或预测添加到其中的噪声) 。

研究人员假设这个标准目标函数就是罪魁祸首。在一个视频中，绝大多数信息是静态外观——颜色、纹理和背景。实际的运动 (随时间变化的像素) 只占信号的很小一部分。结果就是，模型优化的是看起来好看，而不是动得正确。

动机实验

为了证明这一假设，作者进行了一个有趣的实验。他们选取了一组训练视频并制作了两个版本:

原始视频 (Original) : 正常的视频。
置换视频 (Permuted) : 同样的视频，但帧在时间上被随机打乱。

如果一个模型理解运动，它应该对打乱的视频感到非常困惑。“损失 (Loss) ” (错误率) 应该会飙升，因为时间序列变得毫无意义。

图表对比了普通 DiT 和 VideoJAM 之间的损失。普通模型对正常视频和置换视频的损失几乎相同。图 2. 动机实验。橙色线显示了标准 DiT 模型。注意实线 (原始视频) 和虚线 (打乱视频) 在第 60 步之前几乎完全重合。这意味着模型无法区分连贯的视频和混乱的杂烩。

如图 2 所示，标准的 DiT 模型 (橙色线) 对时间扰动几乎不敏感 。直到生成过程完成约 60% 时，模型并不在意帧的顺序是否错误。这证实了标准视频模型偏向于空间外观，而在生成的关键早期阶段很大程度上忽略了时间动力学。

此外，研究人员确定了何时运动会在扩散过程中被确定下来。通过向视频添加噪声并从不同的时间步重新生成 (SDEdit) ，他们发现粗略的运动和结构在第 20 步到第 60 步之间就被锁定了。

不同去噪步骤的视频帧对比，显示外观和运动流。 图 3. 到第 60 步时，视频的粗略运动和结构已基本确定。如果模型在这些步骤中不关注运动，结果将是不连贯的。

因为标准模型在这些特定步骤中忽略了时间顺序，它们无法生成连贯的运动，导致如下所示的“恐怖谷”效应。

DiT-30B 中的运动失败示例: 慢跑的腿融合，物体穿过人体。 图 4. 标准模型在基本力学 (慢跑) 、复杂体操、物体实体性和旋转方面表现挣扎。

解决方案: VideoJAM

VideoJAM 的核心理念是，模型不应该只看像素；它应该显式地学习这些像素是如何移动的。该框架由两个主要单元组成:

训练: 学习联合外观-运动表示。
推理: 使用内部引导来引导生成。

VideoJAM 框架图，展示了训练和推理流程。 图 5. VideoJAM 框架。(a) 在训练期间，模型预测视频像素和光流。(b) 在推理期间，预测的光流用于引导生成。

1. 联合外观-运动表示 (训练)

研究人员需要一种方法来显式地表示运动。他们选择了光流 (Optical Flow) ——一种计算连续帧之间像素位移的表示方法。光流非常理想，因为它描述了动力学，而不关心纹理或光照。

为了使其与标准视频模型兼容，他们将光流向量转换为 RGB 图像格式 (使用颜色表示方向，强度表示速度) 。

架构修改

标准 DiT 模型接收一个噪声视频潜在变量 \(x_t\) 作为输入，并输出一个预测 \(u\)。VideoJAM 修改了架构以接受两个输入并产生两个输出 :

输入: 噪声视频 (\(x_t\)) + 噪声光流 (\(d_t\))。
输出: 预测视频 + 预测光流。

值得注意的是，这不需要重新设计巨大的 Transformer 主干网络。他们只需修改网络最前端和最后端的线性投影层:

\(\mathbf{W}_{in}^+\) : 一个线性层，将连接后的视频和运动潜在变量投影到 Transformer 的嵌入空间中。
\(\mathbf{W}_{out}^+\) : 一个线性层，将 Transformer 的输出投影回独立的视频和运动预测中。

前向传播的方程变为:

显示模型双输入和双输出的方程。

这里，\([x_t, d_t]\) 代表外观和运动的拼接。通过强迫模型同时处理两者，内部 Transformer 层必须学习一个能够理解外观和运动如何关联的统一潜在表示 。

新目标函数

损失函数被更新为同时最小化视频像素和运动图的误差。

显示视频和运动联合损失函数的方程。

通过在这个联合目标上进行训练，模型再也无法忽略时间动力学。如果它生成的视频像素散乱，光流预测就会出错，损失就会很高。

2. 内部引导 (推理)

训练模型预测运动固然好，但在生成时我们如何使用它呢？在推理时，我们从纯噪声开始。我们没有*真实基准 (ground-truth) *的运动视频来喂给模型。

作者引入了内部引导 (Inner-Guidance) 。其想法是使用模型自己的运动预测作为向导。当模型开始生成视频时，它也会生成一份运动 (光流) 的“草稿”。即使这份草稿充满噪声，它也包含了关于物体应该向哪里移动的宝贵先验信息。

推导过程

在扩散模型中，我们经常使用无分类器引导 (Classifier-Free Guidance, CFG) 来使图像与文本提示对齐。VideoJAM 将其扩展为使视频与生成的运动对齐。

目标是从一个既尊重文本提示 (\(y\)) 又尊重运动 (\(d_t\)) 的分布中进行采样。采样分布如下所示:

显示采样分布比例关系的方程。

这里，\(w_1\) 和 \(w_2\) 是引导尺度 (强度参数) 。

\(w_1\) 推动模型去满足文本提示。
\(w_2\) 推动模型去符合运动先验。

然而，标准引导假设条件是独立的或外部的。在 VideoJAM 中，运动 \(d_t\) 是由模型本身与视频 \(x_t\) 一起生成的。通过贝叶斯展开，作者推导出了分数更新规则:

显示分数函数分解的方程。

转化为生成过程中的实际更新步骤，最终预测 \(\tilde{\mathbf{u}}^+\) 是三项的加权组合:

显示内部引导最终线性组合的方程。

这个公式告诉模型:

开始于联合预测 (文本 + 视频 + 运动) 。
远离忽略文本的预测 (无条件) 。
远离忽略运动的预测 (仅外观) 。

这有效地“引导”了生成轨迹。如果模型开始生成一个人在行走，网络的“运动分支”会预测行走的光流。内部引导随后强迫像素生成遵循该光流，防止腿部融合或人物不自然地滑动。

实验结果

研究人员使用 VideoJAM 微调了两个版本的 DiT 模型 (40 亿和 300 亿参数) 。他们将这些模型与基础模型以及 Sora、Kling 和 Gen-3 等领先的专有模型进行了比较。

定性比较

视觉效果的对比非常明显。在下图中，请对比 VideoJAM 的结果 (右列) 与基线模型。

Sora, Kling, DiT-30B 和 VideoJAM-30B 在具有挑战性的提示词下的网格对比。图 6. 定性比较。第 1 行: 提示词“引体向上”导致 DiT 失败 (人朝向错误) ，Kling 产生了幻觉结构。VideoJAM 的物理逻辑正确。第 2 行: “长颈鹿奔跑”。Sora 生成了倒退运动；VideoJAM 生成了自然的步态。第 3 行: “倒立”。基线模型在肢体位置和重力方面表现挣扎。

VideoJAM 始终能生成肢体连接正确、尊重重力且重复动作 (如轮盘赌) 保持稳定的视频。

定量基准

团队创建了 VideoJAM-bench , 这是一个专门设计用于压力测试运动生成 (体操、物理交互、旋转) 的数据集。他们使用 VBench (自动指标) 和人工评估对模型进行了评估。

表 1: 4B 参数模型比较

表格对比 VideoJAM-4B 与 CogVideo 和 PyramidFlow。

即使是较小的 VideoJAM-4B 模型也达到了 93.7 的运动得分，显着优于 CogVideo-5B (一个更大的模型) 。

表 2: 30B 参数模型比较

表格对比 VideoJAM-30B 与 Sora, Kling 和 Gen3。

30B 模型的结果更加令人印象深刻。VideoJAM-30B 达到了 92.4 的运动得分 , 击败了 Sora (91.7) 和 Kling 1.5 (87.1)。在人工评估 (偏好投票) 中，VideoJAM 在运动质量上优于所有竞争对手。

消融研究

内部引导真的很重要吗？或者仅仅是训练就足够了？作者通过关闭组件测试了这一点。

消融研究表格。 表 3. 消融研究。

移除内部引导 (设置 \(w_2=0\)) 会显着降低运动得分。有趣的是，在推理过程中移除光流信号 (“w/o optical flow”) 对性能的损害最大，证明了联合推理过程至关重要。

局限性

VideoJAM 向前迈出了一大步，但它并非魔法。作者指出了两个主要的局限性:

远景运动 (Zoomed-out Motion) : 由于模型依赖光流，如果物体非常小 (例如远处的跳伞者) ，光流幅度会很微小。模型难以提取有意义的信号，导致运动不连贯。
复杂的交互物理: 虽然模型能更好地理解运动，但它没有显式的物理引擎。复杂的交互，如脚踢足球，仍然可能出现时机或接触错误。

显示局限性的图像: 跳伞者和足球。 图 7. 局限性。(a) 缩小视图场景限制了运动信号。(b) 细粒度的物体交互仍然具有挑战性。

结论

VideoJAM 凸显了生成式 AI 中的一个关键见解: 数据规模不是万能的。 仅仅向 Transformer 投喂更多视频并不能保证它学会物理规律。

通过识别标准训练目标中的偏差——外观对运动的压倒性优势——研究人员能够设计出一个针对性的解决方案。VideoJAM 教会模型通过联合表示“看到”运动，并利用这些知识在生成过程中进行自我修正。

结果就是产生了一个可以应用于任何视频模型的框架，能显着提高时间一致性，生成的视频不仅看起来真实，而且运动也合乎情理。当我们展望世界模拟器和 AI 视频的未来时，像 VideoJAM 这样的显式先验很可能在跨越恐怖谷的过程中发挥核心作用。

引言#

问题所在: 为什么视频模型在物理规律上表现不佳？#

动机实验#

解决方案: VideoJAM#

1. 联合外观-运动表示 (训练)#

架构修改#

新目标函数#

2. 内部引导 (推理)#

推导过程#

实验结果#

定性比较#

定量基准#

消融研究#

局限性#

结论#

引言