图生视频 (Image-to-Video, I2V) 生成是计算机视觉领域最令人兴奋的前沿方向之一。它的前提充满魔力: 拍摄一张静止的照片——无论是路上的汽车、草地上的狗,还是山丘上的城堡——并为其注入生命。你希望汽车行驶,狗打滚,摄像机从城堡拉远。

然而,如果你体验过目前的 I2V 扩散模型,你可能已经遇到过令人沮丧的现实。通常,“视频”仅仅是输入图像的轻微晃动,或者是一种看起来更像 2D 缩放而非 3D 摄像机运动的“变焦”效果。反之,如果模型确实生成了运动,它往往又会完全忽略你的文本提示词,产生与你要求毫无关系的混乱动作。

为什么这如此困难?挑战在于外观保持 (让汽车看起来还是那辆特定的汽车) 与运动生成 (让像素随时间发生显著变化) 之间的拉锯战。

在一篇引人入胜的新论文《Extrapolating and Decoupling Image-to-Video Generation Models》 (图生视频生成模型的外推与解耦) 中,研究人员提出了一种无需从头开始训练庞大新模型的解决方案。相反,他们引入了一个巧妙的框架,利用模型合并 (Model Merging) ——一种借用自自然语言处理 (NLP) 的技术——来精确地分离并增强运动能力。

让我们深入了解他们是如何做到这一点的,以及为什么这可能会改变我们构建视频生成器的方式。

问题: “静态”视频陷阱

当前最先进的模型通常会在两个方面失败:

  1. 运动程度有限: 视频几乎算不上视频,看起来像个静态 GIF。
  2. 可控性差: 你输入“向左平移”,但摄像机却在变焦或保持静止。

这种情况的发生是因为模型通常过度依赖第一帧。它们非常害怕“幻觉”出新的细节,以至于紧紧抓住输入图像,导致运动极小。

I2V生成的对比可视化。上排显示一辆汽车;基线“Prior”生成静态帧,而“Ours”显示汽车驶离。下排显示一座城堡;“Prior”是静止的,“Ours”成功拉远镜头。

如上图 Figure 1 所示,先前的方法 (标记为“Prior”) 通常输出几乎相同的帧,无论提示词是什么。在上排中,汽车几乎没动。在下排中,提示词要求“zoom out (拉远) ”,但画面保持固定。然而,本文提出的方法 (标记为“Ours”) 成功生成了移动汽车后的扬尘,并创造了真实的摄像机变焦效果。

解决方案: 三阶段框架

为了解决这个问题,研究人员并没有只是训练一个更大的模型。他们设计了一个三阶段的流程,旨在将“运动”与“外观”解耦。

该框架称为外推与解耦 (Extrapolating and Decoupling) 。 它的核心洞察是: 神经网络的不同部分处理不同的任务,通过代数运算操纵模型权重,我们可以增强特定的能力。

框架概览。(a) 适应阶段将文本注入时间注意力。(b) 外推阶段放大运动程度。(c) 解耦阶段分离参数以进行选择性注入。

Figure 2 所示,该过程包括:

  1. 适应 (Adaptation) : 教导模型听从文本提示词来进行运动。
  2. 外推 (Extrapolation) : 使用数学技巧积极地提升运动幅度。
  3. 解耦 (Decoupling) : 分离这些能力,并在生成过程的适当时机注入它们。

让我们分解这些阶段。

第一阶段: 运动可控性适应

大多数视频扩散模型 (VDMs) 使用 U-Net 架构。它们拥有“空间注意力 (Spatial Attention) ” (理解帧里有什么) 和“时间注意力 (Temporal Attention) ” (理解帧随时间如何关联) 。

许多基础模型 (如本文基于的 DynamiCrafter) 的一个缺陷是,文本提示词通常只被输入到空间层。这意味着模型知道图片里有一只“狗”,但它不一定利用文本来决定狗如何移动

为了解决这个问题,作者引入了一个轻量级的适配器 (Adapter)

显示 Q-Former 处理文本嵌入的公式。

他们使用 Q-Former (一种常用于连接图像和文本的组件) 来压缩文本嵌入,并显式地将它们注入到时间注意力模块中。通过微调这个适配器和时间权重,他们教导模型利用文本提示词来指导运动。

问题所在: 虽然这提高了控制力 (模型现在理解“向左平移”了) ,但研究人员发现微调实际上减少了整体的运动量。模型变得“小心翼翼”且趋于静态。这种现象被称为“程度消失 (degree vanishment) ”。

第二阶段: 运动程度外推

这可能是论文中最具创新性的部分。我们有一个预训练模型 (\(\theta_{pre}\)) ,它运动不错但控制很差。我们有一个来自第一阶段的微调模型 (\(\theta_{sft}\)) ,它控制很好但运动微小。

如何获得大幅度的运动?作者使用了一种称为任务向量外推 (Task Vector Extrapolation) 的技术。

如果从 预训练 \(\to\) 微调 会减少运动,那么逻辑上,向相反方向移动应该会增加运动。但我们不想回到起点;我们要超越它。

他们使用向量算术定义了一个新的模型状态 \(\theta_{dyn}\):

定义动态模型的公式,即预训练模型加上预训练模型与微调模型之间经 alpha 加权的差值。

这里,\(\alpha\) 是一个超参数。通过从预训练权重中减去微调权重 (本质上捕捉了“运动的损失”) ,并将其带有一个乘数加到预训练模型中,他们积极地“遗忘”了静态行为。

这是一个免训练 (training-free) 的操作。这仅仅是对模型权重的数学运算。

为什么这行得通? 作者提供了基于泰勒展开的理论证明。在不深入微积分细节的情况下,他们证明了只要参数更新与运动程度的梯度方向一致,这种外推在数学上保证能增加运动分数。

推导过程显示运动程度的变化与梯度的平方范数成正比,从而保证了非负的增长。

结果是一个能产生狂野、大幅度运动的模型。然而,它可能过于狂野,有时会牺牲主体的连贯性。

第三阶段: 解耦与动态注入

现在我们有了拼图的各个部分,但它们分散在不同的模型版本中:

  • 运动控制 在适配器参数中。
  • 运动程度 (动态) 在外推模型中。
  • 主体一致性 在微调模型中保存得最好。

我们需要结合这些最好的部分。作者使用了一种称为 DARE (Drop And REscale) 剪枝的方法。这种技术随机丢弃一定百分比的权重差异 (将其设为零) 并重新缩放其余部分。这有助于隔离特定任务的关键参数,而不带入“噪声”或冲突信息。

他们创建了三组参数:

  1. \(\theta_{adt}\): 控制参数 (来自适配器) 。
  2. \(\theta_{deg}\): 程度参数 (从外推模型中提取) 。
  3. \(\theta_{con}\): 一致性参数 (来自微调模型) 。

显示使用 DARE 剪枝和掩码隔离参数集的公式。

利用任务算术 (Task Arithmetic) , 他们将这些参数合并成两个专用模型: 一个针对动态优化 (\(\theta_{dyn}^*\)) ,一个针对一致性优化 (\(\theta_{con}^*\)) 。

显示使用任务算术创建动态增强模型和一致性增强模型的公式。

采样策略: 时机就是一切

最后的魔法发生在生成视频时。扩散模型分步骤生成图像 (例如 50 步) ,从纯噪声变为清晰图像。

研究人员观察到,扩散的早期步骤决定了高级结构和运动轨迹 (长期规划) ,而后期步骤则细化细节和外观 (主体一致性) 。

因此,他们采用了一种时间依赖的切换策略:

生成过程中的时间依赖模型切换公式。

  • 步骤 \(T\) 到 \(T-K\) (早期) : 使用动态模型 。 建立大幅度、大胆的动作并遵循文本提示。
  • 步骤 \(T-K\) 到 \(0\) (后期) : 切换到一致性模型 。 细化像素,确保汽车看起来像汽车,背景保持连贯。

实验结果

这种复杂的合并和切换真的值得吗?结果非常明显。

定量基准测试

作者在 VBench 上测试了他们的方法,这是一个全面的视频生成基准测试。

表 1: VBench 上的定量结果。与基线相比,本文方法 (底部几行) 在运动程度上有巨大提升。

Table 1 中,请看“Motion Degree (运动程度) ”一列。

  • 基础模型( DynamiCrafter )得分为 68.54
  • 标准微调( Naive FT )将此分数降至 11.67 (即“静态”问题) 。
  • 本文提出的方法( Ours )将分数飙升至 87.64

关键在于,这种运动的增加并没有破坏视频质量。“Video Quality (视频质量) ”和“Subject Consistency (主体一致性) ”的得分与最先进的模型相比具有竞争力,甚至更好。

视觉分析

数据得到了视觉效果的支持。在 Figure 4 中,作者比较了生成的帧及其光流 (运动的可视化) 。

图 4: 视觉对比。底排 (光流) 显示本文方法拥有明显更鲜艳的颜色,表明比竞品有更大的运动幅度。

  • ConsistI2VDynamiCrafter 显示出非常微弱的光流 (底排较暗的图像) ,表明几乎没有运动。
  • Ours 显示出明亮、多彩的光流图,证明像素实际上正在屏幕上移动以创造真正的运动。

我们可以在 Figure 7 中看到模型处理的各种场景,从自然流体 (波浪) 到刚体 (汽车) 。

图 7: 生成的视频示例,包括海滩上的人、破碎的海浪、狗和行驶的汽车。

用户偏好

在生成式 AI 中,主观指标很重要。研究人员进行了一项用户研究,将其输出与 SVD (Stable Video Diffusion) 和 VideoCrafter 等主要竞争对手进行了比较。

图 3: 显示人类评估的条形图。本文方法在运动程度和运动控制方面显著胜出。

Figure 3 所示,用户在运动程度运动控制方面压倒性地偏好本文提出的方法 (Ours) 。虽然“视频质量”在顶级模型之间往往难分高下,但实际移动物体的能力才是该框架大放异彩的地方。

消融实验: 我们需要所有三个阶段吗?

你可能会想,我们要不要直接跳过复杂的解耦步骤,只使用外推模型?

表 3: 消融研究。仅使用外推法增加了运动程度但损害了一致性。完整的流程平衡了所有指标。

Table 3 回答了这个问题。

  • 仅适应 (Adaptation only) : 一致性很好,运动很糟糕。
  • 仅外推 (Extrapolation only) : 运动巨大 (98.21) ,但“运动控制”显著下降 (17.63) 。视频动了,但不是按照你要求的方式。
  • 完整流程: 平衡了高运动 (87.64) 和高控制 (43.87) 。

结论与未来启示

论文《Extrapolating and Decoupling Image-to-Video Generation Models》为 AI 从业者提供了一个令人信服的教训: 更好的性能并不总是需要更多的训练数据。

通过理解扩散过程的内部机制——特别是语义控制与运动幅度之间的权衡——研究人员能够利用模型合并来设计出更好的结果。他们将神经网络权重视为积木,将“运动”积木与“外观”积木分开,并动态地重新组装它们。

这种方法不仅解决了静态 AI 视频的具体问题,也为更模块化的生成模型打开了大门。想象一下未来,我们可以将“电影摄影合并包”插入通用的视频模型中以获得更好的摄像机角度,而无需重新训练骨干网络。

对于学生和研究人员来说,这个框架凸显了训练后操纵 (post-training manipulations) 的力量。有时,你寻找的能力已经存在于模型内部——你只需要执行正确的算术运算将它们释放出来。