图生视频 (Image-to-Video, I2V) 生成是计算机视觉领域最令人兴奋的前沿方向之一。它的前提充满魔力: 拍摄一张静止的照片——无论是路上的汽车、草地上的狗,还是山丘上的城堡——并为其注入生命。你希望汽车行驶,狗打滚,摄像机从城堡拉远。
然而,如果你体验过目前的 I2V 扩散模型,你可能已经遇到过令人沮丧的现实。通常,“视频”仅仅是输入图像的轻微晃动,或者是一种看起来更像 2D 缩放而非 3D 摄像机运动的“变焦”效果。反之,如果模型确实生成了运动,它往往又会完全忽略你的文本提示词,产生与你要求毫无关系的混乱动作。
为什么这如此困难?挑战在于外观保持 (让汽车看起来还是那辆特定的汽车) 与运动生成 (让像素随时间发生显著变化) 之间的拉锯战。
在一篇引人入胜的新论文《Extrapolating and Decoupling Image-to-Video Generation Models》 (图生视频生成模型的外推与解耦) 中,研究人员提出了一种无需从头开始训练庞大新模型的解决方案。相反,他们引入了一个巧妙的框架,利用模型合并 (Model Merging) ——一种借用自自然语言处理 (NLP) 的技术——来精确地分离并增强运动能力。
让我们深入了解他们是如何做到这一点的,以及为什么这可能会改变我们构建视频生成器的方式。
问题: “静态”视频陷阱
当前最先进的模型通常会在两个方面失败:
- 运动程度有限: 视频几乎算不上视频,看起来像个静态 GIF。
- 可控性差: 你输入“向左平移”,但摄像机却在变焦或保持静止。
这种情况的发生是因为模型通常过度依赖第一帧。它们非常害怕“幻觉”出新的细节,以至于紧紧抓住输入图像,导致运动极小。

如上图 Figure 1 所示,先前的方法 (标记为“Prior”) 通常输出几乎相同的帧,无论提示词是什么。在上排中,汽车几乎没动。在下排中,提示词要求“zoom out (拉远) ”,但画面保持固定。然而,本文提出的方法 (标记为“Ours”) 成功生成了移动汽车后的扬尘,并创造了真实的摄像机变焦效果。
解决方案: 三阶段框架
为了解决这个问题,研究人员并没有只是训练一个更大的模型。他们设计了一个三阶段的流程,旨在将“运动”与“外观”解耦。
该框架称为外推与解耦 (Extrapolating and Decoupling) 。 它的核心洞察是: 神经网络的不同部分处理不同的任务,通过代数运算操纵模型权重,我们可以增强特定的能力。

如 Figure 2 所示,该过程包括:
- 适应 (Adaptation) : 教导模型听从文本提示词来进行运动。
- 外推 (Extrapolation) : 使用数学技巧积极地提升运动幅度。
- 解耦 (Decoupling) : 分离这些能力,并在生成过程的适当时机注入它们。
让我们分解这些阶段。
第一阶段: 运动可控性适应
大多数视频扩散模型 (VDMs) 使用 U-Net 架构。它们拥有“空间注意力 (Spatial Attention) ” (理解帧里有什么) 和“时间注意力 (Temporal Attention) ” (理解帧随时间如何关联) 。
许多基础模型 (如本文基于的 DynamiCrafter) 的一个缺陷是,文本提示词通常只被输入到空间层。这意味着模型知道图片里有一只“狗”,但它不一定利用文本来决定狗如何移动。
为了解决这个问题,作者引入了一个轻量级的适配器 (Adapter) 。

他们使用 Q-Former (一种常用于连接图像和文本的组件) 来压缩文本嵌入,并显式地将它们注入到时间注意力模块中。通过仅微调这个适配器和时间权重,他们教导模型利用文本提示词来指导运动。
问题所在: 虽然这提高了控制力 (模型现在理解“向左平移”了) ,但研究人员发现微调实际上减少了整体的运动量。模型变得“小心翼翼”且趋于静态。这种现象被称为“程度消失 (degree vanishment) ”。
第二阶段: 运动程度外推
这可能是论文中最具创新性的部分。我们有一个预训练模型 (\(\theta_{pre}\)) ,它运动不错但控制很差。我们有一个来自第一阶段的微调模型 (\(\theta_{sft}\)) ,它控制很好但运动微小。
如何获得大幅度的运动?作者使用了一种称为任务向量外推 (Task Vector Extrapolation) 的技术。
如果从 预训练 \(\to\) 微调 会减少运动,那么逻辑上,向相反方向移动应该会增加运动。但我们不想回到起点;我们要超越它。
他们使用向量算术定义了一个新的模型状态 \(\theta_{dyn}\):

这里,\(\alpha\) 是一个超参数。通过从预训练权重中减去微调权重 (本质上捕捉了“运动的损失”) ,并将其带有一个乘数加回到预训练模型中,他们积极地“遗忘”了静态行为。
这是一个免训练 (training-free) 的操作。这仅仅是对模型权重的数学运算。
为什么这行得通? 作者提供了基于泰勒展开的理论证明。在不深入微积分细节的情况下,他们证明了只要参数更新与运动程度的梯度方向一致,这种外推在数学上保证能增加运动分数。

结果是一个能产生狂野、大幅度运动的模型。然而,它可能过于狂野,有时会牺牲主体的连贯性。
第三阶段: 解耦与动态注入
现在我们有了拼图的各个部分,但它们分散在不同的模型版本中:
- 运动控制 在适配器参数中。
- 运动程度 (动态) 在外推模型中。
- 主体一致性 在微调模型中保存得最好。
我们需要结合这些最好的部分。作者使用了一种称为 DARE (Drop And REscale) 剪枝的方法。这种技术随机丢弃一定百分比的权重差异 (将其设为零) 并重新缩放其余部分。这有助于隔离特定任务的关键参数,而不带入“噪声”或冲突信息。
他们创建了三组参数:
- \(\theta_{adt}\): 控制参数 (来自适配器) 。
- \(\theta_{deg}\): 程度参数 (从外推模型中提取) 。
- \(\theta_{con}\): 一致性参数 (来自微调模型) 。

利用任务算术 (Task Arithmetic) , 他们将这些参数合并成两个专用模型: 一个针对动态优化 (\(\theta_{dyn}^*\)) ,一个针对一致性优化 (\(\theta_{con}^*\)) 。

采样策略: 时机就是一切
最后的魔法发生在生成视频时。扩散模型分步骤生成图像 (例如 50 步) ,从纯噪声变为清晰图像。
研究人员观察到,扩散的早期步骤决定了高级结构和运动轨迹 (长期规划) ,而后期步骤则细化细节和外观 (主体一致性) 。
因此,他们采用了一种时间依赖的切换策略:

- 步骤 \(T\) 到 \(T-K\) (早期) : 使用动态模型 。 建立大幅度、大胆的动作并遵循文本提示。
- 步骤 \(T-K\) 到 \(0\) (后期) : 切换到一致性模型 。 细化像素,确保汽车看起来像汽车,背景保持连贯。
实验结果
这种复杂的合并和切换真的值得吗?结果非常明显。
定量基准测试
作者在 VBench 上测试了他们的方法,这是一个全面的视频生成基准测试。

在 Table 1 中,请看“Motion Degree (运动程度) ”一列。
- 基础模型( DynamiCrafter )得分为 68.54 。
- 标准微调( Naive FT )将此分数降至 11.67 (即“静态”问题) 。
- 本文提出的方法( Ours )将分数飙升至 87.64 。
关键在于,这种运动的增加并没有破坏视频质量。“Video Quality (视频质量) ”和“Subject Consistency (主体一致性) ”的得分与最先进的模型相比具有竞争力,甚至更好。
视觉分析
数据得到了视觉效果的支持。在 Figure 4 中,作者比较了生成的帧及其光流 (运动的可视化) 。

- ConsistI2V 和 DynamiCrafter 显示出非常微弱的光流 (底排较暗的图像) ,表明几乎没有运动。
- Ours 显示出明亮、多彩的光流图,证明像素实际上正在屏幕上移动以创造真正的运动。
我们可以在 Figure 7 中看到模型处理的各种场景,从自然流体 (波浪) 到刚体 (汽车) 。

用户偏好
在生成式 AI 中,主观指标很重要。研究人员进行了一项用户研究,将其输出与 SVD (Stable Video Diffusion) 和 VideoCrafter 等主要竞争对手进行了比较。

如 Figure 3 所示,用户在运动程度和运动控制方面压倒性地偏好本文提出的方法 (Ours) 。虽然“视频质量”在顶级模型之间往往难分高下,但实际移动物体的能力才是该框架大放异彩的地方。
消融实验: 我们需要所有三个阶段吗?
你可能会想,我们要不要直接跳过复杂的解耦步骤,只使用外推模型?

Table 3 回答了这个问题。
- 仅适应 (Adaptation only) : 一致性很好,运动很糟糕。
- 仅外推 (Extrapolation only) : 运动巨大 (98.21) ,但“运动控制”显著下降 (17.63) 。视频动了,但不是按照你要求的方式。
- 完整流程: 平衡了高运动 (87.64) 和高控制 (43.87) 。
结论与未来启示
论文《Extrapolating and Decoupling Image-to-Video Generation Models》为 AI 从业者提供了一个令人信服的教训: 更好的性能并不总是需要更多的训练数据。
通过理解扩散过程的内部机制——特别是语义控制与运动幅度之间的权衡——研究人员能够利用模型合并来设计出更好的结果。他们将神经网络权重视为积木,将“运动”积木与“外观”积木分开,并动态地重新组装它们。
这种方法不仅解决了静态 AI 视频的具体问题,也为更模块化的生成模型打开了大门。想象一下未来,我们可以将“电影摄影合并包”插入通用的视频模型中以获得更好的摄像机角度,而无需重新训练骨干网络。
对于学生和研究人员来说,这个框架凸显了训练后操纵 (post-training manipulations) 的力量。有时,你寻找的能力已经存在于模型内部——你只需要执行正确的算术运算将它们释放出来。
](https://deep-paper.org/en/paper/2503.00948/images/cover.png)