人工智能视频生成领域正以闪电般的速度发展。像 OpenAI 的 Sora、谷歌的 Veo 等模型正不断产出逼真到令人惊叹的视频片段,常常模糊了合成内容与真实内容之间的界限。然而,尽管这些最先进的系统功能强大,但大多存在一个令人沮丧的局限: 它们只能创建短视频——通常上限为 5 到 10 秒。
这是为什么呢?赋予它们强大能力的架构——扩散变换器 (Diffusion Transformer, DiT) ——同时也是它们的阿喀琉斯之踵。一次性生成整个视频的计算量极为庞大,并且成本会随着视频长度呈指数级增长。这就像试图将整本小说一次性写完: 理论上可能,但现实中极其不切实际。
一个巧妙的替代方案是自回归生成视频——一次生成一小段,并基于之前生成的内容继续。这种方法的可扩展性更好。但它也引入了一个隐蔽的问题:** 误差累积**。一小段中的微小瑕疵会传播到下一段,持续累加,最终导致视频出现闪烁、过曝,甚至整个画面冻结。
这正是新论文 《Self-Forcing++: 迈向分钟级高质量视频生成》 的切入点。作者提出了一种简单却极为有效的方法来抑制这种误差级联。通过教会视频模型修复自己的错误,他们使其能够生成高质量、连贯的视频,时长不再是几秒,而是延长至数分钟。
下面让我们来看一看他们是如何做到的。
图 1: Self-Forcing++ 能够生成惊人长度的视频,例如这个飞机飞越雪山的四分钟序列。右侧的图表显示了它相比其他方法在一致性和运动动态方面的优越性。
挑战: 弥合训练与推理之间的鸿沟
要理解 Self-Forcing++ 的飞跃,你需要了解它解决的一个根本性错配问题——即自回归视频模型在训练方式与**推理 **(实际使用) 方式之间的不匹配。
大多数现代系统依赖于教师–学生蒸馏过程。一个庞大而强大的“教师”模型 (一次性生成所有帧) 用于训练一个更小、更快的“学生”模型,后者以自回归方式生成视频。
但这个教师模型本身也有局限——它是在短视频片段 (通常 5 秒) 上训练的,并且只能为该长度的序列提供高质量指导。
这导致了两个问题:
- 时间错配: 学生模型只在 5 秒的片段上进行训练,但在推理时却被要求生成更长的视频——30 秒、60 秒、120 秒——这些在训练中它从未见过。
- 监督错配: 在训练中,学生模型每一帧都能从教师获得完美指导;而在推理中,没有教师介入——因此,初始的一个小错误就可能级联成严重的伪影。以 Self-Forcing 为代表的先前方法虽改善了短视频生成,但仍受限于教师的 5 秒视野,生成长序列时会出现画面静止或变暗。
Self-Forcing++ 的关键洞见在于:
如果我们能在训练中故意让学生犯错——然后利用教师告诉它如何恢复,会怎么样?
核心方法: 从错误中学习
Self-Forcing++ 引入了一个专门设计来解决训练–测试鸿沟的训练循环。它不再只依赖教师的完美 5 秒片段,而是让学生先生成有瑕疵的长视频,再由教师对其中片段进行纠正。
如下图所示,该训练过程包含几个关键步骤。
图 2: 在 Self-Forcing++ 中,学生生成一个长的“自我展开” (self-rollout) ,从中采样短窗口供教师纠正。这教会学生如何在长序列中从误差累积中恢复。
第 1 步: 长序列展开 (Long Rollouts)
学生模型被要求生成长视频——例如 100 秒。这类视频不可避免地随时间退化: 运动停滞、色彩漂移、结构扭曲。研究人员没有回避这些缺陷,反而将它们当作理想的反面教材。
第 2 步: 反向噪声初始化
要让教师参与,我们需要从这些有缺陷的视频中截取一个片段,并生成其带噪声版本,因为扩散模型从噪声开始去噪。但直接加随机噪声会破坏时间连贯性。
Self-Forcing++ 的做法是利用原始的扩散噪声调度,将噪声反向注入到干净帧中:
\[ x_t = (1 - \sigma_t)x_0 + \sigma_t \epsilon_t, \quad \text{where } x_0 = x_{t-1} - \sigma_{t-1} \hat{\epsilon}_{\theta}(x_{t-1}, t-1) \]其中:
- \(x_0\) 为来自学生展开结果的干净帧,
- \(\epsilon_t\) 为高斯噪声,
- \(\sigma_t\) 控制噪声量。
这种方法既保留了片段的时间基准,又使其具有足够的噪声,方便教师进行纠正。
第 3 步: 扩展分布匹配蒸馏 (Extended DMD)
算法从长序列展开 (\(N\) 帧) 中采样一个短窗口 (\(K\),例如 5 秒) 。学生和教师都对这个窗口进行去噪。
教师作为短时域去噪的专家,会生成高质量的修正版。再使用 KL 散度损失将学生的输出与教师的结果对比。这一滑动窗口训练会在不同起点反复进行,从而教会学生在长视频的任意时间点实现恢复。
数学表达式为:
\[ \nabla_{\theta} \mathcal{L}_{\text{extended}} \approx - \mathbb{E}_{t} \mathbb{E}_{i \sim \text{Unif}(1,\dots,N-K+1)} \left[ \int \left( s^{T} - s_{\theta}^{S} \right) \frac{dG_{\theta}(z_{i})}{d\theta} \, dz_{i} \right] \]第 4 步: 滚动 KV 缓存
Transformer 通过“KV 缓存”存储过往帧的表示,以避免重复计算。对于长视频,缓存应当是滚动的——新帧到来时丢弃最旧的帧。
早期方法在训练中用固定缓存,但在生成中使用滚动缓存,这会导致不匹配及视觉伪影。Self-Forcing++ 在训练和生成中统一使用滚动 KV 缓存,彻底解决此问题。
重新思考长视频评估
Self-Forcing++ 同样改进了长视频的评估方式。
图 3: VBench 可能为退化或过曝帧打高分,因此在长视频评估中并不可靠。
常用的评测基准 VBench 采用了偏向过曝的旧版评分模型。作者提出了视觉稳定性 (Visual Stability) ——一种利用现代多模态模型 Gemini-2.5-Pro 检测过曝与退化的指标,评分范围为 0–100。
结果: 超越竞争对手
在长视频生成 (50 秒、75 秒、100 秒) 的测试中,Self-Forcing++ 均以大幅优势击败所有基线模型。
表 1: 在 50 秒视频测试中,Self-Forcing++ (“Ours”) 在动态度 (运动持久性) 和视觉稳定性上相比基线取得巨大提升。
表 2: 在 75 秒和 100 秒视频上,基线模型出现崩溃或质量退化;Self-Forcing++ 则保持了高度的运动性和稳定性。
定性比较
图 4: 在 100 秒的珊瑚礁场景中,基线模型出现过曝和细节丢失,Self-Forcing++ 在全程保持了鲜艳色彩与结构清晰度。
扩展的力量
一个特别值得关注的结果:** 扩展训练算力可以直接延长视频生成时长**——而无需长视频数据集。
图 6: 增加训练预算可提升生成稳定性。在 25×预算下,模型生成了一个 255 秒 (4 分 15 秒) 的连贯视频——比基线长 50 倍。
在标准 (1×) 预算下,视频很快崩溃;在 8× 和 20× 预算下,运动一致性和细节延续;在 25× 预算下,模型生成了一个稳定、高保真的大象视频,长达 255 秒——几乎达到基础模型位置嵌入可支持的上限。
结论: 迈向真正的长形式 AI 视频
Self-Forcing++ 巧妙地弥合了自回归视频模型的训练–推理鸿沟。通过让学生在生成过程中面对并修复自身错误,并在短时域教师指导下,它实现了分钟级的稳定生成,且无需长视频训练数据。
核心要点:
- 恢复训练至关重要: 模型必须学会纠正累积误差,才能保证长时间稳定性。
- 短视频教师亦可培养长视频学生: 在采样的退化窗口上进行教师指导,就足以显著拓展生成时长。
- 算力扩展有效: 更多计算资源可在无需新数据集的情况下生成更长、更优的视频。
这是迈向能够生成不仅仅是短暂片段,而是完整、连贯场景与叙事的 AI 的关键一步。尽管长期记忆和训练效率等挑战依然存在,Self-Forcing++ 已为下一代长形式视频生成奠定了坚实基础。