视频修复是一个带有现代色彩的经典计算机视觉问题。我们都有这样的视频素材——无论是家庭老电影、低质量的流媒体视频,还是人工智能生成的片段——它们往往受困于模糊、噪点或低分辨率。 通用视频修复 (Generic Video Restoration, VR) 的目标就是接收这些低质量 (LQ) 的输入并重构出高质量 (HQ) 的输出,恢复那些似乎因时间流逝或压缩而丢失的细节。

最近,扩散模型彻底改变了这一领域。通过将修复视为一种生成任务,它们可以生成传统方法会模糊处理的逼真纹理。然而,这种能力伴随着高昂的代价: 计算成本

大多数基于扩散的视频模型都受限于其训练时的分辨率。为了处理高分辨率或长视频,它们依赖于“基于图块的采样 (patch-based sampling) ”——即将视频切割成重叠的图块,分别进行处理,然后再拼接回去。这种方法极其缓慢。例如,现有的最先进模型如 VEnhancer,在处理高清分辨率下仅 1 秒的视频时,可能需要耗时超过 6 分钟。

SeedVR 应运而生。

在一篇题为 “SeedVR: Seeding Infinity in Diffusion Transformer Toward Generic Video Restoration” 的新论文中,研究人员提出了一种能够打破这些障碍的新颖架构。SeedVR 是一种扩散 Transformer (DiT) ,旨在处理任意长度和分辨率的视频,且无需缓慢的重叠图块处理。

图 1. 速度与性能对比。SeedVR 展示了令人印象深刻的修复能力,提供了精细的细节和增强的视觉真实感。尽管拥有 24.8 亿参数,SeedVR 的速度仍比现有的基于扩散的视频修复方法快 2 倍以上。

如图 1 所示,SeedVR 达到了一个“最佳平衡点”: 它在感知质量指标 (DOVER) 上得分最高,同时保持的推理速度比参数量少得多的模型还要快。在这篇文章中,我们将剖析 SeedVR 如何通过重新设计注意力机制和视频自编码器来实现这一目标。


核心问题: 为什么视频修复如此缓慢?

要理解 SeedVR 的贡献,我们首先需要了解当前扩散模型的瓶颈。

大多数现代生成模型使用的是一种称为 U-Net 的架构,或者最近流行的 扩散 Transformer (DiT) 。 这些架构严重依赖 自注意力 (Self-Attention) 机制,该机制允许模型查看视频帧中的每一个像素以理解上下文。

问题在于,标准的“全注意力 (Full Attention) ”具有二次复杂度。如果你将分辨率加倍,计算成本不仅仅是加倍;它会翻四倍 (甚至更多) 。因此,模型通常是在固定的、较小的裁剪尺寸上 (例如 \(256 \times 256\) 或 \(512 \times 512\)) 进行训练的。

当你尝试在现实世界的 \(1080p\) 视频上使用这些模型时,你无法一次性输入整个帧——这会耗尽 GPU 显存。行业标准的解决方案是 平铺采样 (Tiled Sampling) :

  1. 将大视频切割成小的重叠立方体 (图块) 。
  2. 分别处理每个立方体。
  3. 将它们混合在一起。

为了避免立方体之间出现可见的接缝,你需要很大的重叠区域 (通常是 50%) 。这意味着你要多次处理相同的像素,从而大大降低了推理速度。


解决方案: SeedVR 架构

SeedVR背后的研究人员采取了不同的方法。他们没有使用全注意力 (限制分辨率) 或平铺采样 (限制速度) ,而是重新设计了网络的基础构建模块。

该架构包含两个主要的创新点:

  1. Swin-MMDiT: 一种使用“移位窗口 (Shifted Window) ”注意力的 Transformer 块,用于处理任意分辨率。
  2. 因果视频 VAE (Causal Video VAE) : 一种专用的自编码器,比以往的方法能更有效地压缩视频。

让我们逐一拆解。

1. Swin-MMDiT: 用窗口处理无限

SeedVR 的骨干是 MMDiT (多模态扩散 Transformer) ,这是一种由 Stable Diffusion 3 推广的架构。它同时处理视觉数据和文本提示 (说明文字) 。

然而,标准的 MMDiT 使用全注意力。SeedVR 将其替换为 窗口注意力 (Window Attention)

窗口概念

模型不再计算整个视频帧的注意力 (这很昂贵) ,而是将视频特征划分为不重叠的窗口。注意力计算在每个窗口内进行。这使得复杂度从二次方 (相对于总图像大小) 变为线性,无论分辨率如何,速度都非常快。

但这有一个问题: 如果窗口之间从不交互,模型就无法看到“大局”,从而导致块状伪影。

“移位”机制

为了解决这个问题,SeedVR 采用了一种受 Swin Transformer 启发的策略: 移位窗口 (Shifted Windows)

  • 第 N 层: 图像被划分为规则的网格窗口。
  • 第 N+1 层: 网格向右下移动半个窗口大小。

这种移位确保了一层中位于窗口边缘的像素在下一层中变成窗口的中心,从而允许信息在多个层上跨越整个图像进行传播。

图 2. SeedVR 的模型架构和 Swin-MMDiT 的细节。我们的方法在 transformer 块中引入了移位窗口机制,绕过了普通注意力的分辨率限制。

播种无限: 大窗口与 RoPE

如图 2 所示,SeedVR 对标准的 Swin 设计进行了两个关键调整,使其适应生成视频:

  1. 巨大的窗口: 标准图像分类器通常使用小窗口 (例如 \(8 \times 8\)) ,而 SeedVR 在潜空间中使用 \(64 \times 64\) 的巨大窗口尺寸。这提供了巨大的感受野,使模型能够在不需要全局注意力的情况下生成连贯的纹理和结构。
  2. 3D 旋转位置编码 (RoPE) : 当处理任意大小的视频时,边界处的窗口并不总是完美的 \(64 \times 64\) 正方形 (例如 \(1080p\) 帧的边缘) 。标准的可学习位置编码在这里会失效,因为它们期望固定的大小。SeedVR 使用 RoPE,它基于旋转在数学上编码位置。这使得模型能够自然地处理边缘处的“可变大小窗口”,从而能够在不进行填充或裁剪的情况下处理任何分辨率。

2. 因果视频 VAE: 压缩时间与空间

在视频到达 Swin-MMDiT 之前,必须对其进行压缩。扩散模型在“潜空间 (latent space) ”——即视频的压缩表示——中运行以节省内存。

现有的方法通常采用针对图像训练的可变自编码器 (VAE,如 Stable Diffusion VAE) ,并将其“膨胀 (inflate) ”以处理视频。这是低效的,因为它不能有效地压缩时间维度。

SeedVR 引入了一个从头开始训练的 因果视频 VAE (Causal Video VAE)

图 3. 因果视频自编码器的模型架构。与简单地膨胀现有图像自编码器不同,我们重新设计了具有时空压缩能力的因果视频 VAE。

为什么是“因果”?

“因果”意味着模型在生成当前帧时只查看过去的帧,从不查看未来。这使得模型可以通过逐块处理来处理无限长度的视频,而无需知道视频何时结束。

时间压缩

如图 3 所示,该 VAE 不仅在空间上压缩 8 倍 (图像的标准做法) ,还在 时间上压缩 4 倍 。 这意味着 4 帧的序列被压缩成单个潜在表示。

通过将主扩散 Transformer 需要处理的数据量减少 4 倍,SeedVR 实现了显著的速度提升。

这个新 VAE 的性能是实质性的。看下面的比较 (表 2) ,SeedVR VAE 实现了最低的 rFVD (重构 Fréchet 视频距离) ,这是一个衡量重构视频与原始视频匹配程度的指标。

表 2. VAE 模型的定量比较。最佳和次佳性能分别标记为红色和橙色。


大规模训练策略

构建架构只是成功的一半。训练一个用于视频修复的 24.8 亿参数模型需要复杂的数据策略。

图像与视频混合训练

仅在视频上进行训练计算成本高昂,且与图像相比数据稀缺。SeedVR 训练于一个庞大的数据集,包含:

  • 1000 万张图像: 提供纹理和物体的多样性。
  • 500 万个视频: 提供运动动态。

由于 Swin-MMDiT 使用窗口注意力,它可以在训练期间无缝地在处理静态图像 (将其视为 1 帧视频) 和实际视频片段之间切换。

预计算潜变量

将高分辨率视频编码到潜空间需要时间。如果在训练期间进行,GPU 将花费一半的时间仅仅用于压缩视频,而不是学习扩散。研究人员预先计算了数据集的潜在表示和文本嵌入,从而实现了 4 倍的训练加速

渐进式训练

模型不是立即在全分辨率视频上进行训练,而是渐进式地训练:

  1. 从短的低分辨率片段开始 (\(5 \text{ frames} \times 256 \times 256\)) 。
  2. 过渡到中等片段 (\(9 \text{ frames} \times 512 \times 512\)) 。
  3. 最后是长的高分辨率片段 (\(21 \text{ frames} \times 768 \times 768\)) 。

这种课程学习方式使模型能够在处理精细细节之前快速学习基本概念。


实验结果

SeedVR 与竞争对手相比表现如何?研究人员在多个基准上测试了该模型,包括合成数据集 (人为添加退化) 和真实世界数据集 (具有自然低质量的视频) 。

定量分析

下表总结了结果。SeedVR 在几乎所有数据集上都取得了最高的 DOVERLPIPS 得分。

  • LPIPS (越低越好) : 衡量感知相似度。低分意味着修复结果在人眼看来像真实画面。
  • DOVER (越高越好) : 一个专门设计用于评估视频美学质量的指标。

表 1. 来自不同来源的 VSR 基准测试的定量比较。最佳和次佳性能分别标记为红色和橙色。

值得注意的是,对于像 PSNR (峰值信噪比) 这样的指标,SeedVR 具有竞争力,但并不总是赢家。这对于生成模型来说很典型;PSNR 偏向于模糊的平均值,而不是清晰的、生成的细节。由于 SeedVR 的目标是生成逼真的纹理,因此像 DOVER 这样的感知指标更为相关。

视觉质量

数字看起来不错,但视觉证据更具说服力。在下面的对比中,请观察 建筑物的窗户 (第一行) 和 熊猫的鼻子 (第三行) 。

图 4. 真实世界视频的定性比较。我们的 SeedVR 能够生成逼真的细节。

  • Bicubic/ResShift: 往往使图像模糊或像素化。
  • SeedVR: 生成看似合理且清晰的细节。熊猫的皮毛和建筑物的几何线条都得到了高保真的恢复。

效率

最令人印象深刻的数据可能来自窗口注意力机制带来的效率提升。

研究人员分析了不同窗口大小下的训练效率 (表 3) 。使用较大的窗口 (\(64 \times 64\)) 实际上比使用小窗口 (\(8 \times 8\)) 更快

表 3. 不同窗口大小下的训练效率 (秒/迭代) 。

为什么?因为在 MMDiT 中,文本嵌入会与视觉窗口进行交互。如果你有很多小窗口,你就必须多次复制文本交互。较大的窗口意味着总窗口数较少,从而减少了开销并加快了处理速度 (每迭代 20.29 秒 vs 345.78 秒) 。


结论

SeedVR 代表了生成式视频修复领域迈出的重要一步。通过抛弃全注意力的限制,并结合 移位窗口注意力 与高效的 因果视频 VAE , 它解决了视频修复的“不可能三角”: 它同时实现了高分辨率、任意长度和快速推理。

对于学生和研究人员来说,SeedVR 展示了深度学习系统设计中的重要一课: 简单地扩展现有架构 (如标准 U-Net) 往往会遇到瓶颈。有时,你需要重新设计模型处理数据的机制——在本例中,是从全局注意力切换到窗口注意力——才能解锁更高层次的性能。

其结果是一个“播种无限”的模型,理论上能够修复任何长度的视频,为旧媒体注入新的生命。