引言

在过去几年中,生成式视频领域的竞赛一直是人工智能领域最令人兴奋的发展之一。虽然扩散模型已成为生成惊艳静态图像的标准,但将其应用于视频——增加了时间维度——带来了巨大的计算瓶颈和稳定性问题。

大多数当前的视频模型将视频生成视为图像生成的扩展,通常是将空间和时间注意力模块拼凑在一起。然而,来自香港大学和字节跳动的研究人员推出了一位强有力的新竞争者。这个名为 Goku 的模型家族提出了一种统一的、工业级的解决方案,可以在单一框架内同时处理图像和视频。

Goku 有什么特别之处?它摒弃了主导该领域的传统去噪扩散概率模型 (DDPM) ,转而采用 Rectified Flow Transformer 。 通过将海量、精选的数据集与一种简化从噪声到数据路径的数学公式相结合,Goku 在 VBench 和 GenEval 等主要基准测试中取得了最先进的结果。

在这篇文章中,我们将拆解 Goku 的架构。我们将探索它如何处理数据,为什么要用“流 (Flow) ”取代标准的扩散,以及它如何在训练数十亿参数的同时避免内存溢出。

背景: 为什么要改变现状?

要理解 Goku,我们首先需要了解当前现状的局限性。

标准的潜在扩散模型 (Latent Diffusion Models) 通过逐渐去除噪声来生成数据。想象一个喝醉的人试图走回家;他们可能会走一条蜿蜒、低效的路径。用数学术语来说,扩散模型通常需要许多采样步骤才能从噪声中解析出图像或视频,因为从噪声分布到数据分布的“轨迹”是弯曲且复杂的。

此外,训练模型同时理解运动 (视频) 和语义 (图像) 是困难的。许多模型先在图像上训练,然后“膨胀”到视频,通常将这两种模态视为分开的阶段。Goku 主张采用联合方法——将图像和视频视为同一视觉数据的不同表达形式——并结合更直直、更直接的生成路径 (Rectified Flow) ,这是实现更高质量和效率的关键。

Goku 流水线: 从数据到生成

Goku 框架建立在三大支柱之上: 严格的数据处理流水线、统一的模型架构和 Rectified Flow 公式。

1. 数据处理流水线

生成模型的优劣取决于它所看到的数据。Goku 背后的研究人员强调,原始的互联网数据不足以满足工业级性能的需求。他们构建了一个庞大的流水线来过滤、打标 (Captioning) 和平衡训练集,最终得到了约 1.6 亿对图像-文本和 3600 万对视频-文本。

Goku 中的数据处理流水线。面对从互联网收集的大量视频/图像数据,我们通过一系列数据过滤、打标和平衡步骤,生成高质量的视频/图像-文本对。

如上图所示,该流水线就像一个漏斗:

  1. 收集与提取: 收集原始视频并将其分割成片段。
  2. 过滤: 这是最关键的一步。系统基于以下标准进行过滤:
  • 美学 (Aesthetics) : 使用评分模型仅保留视觉上吸引人的内容。
  • 运动 (Motion) : 使用光流法丢弃静态视频或混乱、抖动的镜头。
  • OCR: 移除包含过多文本 (如覆盖层或演职员表) 的视频。
  1. 打标 (Captioning) : 好的描述驱动好的生成。Goku 使用多模态大语言模型 (MLLM) 为视频生成密集的、描述性的标题,不仅描述场景,还描述摄像机的运动 (例如,“向右平移”、“推近”) 。
  2. 平衡: 互联网视频的原始分布严重倾斜。为了防止模型只学会生成常见类别 (如“人在说话”) ,数据在语义上进行了平衡,以确保稀有概念 (如特定的运动或动物) 得到体现。

子类别的平衡语义分布。图 3 | 训练数据分布。主要类别和子类别的平衡语义分布分别显示在 (a) 和 (b) 中。

2. 核心架构

Goku 不仅仅是一个模型,而是一个参数量最高可达 80 亿的 Transformer 家族。它采用了一个 图像-视频联合变分自编码器 (Joint Image-Video VAE)

压缩视觉世界

视频的数据量很大。为了高效训练,Goku 将原始像素压缩成“潜在空间”——一种压缩的数值表示。

  • 对于图像: 它压缩空间维度。
  • 对于视频: 它压缩空间维度 (\(H \times W\)) 和时间维度 (\(T\))。

这种 3D-VAE 允许模型将视频片段作为一系列 Token 进行处理,类似于 LLM 处理单词句子的方式。

Transformer 主干

一旦视觉数据被压缩成 Token,它就被送入 Transformer。Goku 引入了几项架构调整来处理视频的复杂性:

  • 全注意力机制 (Full Attention) : Goku 不再区分“空间注意力” (关注单帧) 和“时间注意力” (关注跨帧) ,而是使用全注意力。这使得模型能够理解复杂的运动,即物体的位置和形状同时发生变化。
  • Patch n’ Pack (分块打包) : 为了在同一批次中处理不同长度和分辨率的视频,Goku 将序列“打包”在一起。这最大限度地减少了在填充 Token 上浪费的计算。
  • 3D RoPE (旋转位置编码) : 这有助于模型理解 Token 在空间 (X, Y) 和时间 (T) 中的位置。

表 1 | Goku 模型的架构配置。Goku-1B 模型仅用于第 2.3 节的初步实验。

3. Rectified Flow: 数学引擎

这是 Goku 最独特的特征。它没有使用标准的扩散,而是使用了 Rectified Flow (RF)

Rectified Flow 的核心思想是用一条 直线 连接噪声分布 (起点) 和数据分布 (终点) 。

训练目标基于线性插值。如果 \(x_1\) 是你的真实图像/视频,而 \(x_0\) 是纯噪声,模型将学习预测沿着由下式定义的路径从 \(x_0\) 移动到 \(x_1\) 所需的“速度”:

\[ { \bf x } _ { t } = t \cdot { \bf x } _ { 1 } + \left( 1 - t \right) \cdot { \bf x } _ { 0 } , \]

显示 Rectified Flow 中使用的线性插值公式的方程。

为什么这很重要? 通过强制路径为直线,模型需要学习的“速度”是恒定的。与扩散模型的弯曲路径相比,这显着简化了学习过程。

研究人员在初步实验中证明了这种效率。如下表所示,Rectified Flow 版本的模型比标准 DDPM 版本收敛得更快,并且以显著更少的训练步数 (400k vs 1000k) 实现了更好的 FID (视觉质量) 分数。

表 2 | ImageNet 256x256 上类别条件生成的概念验证实验。Rectified flow 相比 DDPM 实现了更快的收敛。

训练策略: 多阶段方法

你不能简单地把 3600 万个视频扔给一个 80 亿参数的模型并期望它能工作。Goku 采用多阶段训练策略:

  1. 文本-语义配对: 模型首先在文本到图像任务上进行训练。这建立了对视觉概念的强大理解 (什么是“猫”?什么是“跑步”?) 。
  2. 联合学习: 模型同时在图像和视频上进行训练。图像被视为单帧视频。这可以防止模型在学习运动的同时遗忘高质量的静态细节。
  3. 级联分辨率: 训练从低分辨率 (\(288 \times 512\)) 开始,以学习一般的构图和运动,然后扩展到高分辨率 (\(720 \times 1280\)) 以细化细节。

实验结果

这种复杂的流水线和新数学方法真的能带来更好的视频吗?基准测试表明是的。

文本生成图像性能

尽管 Goku 是一个以视频为核心的模型,但其联合训练使其成为一个出色的图像生成器。在 GenEvalDPG-Bench 基准测试 (测试模型遵循复杂文本提示的能力) 中,Goku 优于 DALL-E 2 和 SDXL 等主要竞争对手。

表 5 | 与最先进模型在图像生成基准上的比较。我们在 GenEval (Ghosh et al., 2024)、T2I-CompBench (Huang et al., 2023) 和 DPGBench (Hu et al., 2024) 上进行了评估。遵循 (Wang et al., 2024b),我们使用 † 表示经过提示词重写后的结果。

从定性上看,该模型显示出强大的纹理和复杂物体交互的渲染能力,如下面的样本输出所示:

图 7 | Goku-T2I 的定性样本。关键词以红色高亮显示。

文本生成视频性能

然而,主要目标是视频。在 VBench 上 (这是一套评估视频生成在“运动平滑度”和“人类动作”等维度的综合套件) ,Goku 占据了排行榜的榜首位置。

表 7 | 与领先 T2V 模型在 VBench 上的比较。Goku 实现了最先进的整体性能。所有 16 个评估维度的详细结果见附录中的表 8。

视觉对比突出了差异。在下面的比较中,模型被要求生成一个冲浪者。虽然许多模型在处理海浪的物理特性或冲浪者身体的一致性方面很吃力,但 Goku (底行) 在整个片段中保持了连贯的人物形象和逼真的水体动态。

图 11 | Goku-T2V 与最先进 (SOTA) 视频生成方法的定性比较。关键词以红色高亮显示。

同样,在涉及无人机和珊瑚礁的复杂水下场景中,Goku 展示了卓越的时间稳定性——这意味着随着摄像机的移动,背景不会闪烁或发生怪异的变形。

图 6 | 与最先进 (SoTA) 视频生成方法的定性比较。该图展示了与领先模型的比较…

消融实验: 规模和联合训练重要吗?

研究人员进行了“消融研究”来验证他们的设计选择。

  1. 规模扩展: 他们比较了 2B 参数模型与 8B 模型。8B 模型显示出明显更好的结构完整性 (四肢不会消失,物体保持稳固) 。
  2. 联合训练: 他们测试了仅在视频上训练与在视频+图像上训练的区别。联合训练方法产生了更高的照片级真实感,因为高质量的图像数据有助于“教导”视频模型关于纹理和光照的知识。

图 5 | 模型规模扩展和联合训练的消融研究。图 (a) 显示了 Goku-T2V(2B) 和 Goku-T2V(8B) 之间的比较。图 (b) 显示了是否采用联合训练的比较。

超越文本生成视频: 图像生成视频 (图生视频)

对于创意专业人士来说,一个至关重要的功能是 图生视频 (I2V)——根据提示词将静态图像动画化。

Goku 通过将输入图像视为视频潜在序列的第一帧来适应这一点。因为该模型是在图像和视频上联合训练的,它自然地理解如何将静态帧在时间上进行延展。

结果令人印象深刻。无论是让溅起的水花动起来,还是让咖啡杯里航行的海盗船动起来,模型都尊重初始图像的内容,同时增加了合理的运动。

图 12 | Goku-I2V 的定性样本。关键词以红色高亮显示。

结论

Goku 代表了生成式媒体向前迈出的重要一步。它超越了早期视频生成的试错阶段,进入了一种更严谨、更工程化的方法。通过将 Rectified Flow 的理论效率与 图像-视频联合训练 的实践鲁棒性相结合,它解决了该领域的几个关键问题:

  1. 收敛速度: Flow matching 比扩散学习得更快。
  2. 连贯性: 联合训练确保了单帧的高保真度和跨时间的平滑过渡。
  3. 规模: 基础设施支持在高分辨率数据上训练大规模的 8B 参数模型。

对于学生和研究人员来说,Goku 为下一代基础模型提供了一张蓝图: 不要只是增加更多数据;修正底层的数学公式 (Flow vs. Diffusion) 并统一模态 (图像 + 视频) ,以实现更智能、更高效的学习。