引言

在生成式 AI 的世界里,自回归 (Autoregressive, AR) 模型是中流砥柱。它们是驱动 ChatGPT 和 Claude 等大型语言模型 (LLMs) 的架构基础。其前提简单而强大: 基于之前的所有内容来预测下一条数据。当应用于文本时,它们一次写一个词。当应用于计算机视觉时,它们一次绘制图像的一个“Token” (图像的压缩块) 。

虽然 AR 模型在视觉生成方面展现出了惊人的潜力——提供了统一的建模能力和出色的可扩展性——但它们遭遇了一个显著的瓶颈: 速度

想象一下加载网页时,每个像素都必须从左上角到右下角逐个顺序加载。这本质上就是标准自回归视觉模型的工作方式。它们遵循“光栅扫描 (raster scan) ”顺序,按严格的顺序预测数百或数千个 Token。这使得它们比 GAN 或某些扩散蒸馏技术慢得多。

但是,如果我们不需要等待呢?如果我们可以在不破坏 AR 模型优势逻辑的前提下,同时预测图像的多个部分呢?

在这篇文章中,我们将深入探讨一篇新的研究论文,该论文提出了并行化自回归视觉生成 (Parallelized Autoregressive Visual Generation, PAR) 。 研究人员引入了一种简单而有效的策略,可以在保持高图像质量的同时,实现比标准方法快 9.5 倍的速度。

问题: 序列化瓶颈

要理解 PAR 的创新之处,我们首先需要了解现有方法的局限性。最先进的自回归视觉模型通常遵循两阶段过程:

  1. Token 化 (Tokenization) : 图像被压缩成离散的 Token 网格 (例如,使用 VQGAN) 。一张 \(256 \times 256\) 的图像可能会变成 \(16 \times 16\) 或 \(24 \times 24\) 的 Token 网格。
  2. 顺序预测 (Sequential Prediction) : Transformer 模型逐个预测这些 Token。要生成一个 \(24 \times 24\) 的网格,模型必须运行 576 个独立的推理步骤。

这种序列化特性保证了一致性。通过基于 Token #1 到 #99 来生成 Token #100,模型确保了图像的合理性。然而,这种序列化在计算上非常昂贵且缓慢。

试图并行化这一过程 (一次猜测多个 Token) 通常会导致质量下降。如果你试图同时猜测两个相邻的像素,而它们实际上彼此“失明”,你最终可能会得到不连贯的图案。

核心洞察: 依赖性与距离

PAR背后的研究人员从一个基本问题开始: 哪些 Token 实际上是相互依赖的?

在语言中,依赖关系可能很复杂且跨度很长。然而在图像中,存在着很强的空间相关性。

  • 强依赖性: 相邻的 Token (邻居) 高度相关。如果一个 Token 代表斑马的条纹,其右侧紧邻的 Token 必须延续该条纹。
  • 弱依赖性: 远距离的 Token 关联性较弱。图像左上角草地的纹理并不决定右下角泥土的具体纹理,只要它们都符合“自然界中的动物”这一全局上下文即可。

朴素并行化的失败

如果我们天真地试图通过并行预测相邻 Token 来加速生成,结果将是灾难性的。因为标准采样 (如 top-k) 引入了随机性,独立预测邻居会导致冲突。

不同并行生成策略的比较,展示了朴素局部并行化的失败。

如上图 Figure 1 所示:

  • 面板 (b) 朴素方法: 当模型尝试同时生成强依赖 Token (邻居) 时,局部模式破裂。注意扭曲的老虎脸和破碎的斑马条纹。因为这些 Token 是独立采样的,它们在局部纹理上无法达成“一致”。
  • 面板 (a) PAR 方法: 研究人员的方法并行生成弱依赖 Token (远距离区域) 。结果是一张连贯、高质量的图像。

可视化熵与依赖性

为了科学地验证这一直觉,作者分析了视觉 Token 的条件熵 (conditional entropy) 。 这里的熵本质上衡量的是不确定性,或者说在已知信息的情况下,一个 Token 提供了多少“新”信息。较低的熵意味着较强的依赖性 (如果你知道它的邻居,这个 Token 就更容易预测) 。

Token 条件熵图的可视化,显示了强烈的局部依赖性。

Figure 11 完美地阐释了这一概念。蓝色方块代表参考 Token。红色区域显示低条件熵 (高依赖性) 。正如你所见,一个 Token 严重依赖于它的直接邻居,但这种依赖性随着距离迅速衰减。这张热力图为 PAR 策略提供了数学依据: 远端并行,局部串行。

PAR 方法: 它是如何工作的

PAR 方法修改了生成顺序,但没有改变基础模型架构或分词器 (Tokenizer) 。它可以被分解为三个逻辑步骤。

1. 跨区域分组

首先,Token 网格 (压缩后的图像) 被划分为 \(M \times M\) 个区域。例如,一个 \(24 \times 24\) 的网格可能被分成四个 \(12 \times 12\) 的区域 (\(M=2\)) 。

模型不再在整个宽度上逐行处理图像,而是将在各自区域中具有相同相对位置的 Token 分组。

\[ \Big \{ [ v _ { 1 } ^ { ( 1 ) } , \\\cdot \cdot \ , v _ { 1 } ^ { ( M ^ { 2 } ) } ] , [ v _ { 2 } ^ { ( 1 ) } , \cdot \cdot \cdot , v _ { 2 } ^ { ( M ^ { 2 } ) } ] , \cdot \cdot \cdot \ , [ v _ { k } ^ { ( 1 ) } , \cdot \cdot \cdot \ . , v _ { k } ^ { ( M ^ { 2 } ) } ] \Big \} . \]

这个公式简单地表示我们将每个区域的第 \(k\) 个 Token 分组在一起。

2. 阶段 1: 顺序初始化 (骨架)

我们不能立刻开始生成并行 Token。如果我们从零开始同时生成左上角和右下角,它们可能会在全局主题上产生分歧 (例如,上面认为是“狗”,而下面认为是“猫”) 。

为了解决这个问题,PAR 按顺序生成每个区域的初始 Token

非局部并行生成过程的示意图。

查看 Figure 3 (Stage 1) : 模型逐个生成 Token 1、2、3 和 4。这些“锚点” Token 确立了全局上下文。由于区域很少 (例如 4 个或 16 个) ,这一步很快,但对全局连贯性至关重要。

3. 阶段 2: 并行跨区域生成

一旦锚点设定好,模型就切换到并行模式。它确定区域 1、区域 2、区域 3 和区域 4 中的下一个位置,并同时预测它们。

Figure 3 (Stage 2) 中,你可以看到模型同时生成了标记为 5a, 5b, 5c, 5d 的组。这些 Token 在空间上彼此远离,因此它们的弱依赖性允许在不破坏图像结构的情况下进行独立采样。然后它移动到 6a-6d , 依此类推。

通过一次预测 4 个 Token,模型将推理步骤的数量减少了大约 4 倍。

模型架构实现

标准 Transformer 如何处理这个问题?研究人员通过设计巧妙的序列输入和注意力掩码 (attention masking) 来实现这一点。

PAR 模型实现和注意力掩码概览。

Figure 4 详细说明了实现方式:

  1. 输入序列: 序列以顺序生成的初始 Token 开始。
  2. 可学习的过渡: 插入特殊的“M” Token (M1, M2…) 以帮助模型将其内部状态从顺序模式转换到并行模式。
  3. 并行组: 其余的 Token 以组的形式输入 (例如,[5a, 5b, 5c, 5d]) 。

注意力技巧 (The Attention Trick) : 在标准自回归模型中,一个 Token 只能关注之前的 Token (因果注意力) 。在 PAR 中,研究人员使用了组内双向注意力 (Group-wise Bi-directional Attention)

  • 组间: 适用标准因果注意力 (第 6 组可以看到第 5 组,但第 5 组看不到第 6 组) 。
  • 组内: 第 5 组中的 Token 可以看到第 4 组中的所有 Token。这是一个微妙但重要的升级,因为在朴素实现中,Token 5b 可能只能看到 4b 之前的内容。这确保了每个并行预测都拥有来自上一步骤的最大可能上下文。

实验与结果

这个理论在实践中站得住脚吗?研究人员在 ImageNet (图像) 和 UCF-101 (视频) 上测试了 PAR。

速度 vs. 质量

结果显示效率大幅提升,而质量损失微乎其微。

PAR 与 LlamaGen 的可视化比较,展示了速度提升。

Figure 2 将基线 (LlamaGen) 与 PAR 进行了比较。

  • LlamaGen: 生成一张图像需要 12.41 秒 (576 步) 。
  • PAR-4x: 需要 3.46 秒 (147 步) 。质量在视觉上几乎相同。
  • PAR-16x: 需要 1.31 秒 (51 步) 。这几乎是 10 倍的速度提升

定量指标也支持了这一点。在下表 (Figure 5/Table 2) 中,我们看到了 FID (Fréchet Inception Distance) 分数。FID 越低越好。

定性比较和展示 FID 分数的 Table 2。

PAR-XXL-4x 模型达到了 2.35 的 FID,这与基线 LlamaGen-XXL 的 2.34 几乎相同,但步数只有四分之一。即使是激进的 PAR-16x 也保持了 3.02 的不错 FID。

视觉一致性

人们可能会担心并行生成区域会在图像中产生“接缝”或脱节的边界。然而,由于模型保持了对先前步骤的自回归条件 (并使用了顺序初始化) ,图像在全局上保持了连贯性。

PAR-16x 的额外图像生成结果。

Figure 9 展示了来自超快 PAR-16x 模型的样本。从狼毛的纹理到灯塔的结构,图像都是一致且高保真的。

视频生成

该方法不仅限于静态图像。通过将视频视为 3D Token 网格 (时间 \(\times\) 高度 \(\times\) 宽度) ,PAR 也可以加速视频生成。

UCF-101 上的视频生成结果。

Figure 10 所示,PAR-4x 和 PAR-16x 生成的视频中的运动保持流畅。并行化是在空间上 (跨帧) 应用的,保留了流畅运动所需的时间依赖性。

为什么设计选择很重要: 消融实验

研究人员进行了消融实验,以证明他们的特定设计选择——特别是顺序初始化和非局部排序——是必要的。

顺序初始化的重要性

如果我们跳过“阶段 1”的顺序生成,并尝试并行生成所有区域的第一个 Token 会发生什么?

关于初始顺序 Token 生成的消融实验。

如表所示,移除顺序初始化会导致 FID 分数从 2.61 恶化到 3.67 。 没有区域之间最初的“握手”,全局结构就会受到影响。

排序的熵分析

研究人员还比较了他们的“非局部”排序与“光栅”排序 (并行预测相邻 Token) 。

并行生成与顺序生成的条件熵差异。

Figure 12 对预测的“难度” (通过熵增衡量) 提供了一个迷人的视角。

  • 面板 (c) - PAR 排序: 切换到并行模式时熵的增加 (红色) 相对较低。
  • 面板 (f) - 光栅排序: 熵的增加很高。这证实了从数学上讲,并行预测邻居对模型来说比预测远端 Token 要难得多。

结论

关于“并行化自回归视觉生成” (PAR) 的论文为困扰自回归视觉模型的延迟问题提出了一个令人信服的解决方案。通过认识到空间距离等于统计独立性 , 作者解锁了一种并行化生成的方法,而且无需重新训练复杂的架构或牺牲 Transformer 的统一建模能力。

PAR 实现了 3.6 倍到 9.5 倍的速度提升,使得高质量的自回归图像和视频生成在实际应用中变得切实可行,弥合了 AR 模型的灵活性与非自回归方法的速度之间的差距。

这项工作突显了 AI 研究中一个更广泛的教训: 有时最大的收益并非来自更大的模型或更多的数据,而是来自对生成过程本身更明智的组织。