引言: AI 艺术领域的巨大分歧

如果你关注了过去几年 AI 生成图像的爆炸式增长，你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是，在这些模型的底层，存在着根本性的技术分歧。

一方是 扩散模型 (Diffusion Models) (如 Stable Diffusion 和 DALL-E 2/3) 。它们的工作原理是通过从混乱的噪声图像中去除噪声，从而揭示清晰的画面。另一方是 自回归模型 (Auto-Regressive Models) (如最初的 DALL-E 和 Google 的 Parti) 。它们将图像视为语言: 将图像分解为一系列“Token” (词元) ，然后逐个预测它们，就像 ChatGPT 预测句子中的下一个单词一样。

谜题在于此: 扩散模型通过集成 预训练语言模型 (LLM) 获得了巨大的性能提升。当研究人员将强大的文本编码器 (如 T5) 插入扩散模型时，模型对提示词 (Prompt) 的理解更深刻，生成的图像也更出色。

很自然地，你会认为同样的逻辑也适用于自回归模型。毕竟，如果自回归图像生成器的工作方式与 LLM 完全相同——预测序列中的下一个 Token——那么从一个“聪明”的预训练 LLM 开始，难道不比从零开始更好吗？预训练 LLM 已经理解了世界、语法和逻辑。直觉告诉我们要将这些知识迁移到图像生成中。

一篇引人入胜的研究论文《Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation》 (预训练语言模型对自回归文生图没有帮助) 对这一直觉进行了测试。作者探讨了改编大型预训练语言模型是否能提升文生图的性能。

答案是响亮且令人惊讶的: 不能。

在这篇文章中，我们将拆解这篇论文，了解为什么预训练的“大脑”无法帮助 AI “画画”，以及这揭示了文字语言与像素语言之间怎样的根本差异。

背景: 文生图技术的现状

要理解为什么这个负面结果如此重要，我们首先需要看看图像生成的竞争格局。

很长一段时间以来，哪种架构更优越——扩散模型还是自回归 (AR) 模型——一直尚无定论。最初的 DALL-E 证明了 AR 模型是可行的。随后 DALL-E 2 转向扩散架构并提高了标准。接着 Google 几乎同时发布了 Parti (AR) 和 Imagen (扩散) ，展示了相近的高质量结果。

一张散点图比较了不同 AI 图像生成模型在 COCO 数据集上的零样本 FID 分数随时间的变化。蓝点代表自回归模型，灰点代表扩散模型。

如 图 1 所示，这两种模型家族在 FID (Fréchet Inception Distance，一种数值越低越好的指标，用于衡量生成图像与真实图像的相似度) 方面一直不分伯仲。

然而，它们在如何取得这些成果上出现了一个关键区别。扩散模型积极利用预训练文本编码器。文本模型越聪明，图像模型就越好。相反，像 Parti 这样的 AR 模型通常从头开始训练其图像生成组件。虽然 Parti 使用文本编码器 (BERT) 来初始化模型的一部分，但它并没有充分利用现代 GPT 风格 LLM 的仅解码器 (decoder-only) 架构。

这给研究留下了一个巨大的空白: 我们能否取一个仅解码器的 LLM (比如 10 亿参数的 GPT) ，它已经是自回归生成的大师，然后教它说“图像语”?

自回归图像生成是如何工作的

在看实验之前，我们必须理解图像是如何被像文本一样处理的。你不能简单地将像素网格输入 Transformer；因为数据太稠密了。

为了解决这个问题，研究人员使用了 图像 Tokenizer (如 VQ-VAE 或 VQ-GAN) 。这些工具就像翻译器。它们将方形图像 (例如 256x256 像素) 压缩成一个更小的离散数字 (Token) 网格。

想象一下将马赛克拆解成瓷砖。每个瓷砖根据其视觉模式被分配一个数字。突然间，图像不再是像素矩阵；它变成了一串整数序列，就像 [113, 154, 1334...]。

一旦图像变成数字序列，它在数学上看起来就和文本句子完全一样了。这使得我们可以使用标准的 Transformer 架构——也就是用于翻译到聊天机器人的那个架构——来生成图像。

核心方法: 改编 LLM

研究人员着手测试“迁移学习”假设。他们设计了一个实验来比较两个架构相同但初始化方式不同的模型:

预训练模型: 使用强大的 10 亿参数语言模型 (在 1.6 万亿文本 Token 上训练) 的权重进行初始化。
基线模型: 架构完全相同，但使用随机权重进行初始化 (从零开始学习) 。

架构设置

改编过程如下图 图 2 所示。

图示说明了图像到文本的生成过程。左图: 图像被 Token 化为网格。右图: 语言模型架构，显示了嵌入层和输出层。

以下是图中展示的分步工作流:

输入: 将一张图像 (例如沙漠中的仙人掌) 输入图像 Tokenizer (具体为 SBER-MoVQGAN) 。
Token 化: Tokenizer 将图像转换为 1,024 个离散 Token 的序列。
语言模型: 该序列与文本标题结合，被送入 Transformer。
输出: 模型预测序列，然后“反 Tokenizer (De-tokenizer) ”重构最终图像。

工程挑战

你不能直接把图像 Token 塞进 LLM 里。LLM 的“字典” (词表) 只包含单词。它不知道“图像 Token #405”是什么。

为了解决这个问题，作者扩展了 嵌入层 (Embedding Layer) (输入) 和 输出层 (Output Layer) (预测) 。

原始 LLM: 词表大小约 50,000 (文本单词) 。
新模型: 词表大小约 66,000 (文本单词 + 16,384 个图像 Token) 。

文本部分的权重是从预训练模型复制过来的。新图像 Token 的权重是随机初始化的 (或通过对比对齐技术，我们稍后会讨论) 。模型巨大的“中间部分”——Transformer 模块、注意力头和前馈网络——保留了所有的预训练知识。

随后，这些模型在 HQITP 数据集上进行了微调，这是一个包含 1.34 亿高质量图像-标题对的庞大集合。

实验与结果: 巨大的失望

如果关于预训练的直觉是正确的，那么预训练模型应该学得更快，达到更低的损失 (更高的准确率) ，并生成更好的图像。

让我们看看训练曲线。

1. 损失曲线

这里使用的主要指标是 困惑度 (Perplexity) (损失的指数) 。简单来说，困惑度衡量的是模型对下一个 Token 感到多么“惊讶”。数值越低意味着模型越擅长预测图像。

折线图显示困惑度与训练 Token 数的关系。‘预训练初始化’和’随机初始化’的曲线几乎完美重合。

图 3 说明了一切。蓝线 (随机初始化) 和红/橙线 (预训练初始化) 几乎完美地相互重叠。

预训练有助于收敛吗? 没有。预训练模型学得并不快。
预训练能降低最终损失吗? 没有。在 1000 亿 Token 上训练后，两个模型最终达到了完全相同的性能水平。

这在深度学习领域是一个令人震惊的结果，因为通常预训练是高性能的“秘方”。

2. 灾难性遗忘

情况实际上更糟。预训练不仅未能帮助图像生成，微调过程还破坏了模型原有的语言能力。

研究人员在模型训练了一段时间图像后，测试了预训练模型在标准文本任务 (如翻译或回答问题) 上的表现。

表格显示了遗忘的例子。模型在训练了 50 亿图像 Token 后，无法完成简单的句子或翻译单词。

如 表 1 所示，仅仅在训练了 50 亿 Token (只占总训练量的一小部分) 之后，模型就变得语无伦次了。

原始: 正确解释相对论。
训练后: “Simplify puts, the theory of relativity states that iles must be able to see the invisible.” (不知所云) 。
翻译任务: 它忘记了如何将 “cheese” 翻译成法语，而是输出 “I love cheese”。

这种现象被称为 灾难性遗忘 。模型被新的图像数据淹没，覆盖了其先前的知识。

3. 故障分析: 为什么？

为了理解为什么预训练权重毫无用处，作者将损失分解为两个部分: 文本损失 (预测标题) 和 图像损失 (预测图像 Token) 。

两个折线图比较了图像 Token 与文本 Token 的困惑度。两个模型的图像 Token 损失完全相同。预训练模型的文本 Token 损失起步较低但最终收敛到相同水平。

图 4 提供了诊断结果:

图像 Token (左图) : 预训练模型和随机模型在训练的任何阶段都 没有任何区别 。预训练 LLM 在预测“像素”方面并不比随机神经网络强。
文本 Token (右图) : 预训练模型一开始具有巨大优势 (困惑度极低) ，这很有道理——它已经懂英语了。然而，这种优势消失得非常快 (在 100 亿 Token 内) 。

为什么文本优势会消失？因为图像-标题数据集中的文本非常简单。像“一只狗坐在长凳上”这样的标题，远没有 LLM 最初训练时使用的文学、数学和代码那么复杂。模型将其复杂度“降级”以匹配这些简单的标题。

4. 无条件图像生成

批评者可能会争辩: “也许问题出在文生图的连接上。如果我们只要求模型生成图像而不带文本呢？”

研究人员通过仅在图像 Token 上训练模型 (无条件生成) 来测试这一点。

图表显示无条件生成的图像 Token 困惑度。随机初始化表现略好于或等于预训练变体。

图 6 展示了仅在图像 Token 上训练的结果。

红线 (随机) 实际上比蓝线 (预训练) 达到了更低的最终困惑度。
其他线条显示了如果你“冻结”预训练模型的部分 (如层或前馈网络) 以试图保留预训练知识会发生什么。性能会显著变差。

这证实了一个主要假设: 建模语言的最佳权重与建模图像的最佳权重有着根本的不同。 强迫模型保留其“语言大脑”，实际上会阻碍其学习“图像逻辑”的能力。

根本原因: 截然不同

这篇论文为这些结果提供了一个深刻的解释，核心在于 Token 的本质。

在 LLM 中，一个 Token (如单词“Apple”) 具有丰富的语义。它连接着水果、科技、重力、馅饼和红色等概念。

在图像 Tokenizer (VQ-GAN) 中，一个 Token 只是一个视觉补丁——可能是一条曲线、一种纹理或某种特定的蓝色阴影。它本身没有独立的语义。Token #405 不代表“眼睛”；它只是意味着“一个小黑圈”。

对齐失败

作者尝试使用 对比对齐 (Contrastive Alignment) 强制图像 Token 像文本 Token 一样行事。他们试图将图像 Token 映射到数学上相似的文本嵌入 (例如，试图使代表“毛茸茸纹理”的 Token 与单词“皮毛”的嵌入对齐) 。

显示对比损失和温度的图表。损失迅速趋于平稳，表明对齐失败。

图 7 显示这失败了。损失几乎立即趋于平稳。当他们分析结果时，发现图像 Token 与“嘈杂、语义缺失的文本 Token”对齐。

因为图像 Token 本身不携带高层含义，语言模型 (在高级含义上运作) 无法利用其先验知识来处理它们。语言的语法关乎思想的流动；而图像的“语法”则关乎纹理与边缘的空间关系。它们实际上完全是两种不同的语言。

结论: 对未来研究的启示

尽管关于预训练的结果是负面的，但该研究证实了自回归模型 确实可以 生成高质量图像——它们只需要从头开始学习。

生成的图像示例，显示了小猫、桥梁、松鼠和骑师。

如 图 5 所示，最终模型 (无论是从头开始训练还是预训练——这并不重要) 能够产生逼真的结果，在 MS-COCO 上取得了 12.21 的不错 FID 分数。

核心要点

迁移学习不是魔法: 我们不能假设在一个领域 (文本) 聪明的模型会自动在另一个领域 (图像) 聪明，即使我们将数据格式化得看起来一样。
Tokenizer 是瓶颈: 当前一代的图像 Tokenizer (VQ-GAN) 创建的是缺乏语义的“视觉单词”。这阻碍了 LLM 使用其推理能力。
数据比例很关键: 在图像-标题训练中，图像 Token 与文本 Token 的数量比为 30 比 1。这种不平衡迫使模型将其几乎全部容量用于视觉结构，导致了文本知识的灾难性遗忘。

未来的道路

作者建议，如果我们想解锁 LLM 在图像生成方面的力量，我们需要更好的 图像 Tokenizer 。我们需要能够将图像映射到具有语义意义的单元 (例如，一个实际上代表“眼睛”或“天空”的 Token) ，而不仅仅是像素补丁的 Tokenizer。

在那之前，如果你正在构建一个自回归图像生成器，你不妨随机初始化你的权重。你那花哨的 LLM 根本帮不上忙。

引言: AI 艺术领域的巨大分歧#

背景: 文生图技术的现状#

自回归图像生成是如何工作的#

核心方法: 改编 LLM#

架构设置#

工程挑战#

实验与结果: 巨大的失望#

1. 损失曲线#

2. 灾难性遗忘#

3. 故障分析: 为什么？#

4. 无条件图像生成#

根本原因: 截然不同#

对齐失败#

结论: 对未来研究的启示#

核心要点#

未来的道路#