引言: AI 艺术领域的巨大分歧
如果你关注了过去几年 AI 生成图像的爆炸式增长,你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是,在这些模型的底层,存在着根本性的技术分歧。
一方是 扩散模型 (Diffusion Models) (如 Stable Diffusion 和 DALL-E 2/3) 。它们的工作原理是通过从混乱的噪声图像中去除噪声,从而揭示清晰的画面。另一方是 自回归模型 (Auto-Regressive Models) (如最初的 DALL-E 和 Google 的 Parti) 。它们将图像视为语言: 将图像分解为一系列“Token” (词元) ,然后逐个预测它们,就像 ChatGPT 预测句子中的下一个单词一样。
谜题在于此: 扩散模型通过集成 预训练语言模型 (LLM) 获得了巨大的性能提升。当研究人员将强大的文本编码器 (如 T5) 插入扩散模型时,模型对提示词 (Prompt) 的理解更深刻,生成的图像也更出色。
很自然地,你会认为同样的逻辑也适用于自回归模型。毕竟,如果自回归图像生成器的工作方式与 LLM 完全相同——预测序列中的下一个 Token——那么从一个“聪明”的预训练 LLM 开始,难道不比从零开始更好吗?预训练 LLM 已经理解了世界、语法和逻辑。直觉告诉我们要将这些知识迁移到图像生成中。
一篇引人入胜的研究论文《Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation》 (预训练语言模型对自回归文生图没有帮助) 对这一直觉进行了测试。作者探讨了改编大型预训练语言模型是否能提升文生图的性能。
答案是响亮且令人惊讶的: 不能 。
在这篇文章中,我们将拆解这篇论文,了解为什么预训练的“大脑”无法帮助 AI “画画”,以及这揭示了文字语言与像素语言之间怎样的根本差异。
背景: 文生图技术的现状
要理解为什么这个负面结果如此重要,我们首先需要看看图像生成的竞争格局。
很长一段时间以来,哪种架构更优越——扩散模型还是自回归 (AR) 模型——一直尚无定论。最初的 DALL-E 证明了 AR 模型是可行的。随后 DALL-E 2 转向扩散架构并提高了标准。接着 Google 几乎同时发布了 Parti (AR) 和 Imagen (扩散) ,展示了相近的高质量结果。

如 图 1 所示,这两种模型家族在 FID (Fréchet Inception Distance,一种数值越低越好的指标,用于衡量生成图像与真实图像的相似度) 方面一直不分伯仲。
然而,它们在如何取得这些成果上出现了一个关键区别。扩散模型积极利用预训练文本编码器。文本模型越聪明,图像模型就越好。相反,像 Parti 这样的 AR 模型通常从头开始训练其图像生成组件。虽然 Parti 使用文本编码器 (BERT) 来初始化模型的一部分,但它并没有充分利用现代 GPT 风格 LLM 的仅解码器 (decoder-only) 架构。
这给研究留下了一个巨大的空白: 我们能否取一个仅解码器的 LLM (比如 10 亿参数的 GPT) ,它已经是自回归生成的大师,然后教它说“图像语”?
自回归图像生成是如何工作的
在看实验之前,我们必须理解图像是如何被像文本一样处理的。你不能简单地将像素网格输入 Transformer;因为数据太稠密了。
为了解决这个问题,研究人员使用了 图像 Tokenizer (如 VQ-VAE 或 VQ-GAN) 。这些工具就像翻译器。它们将方形图像 (例如 256x256 像素) 压缩成一个更小的离散数字 (Token) 网格。
想象一下将马赛克拆解成瓷砖。每个瓷砖根据其视觉模式被分配一个数字。突然间,图像不再是像素矩阵;它变成了一串整数序列,就像 [113, 154, 1334...]。
一旦图像变成数字序列,它在数学上看起来就和文本句子完全一样了。这使得我们可以使用标准的 Transformer 架构——也就是用于翻译到聊天机器人的那个架构——来生成图像。
核心方法: 改编 LLM
研究人员着手测试“迁移学习”假设。他们设计了一个实验来比较两个架构相同但初始化方式不同的模型:
- 预训练模型: 使用强大的 10 亿参数语言模型 (在 1.6 万亿文本 Token 上训练) 的权重进行初始化。
- 基线模型: 架构完全相同,但使用随机权重进行初始化 (从零开始学习) 。
架构设置
改编过程如下图 图 2 所示。

以下是图中展示的分步工作流:
- 输入: 将一张图像 (例如沙漠中的仙人掌) 输入图像 Tokenizer (具体为 SBER-MoVQGAN) 。
- Token 化: Tokenizer 将图像转换为 1,024 个离散 Token 的序列。
- 语言模型: 该序列与文本标题结合,被送入 Transformer。
- 输出: 模型预测序列,然后“反 Tokenizer (De-tokenizer) ”重构最终图像。
工程挑战
你不能直接把图像 Token 塞进 LLM 里。LLM 的“字典” (词表) 只包含单词。它不知道“图像 Token #405”是什么。
为了解决这个问题,作者扩展了 嵌入层 (Embedding Layer) (输入) 和 输出层 (Output Layer) (预测) 。
- 原始 LLM: 词表大小约 50,000 (文本单词) 。
- 新模型: 词表大小约 66,000 (文本单词 + 16,384 个图像 Token) 。
文本部分的权重是从预训练模型复制过来的。新图像 Token 的权重是随机初始化的 (或通过对比对齐技术,我们稍后会讨论) 。模型巨大的“中间部分”——Transformer 模块、注意力头和前馈网络——保留了所有的预训练知识。
随后,这些模型在 HQITP 数据集上进行了微调,这是一个包含 1.34 亿高质量图像-标题对的庞大集合。
实验与结果: 巨大的失望
如果关于预训练的直觉是正确的,那么预训练模型应该学得更快,达到更低的损失 (更高的准确率) ,并生成更好的图像。
让我们看看训练曲线。
1. 损失曲线
这里使用的主要指标是 困惑度 (Perplexity) (损失的指数) 。简单来说,困惑度衡量的是模型对下一个 Token 感到多么“惊讶”。数值越低意味着模型越擅长预测图像。

图 3 说明了一切。蓝线 (随机初始化) 和红/橙线 (预训练初始化) 几乎完美地相互重叠。
- 预训练有助于收敛吗? 没有。预训练模型学得并不快。
- 预训练能降低最终损失吗? 没有。在 1000 亿 Token 上训练后,两个模型最终达到了完全相同的性能水平。
这在深度学习领域是一个令人震惊的结果,因为通常预训练是高性能的“秘方”。
2. 灾难性遗忘
情况实际上更糟。预训练不仅未能帮助图像生成,微调过程还破坏了模型原有的语言能力。
研究人员在模型训练了一段时间图像后,测试了预训练模型在标准文本任务 (如翻译或回答问题) 上的表现。

如 表 1 所示,仅仅在训练了 50 亿 Token (只占总训练量的一小部分) 之后,模型就变得语无伦次了。
- 原始: 正确解释相对论。
- 训练后: “Simplify puts, the theory of relativity states that iles must be able to see the invisible.” (不知所云) 。
- 翻译任务: 它忘记了如何将 “cheese” 翻译成法语,而是输出 “I love cheese”。
这种现象被称为 灾难性遗忘 。 模型被新的图像数据淹没,覆盖了其先前的知识。
3. 故障分析: 为什么?
为了理解为什么预训练权重毫无用处,作者将损失分解为两个部分: 文本损失 (预测标题) 和 图像损失 (预测图像 Token) 。

图 4 提供了诊断结果:
- 图像 Token (左图) : 预训练模型和随机模型在训练的任何阶段都 没有任何区别 。 预训练 LLM 在预测“像素”方面并不比随机神经网络强。
- 文本 Token (右图) : 预训练模型一开始具有巨大优势 (困惑度极低) ,这很有道理——它已经懂英语了。然而,这种优势消失得非常快 (在 100 亿 Token 内) 。
为什么文本优势会消失?因为图像-标题数据集中的文本非常简单。像“一只狗坐在长凳上”这样的标题,远没有 LLM 最初训练时使用的文学、数学和代码那么复杂。模型将其复杂度“降级”以匹配这些简单的标题。
4. 无条件图像生成
批评者可能会争辩: “也许问题出在文生图的连接上。如果我们只要求模型生成图像而不带文本呢?”
研究人员通过仅在图像 Token 上训练模型 (无条件生成) 来测试这一点。

图 6 展示了仅在图像 Token 上训练的结果。
- 红线 (随机) 实际上比 蓝线 (预训练) 达到了 更低 的最终困惑度。
- 其他线条显示了如果你“冻结”预训练模型的部分 (如层或前馈网络) 以试图保留预训练知识会发生什么。性能会显著变差。
这证实了一个主要假设: 建模语言的最佳权重与建模图像的最佳权重有着根本的不同。 强迫模型保留其“语言大脑”,实际上会阻碍其学习“图像逻辑”的能力。
根本原因: 截然不同
这篇论文为这些结果提供了一个深刻的解释,核心在于 Token 的本质。
在 LLM 中,一个 Token (如单词“Apple”) 具有丰富的语义。它连接着水果、科技、重力、馅饼和红色等概念。
在图像 Tokenizer (VQ-GAN) 中,一个 Token 只是一个视觉补丁——可能是一条曲线、一种纹理或某种特定的蓝色阴影。它本身没有独立的语义。Token #405 不代表“眼睛”;它只是意味着“一个小黑圈”。
对齐失败
作者尝试使用 对比对齐 (Contrastive Alignment) 强制图像 Token 像文本 Token 一样行事。他们试图将图像 Token 映射到数学上相似的文本嵌入 (例如,试图使代表“毛茸茸纹理”的 Token 与单词“皮毛”的嵌入对齐) 。

图 7 显示这失败了。损失几乎立即趋于平稳。当他们分析结果时,发现图像 Token 与“嘈杂、语义缺失的文本 Token”对齐。
因为图像 Token 本身不携带高层含义,语言模型 (在高级含义上运作) 无法利用其先验知识来处理它们。语言的语法关乎思想的流动;而图像的“语法”则关乎纹理与边缘的空间关系。它们实际上完全是两种不同的语言。
结论: 对未来研究的启示
尽管关于预训练的结果是负面的,但该研究证实了自回归模型 确实可以 生成高质量图像——它们只需要从头开始学习。

如 图 5 所示,最终模型 (无论是从头开始训练还是预训练——这并不重要) 能够产生逼真的结果,在 MS-COCO 上取得了 12.21 的不错 FID 分数。
核心要点
- 迁移学习不是魔法: 我们不能假设在一个领域 (文本) 聪明的模型会自动在另一个领域 (图像) 聪明,即使我们将数据格式化得看起来一样。
- Tokenizer 是瓶颈: 当前一代的图像 Tokenizer (VQ-GAN) 创建的是缺乏语义的“视觉单词”。这阻碍了 LLM 使用其推理能力。
- 数据比例很关键: 在图像-标题训练中,图像 Token 与文本 Token 的数量比为 30 比 1。这种不平衡迫使模型将其几乎全部容量用于视觉结构,导致了文本知识的灾难性遗忘。
未来的道路
作者建议,如果我们想解锁 LLM 在图像生成方面的力量,我们需要更好的 图像 Tokenizer 。 我们需要能够将图像映射到具有语义意义的单元 (例如,一个实际上代表“眼睛”或“天空”的 Token) ,而不仅仅是像素补丁的 Tokenizer。
在那之前,如果你正在构建一个自回归图像生成器,你不妨随机初始化你的权重。你那花哨的 LLM 根本帮不上忙。
](https://deep-paper.org/en/paper/2311.16201/images/cover.png)