引言
在当前的人工智能领域,像 GPT-4 和 Llama 2 这样的大型语言模型 (LLMs) 无疑是无可争议的王者。它们编写代码、创作诗歌,并回答复杂的查询。但在引擎盖下,这些模型都有一个共同的限制: 分词 (Tokenization) 。
在 LLM 看到你的文本之前,一个“分词器 (tokenizer) ”会将句子切分成离散的数字 (Token) 。虽然这种方法效率很高,但它剥离了语言的视觉丰富性。它难以处理复杂的 PDF、非标准排版以及像表情符号或混合脚本这样的“视觉丰富”文本。此外,分词还会产生“词表瓶颈”——如果一个词或字符不在模型的预定义字典中,模型处理起来就会很吃力。
但是,如果模型不需要字典呢?如果它可以像人类阅读扫描文档一样,逐个像素地“看”文本呢?
在这篇深度文章中,我们将探索一篇引人入胜的研究论文,题为 “Autoregressive Pre-Training on Pixels and Texts” 。 研究人员介绍了 PixelGPT 和 DualGPT , 这些模型摒弃了传统的分词方法,转而处理原始的文本图像。他们证明,教 AI 预测下一个像素“块 (patch) ”,可以带来强大的语言理解能力,并可能解决当前 LLM 面临的多语言难题。
背景: 分词陷阱
要理解为什么 PixelGPT 是革命性的,我们首先需要了解现状。传统的 LLM 将文本作为一系列离散的 ID 进行处理。
- 输入: “Hello 🐱”
- 分词器:
[15496, 243, 102](假设的 ID) - 模型: 处理这些数字。
这对于英语来说很有效,但在几种情况下会崩溃:
- 多语言能力: 针对英语优化的分词器可能会将泰语或中文句子切分成低效、无意义的片段,使模型更难学习模式。
- 视觉语境: 如果你把一个词加粗、标红,或者使用特定的字体来表达讽刺,标准的分词器会丢弃这些信息。它只看得到字母。
- OCR 依赖: 要阅读 PDF 或屏幕截图,我们通常先运行光学字符识别 (OCR) 。如果 OCR 犯了错误 (把 “rn” 读成 “m”) ,LLM 就会接收这个错误。
进入基于像素的建模
之前的研究人员试图通过像 PIXEL 这样的模型来解决这个问题。这些模型将文本视为图像,但使用了“仅编码器 (encoder-only) ”架构 (类似于 BERT) ,并以灰度处理图像。它们擅长理解,但无法像 GPT 那样流畅地生成序列文本。
我们要分析的这篇论文迈出了巨大的下一步: 像素上的自回归建模。 这意味着构建一个从左到右阅读视觉内容并预测接下来的内容的模型,从而解锁让 GPT 闻名的生成能力。
核心方法: 教 Transformer “看”东西
研究人员提出了两种主要架构: PixelGPT (仅在图像上训练) 和 DualGPT (在图像和文本上训练) 。让我们分解它们的工作原理。
1. 将文本渲染为丰富的图像
与以往使用 8 位灰度或二进制 (黑/白) 图像的方法不同,PixelGPT 将文本渲染为 24 位 RGB 图像 。
这为什么重要?因为现代交流是多彩的。我们使用表情符号、代码中的语法高亮以及彩色文本来强调重点。通过使用 RGB,模型可以“看”到红色的“WARNING”与黑色的“WARNING”是不同的。
文本被渲染到一个长条上,然后被切割成称为图块 (patches) 的小方块。

如上方的 图 8 所示,句子被渲染 (甚至包含表情符号!) 并被切片。末尾添加了一个黑色图块以表示“序列结束” (End of Sequence, EOS) 。
2. 架构: PixelGPT
PixelGPT 使用 Transformer 解码器 , 这与 Llama 2 使用的架构相同。然而,输入不是单词 Token 列表;而是一系列图像块。

图 1 展示了这个过程:
- 渲染: 文本 “My cool cat…” 被转换为图像。
- 图块化 (Patchify) : 图像被切割成 16x16 像素的图块。
- 线性投影: 每个图块被展平并投影为向量嵌入。
- Transformer 层: 模型处理这些嵌入。
- 下一图块预测: 这是关键的改变。模型尝试根据之前的图块预测序列中下一个图块的像素。
数学目标是最小化预测像素与实际像素之间的差异。具体来说,他们将序列的概率计算为条件概率的乘积:

在这个方程中,\(x_p\) 代表视觉图块。模型试图在给定所有先前图块 (\(1\) 到 \(t-1\)) 的情况下,最大化图块 \(t\) 的可能性。
3. DualGPT: 两全其美
虽然 PixelGPT 令人印象深刻,但文本仍然是一种非常密集、高效的信息存储方式。研究人员假设,模型可以从“双语”训练中受益——即同时从原始像素和离散文本 Token 中学习。

图 2 展示了 DualGPT 的架构。它有一个共享的 Transformer 解码器骨干,但使用两个不同的“头” (输出层) :
- 分类头: 对于文本输入,它预测下一个 Token ID (标准的 GPT 行为) 。
- 回归头: 对于图像输入,它预测下一个图块的像素值。
这使得模型能够在模态之间转移知识。它可以从文本中学习高级语义逻辑,并从图像中学习细粒度的视觉细节。
实验与结果
研究人员通过一系列严苛的测试对这些模型进行了评估,主要使用了 GLUE 基准 (用于英语理解) 和 XNLI (用于跨语言理解) 。
1. 像素模型能与文本模型匹敌吗?
第一个问题很简单: PixelGPT 没有任何“单词”或“字母”的概念,它真的能理解语言吗?

表 2 给出了答案: 是的。
- 击败 GPT-2: PixelGPT (3.17 亿参数) 取得了 74.2 的 GLUE 平均分,这与 GPT-2 相当 (并在几个任务上表现更好) 。
- 击败 PIXEL: 它在诸如 RTE (文本蕴含识别) 和 WNLI 等困难任务上,优于之前的最先进像素模型 (PIXEL) 。
这证明了对于高级语言理解来说,分词并不是严格必需的。神经网络可以直接从视觉输入中学会“阅读”。
2. 多语言超能力
最令人兴奋的结果来自多语言测试。因为 PixelGPT 不使用特定语言的分词器,所以当它在英语、中文、阿拉伯语或泰语之间切换时,它不会感到困扰。它只是看到了不同的形状。

图 10 (雷达图) 展示了这种优势。
- 看一看泰语 (THA) 和中文 (ZHO) 的峰值。PixelGPT (绿线) 显著优于 BERT (粉线) 和 PIXEL (橙线) 。
- 在泰语中,PixelGPT 的得分比 BERT 高出 +11.3 分 。
这证实了“词表瓶颈”假设: 标准模型在处理具有复杂脚本或分词规则的语言时会失败,但 PixelGPT 可以轻松应对,因为它将所有语言都视为视觉模式。
3. 缩放定律: 数据饥渴
对于这项技术的未来,最重要的发现之一是它的缩放能力。给它投喂更多数据会让它变得更聪明吗?

图 3 显示了随着训练数据增加 (x 轴) ,性能曲线的变化:
- TextGPT (紫色) : 起步强劲,但逐渐趋于平缓。
- PixelGPT (蓝色) : 起步低得多 (学习像素比学习 Token 更难) 。然而,请注意那陡峭的上升斜率。它超越了 PIXEL 基线并继续攀升。
这表明基于像素的模型是数据饥渴型的。它们需要更多的计算资源来入门,但它们的性能上限可能会更高,因为它们不受固定词表的限制。
4. 看见不可见之物: 表情符号与颜色
最后,研究人员测试了 RGB 渲染是否真的有帮助。他们使用了 HatemojiBuild 数据集,该数据集检测依赖表情符号语境的仇恨言论。

图 7 展示了为什么 RGB 至关重要。
- 案例 1: “can we all agree that 💀 is 🌿"。在灰度模式下,模型丢失了语境。在 RGB 模式下,它正确识别了序列。
- 案例 2: “Muslims are so full of 😡"。红色的脸是一个强烈的如情绪信号。
在这个数据集上,经过 RGB 训练的 PixelGPT 比灰度版本的准确率高出 +2.7 个百分点 , 证明颜色提供了语义信号,而不仅仅是装饰。
结论与启示
论文 “Autoregressive Pre-Training on Pixels and Texts” 挑战了 NLP 的一个基本假设: 文本必须作为抽象数字进行处理。
通过将文本视为图像, PixelGPT 证明了我们可以构建具备以下特征的模型:
- 对“嘈杂”文本具有鲁棒性: 它们可以阅读奇怪的字体、颜色和排版。
- 真正的多语言能力: 它们不需要特定语言的分词器,在泰语和中文等非拉丁语系文字上表现出色。
- 可扩展性: 虽然它们最初需要更多的训练数据,但它们表现出了可以与基于文本的模型相媲美的强大缩放趋势。
DualGPT 更进一步,表明结合文本 Token 的效率与像素的鲁棒性可以产生最佳结果,有效地平滑了“模态竞争”。
下一步是什么?
作者指出,生成仍然是一个障碍。目前,模型预测的是像素块。要恢复文本,实际上需要对生成的图像块运行 OCR。未来的工作可能会集中在使输出阶段更加无缝,也许是让模型根据视觉输入直接生成文本 Token。
这项研究为未来铺平了道路,在这个未来中,AI 将像我们一样阅读互联网: 视觉化、全彩,且无需字典。
](https://deep-paper.org/en/paper/2404.10710/images/cover.png)