图像能阅读吗？深度探究像素级模型的语言大脑

想象一下，不是通过识别字母或单词来阅读一本书，而是通过看页面的连续截图来阅读。这本质上就是 基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同，这些模型将文本视为图像。

为什么要这样做？使用子词的标准方法会产生“词汇瓶颈”。如果你希望一个模型能理解 100 种语言，你需要一个庞大的词表来争夺有限的空间。基于像素的模型完全绕过了这个问题。只要一种文字能显示在屏幕上，模型就能处理它。

但这引发了一个迷人的问题: 一个在文本图片上训练出来的模型是真的学会了语言，还是仅仅非常擅长匹配视觉形状模式?

在这篇文章中，我们将剖析一篇名为 “Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models” 的论文。研究人员探究了 PIXEL (一种在文本上训练的视觉 Transformer) 的内部工作原理，看看它在视觉模型和语言模型的光谱中处于什么位置。

背景: 参赛选手

为了理解这项研究，我们需要介绍研究人员进行比较的三个不同模型:

BERT: “语言学家”。它使用子词分词，并经过优化以理解句法和语义。
ViT-MAE: “艺术家”。这是一个标准的视觉 Transformer (ViT) ，旨在处理图像 (如狗或汽车的照片) 。它不知道文本是什么；它只看到像素。
PIXEL: “混合体”。它使用了“艺术家” (ViT-MAE) 的架构，但使用的是“语言学家”的数据 (渲染自维基百科的文本) 进行训练。

方法: 大脑“探针”

你怎么知道神经网络“知道”什么？你需要使用一种称为 探针 (probing) 的技术。

深度学习模型分层处理数据。第 1 层看到原始输入，而第 12 层 (通常是最后一层) 输出最终的表示。通过冻结模型并将一个小型的分类器连接到特定层 (比如第 5 层) 的输出，我们可以测试该特定层是否持有特定问题的答案。

研究人员使用了一套任务来探测这些模型，从简单的视觉检查到复杂的语法测试。

表 1: 本研究中使用的探针任务描述。

如 表 1 所示，任务分为:

表层 (Surface) : 简单的特征，如句子长度。
句法 (Syntactic) : 语法规则，例如检测两个单词是否互换了位置。
语义 (Semantic) : 基于意义的任务，如识别奇怪的语义搭配或时态。
视觉 (Visual) : 为本文创建的新任务，旨在查看模型是否纯粹通过形状识别特定字符。

RQ1: PIXEL 懂多少语言？

核心假设是，PIXEL 作为一个视觉模型，通过其层级结构，从最初看到的形状最终“学会”了阅读。

为了测试这一点，作者比较了 PIXEL、BERT 和 ViT-MAE 在 12 个层级上的探针性能。

图 1: PIXEL、BERT 和 ViT-MAE 在第 1-12 层的语言探针结果，以及多数基线。

图 1 讲述了一个引人入胜的故事。让我们以此分解:

基线 (绿线) : ViT-MAE (视觉模型) 在底部保持平坦。它不理解语言学，因为它从未在语言数据上训练过。
专家 (蓝线) : BERT 起步强劲。即使在第 1 层，它也已经了解了很多句法和语义知识，因为它的输入 (标记) 本身就携带了语言信息。
学习者 (橙线) : PIXEL 显示出 单调上升 的趋势。在低层 (1-4 层) ，它的表现类似于视觉模型。它只是在处理视觉图块 (patches) 。但随着数据进入更高层，PIXEL 在语言学上“苏醒”了。它开始理解句法和语义，缩小了与 BERT 的差距。

“表层”特征的异常

仔细观察图 1 中的“表层 (Surface) ”图表 (左上角) 。BERT 在预测句子长度或单词内容方面，随着层数加深实际上变得更差。这是正常的——BERT 抽象掉了表层细节以专注于意义。

然而，PIXEL 在早期层级中却难以处理 单词内容 (WC) 。为什么？因为 PIXEL 看不到“单词”。它看到的是 \(16 \times 16\) 像素的图块。

图 2: 示例展示了 “cool” 一词在 PIXEL 的不同上下文中如何被渲染成不同的样子。红线代表图块 (patch) 的边界。

图 2 阐释了“图块问题 (Patch Problem) ”。在上面的例子中，单词 “cool” 被分割在三个图块中。在下面的例子中，由于间距的原因，“cool” 落入了不同的图块边界内。

对 PIXEL 来说，单词 “cool” 每次出现时，根据其对齐方式的不同，视觉上看起来都不一样。模型必须消耗其早期的层级来弄清楚这两种不同的视觉模式代表同一个单词。这证实了 PIXEL 始于视觉模型，并通过其层级转化为语言模型 。

RQ2: 它会忘记视觉信息吗？

如果 PIXEL 在高层变成了语言模型，它会失去“看”的能力吗？为了测试这一点，研究人员创建了视觉任务 (数字符) ，甚至在 MNIST (手写数字) 上测试了模型。

图 3: PIXEL、ViT-MAE 和 BERT 在第 1-12 层的视觉探针结果。

在 图 3 中，我们看到了数字符的结果。

BERT (蓝色) : 正如预期，BERT 随着层数加深遗忘了视觉表层信息。
ViT-MAE (绿色) : 作为一个纯视觉模型，它保持了较高的视觉准确率。
PIXEL (橙色) : PIXEL 保留了比 BERT 多得多的表层视觉信息，即使在高层，其表现也几乎像 ViT-MAE。

这表明，虽然 PIXEL 学习了语言，但它并没有像 BERT 抽象掉标记那样激进地“抽象掉”视觉细节。

MNIST 测试

PIXEL 还能识别图像吗？研究人员给模型输入了手写数字 (MNIST) 。

图 4: PIXEL 和 ViT-MAE 在第 1-12 层的 MNIST 探针结果。

图 4 显示，虽然 PIXEL (橙色) 表现尚可，但它始终不如纯视觉模型 (ViT-MAE) 。这揭示了一个权衡: PIXEL 在文本上的预训练使其专业化了。 它不再是一个通用的视觉模型；它的“视觉皮层”已经针对字母和单词的形状进行了调整，使其在识别手写数字等一般图像任务上稍显逊色。

RQ3: 我们能帮助 PIXEL 读得更快吗？

我们已经确定，PIXEL 在早期层级浪费了宝贵的计算能力来弄清楚一个单词在哪里结束，另一个单词在哪里开始 (“cool”问题) 。

研究人员提出: 如果我们让单词边界在输入图像中显而易见会怎样?

他们尝试了“正字法约束 (Orthographic Constraints) ”或渲染策略:

PIXEL-base: 标准的连续文本渲染 (文本块) 。
PIXEL-words: 文本渲染方式保证像素图块从不与单词边界重叠。添加了空白以在视觉上分隔单词。

他们测试了这些模型的“小型”版本，看看这是否有帮助。

图 5: 小型 PIXEL 变体在第 1-12 层的部分语言探针结果。基线模型用虚线表示。

图 5 显示了这些策略对小型模型的影响。

PIXEL-small (橙色虚线) : 未能学到多少语言学知识。它停留在基线附近。
PIXEL-small-words (紫色点划线) : 这个模型的表现要好得多。

通过强制视觉图块与语言单元 (单词) 对齐, PIXEL-small-words 克服了早期的视觉模糊性。它在早期层级表现得更像 BERT，因为输入是结构化的。这证明了 帮助模型看到单词边界可以让它在网络中更早地专注于语义。

结论: 理解的光谱

这篇论文描绘了基于像素的模型在 AI 版图中的位置。

PIXEL 是一个混合体。 它开始像视觉模型一样处理 (处理边缘和形状) ，并在随后的层级中逐渐建立起语言抽象 (句法和语义) 。
它保留了“图像”。 与抛弃表层细节以专注于意义的 BERT 不同，PIXEL 在网络深处仍保留着活跃的视觉信息。
渲染很重要。 如果我们要让基于像素的模型与 BERT 竞争，我们需要考虑如何呈现文本。将像素与单词边界对齐成为了模型学习过程中的一条巨大捷径。

这为什么重要? 基于像素的模型是构建真正通用语言模型的关键。它们不需要为地球上的每种语言定制分词器。如果我们能优化它们——也许通过使用本文强调的渲染技巧——我们就可以构建出能够理解任何书面语言的模型，而无需任何词表。

本博客文章解释了 Tatariya 等人 (2024) 的论文 “Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models” 中的发现。

背景: 参赛选手#

方法: 大脑“探针”#

RQ1: PIXEL 懂多少语言？#

“表层”特征的异常#

RQ2: 它会忘记视觉信息吗？#

MNIST 测试#

RQ3: 我们能帮助 PIXEL 读得更快吗？#

结论: 理解的光谱#