简介
近年来,人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时,正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。
这一现象引发了一场激烈的争论: 它们为什么会一致 (Align) ?
主流的假设主要集中在 下一个词预测 (Next-Word Prediction, NWP) 上。因为 LM 被训练用于猜测序列中的下一个词 (例如,“The cat sat on the… mat”) ,而人类大脑也被认为是一个“预测引擎”,许多研究人员认为这一共同的目标是两者一致性的根本原因。
然而,一篇题为 “Language models and brains align due to more than next-word prediction and word-level information” (语言模型与大脑的一致性不仅仅源于下一个词预测和词级信息) 的新研究论文对这一简单的叙述提出了挑战。作者认为,虽然预测很重要,但这并不是故事的全部。通过一系列涉及对 GPT-2 模型进行“切除”和“增强”的巧妙实验,他们证明了大脑和 AI 模型共享着更深层次的表征——具体来说是与多词上下文和结构相关的表征——这些表征独立于预测下一个词的能力而存在。
在这篇文章中,我们将解构他们的方法论,梳理他们的数学逻辑,并探讨这对我们理解人工不仅能和生物智能意味着什么。
背景: 语言处理的组成部分
要理解作者的贡献,我们首先需要分解大脑 (或模型) 在阅读句子时处理的不同类型的信息。研究人员将这些信息归类为三个不同的类别:
- 下一个词预测 (NWP) : 根据先前的上下文预测即将出现的 token 的能力。
- 词级信息 (Word-Level Information) : 单个词的静态含义,与其上下文无关。例如,“扫帚 (broom) ”一词无论出现在句子的哪个位置,都会让人联想到清洁工具。
- 多词信息 (Multi-Word Information) : 源于单词组合和顺序的意义,例如句法 (语法) 和事件结构。
词级信息和多词信息之间的区别至关重要。考虑研究人员在下面提供的例子:

如 图 1 所示,短语“Harry throws the broom” (哈利扔扫帚) 包含特定的事件结构。如果我们把单词打乱成“The broom throws Harry” (扫帚扔哈利) , 词级信息 (哈利、扔、扫帚这几个独立概念) 保持完全相同。然而, 多词信息发生了巨大的变化——场景变得荒谬了。此外, 下一个词预测能力也崩溃了,因为这个序列不再遵循标准的英语模式。
研究空白
先前的研究已经确立了 LM 与大脑是一致的。然而,因为随着 LM 规模变大,它们在所有方面都表现得更好 (语法更好、语义更好、预测更好) ,所以很难断定是哪个因素驱动了大脑一致性。是预测本身吗?还是因为预测仅仅是学习良好语法和结构的代理?
为了解决这个问题,作者设计了一种基于减法和扰动的方法论。
核心方法: 解耦各项因素
研究人员使用了 GPT-2 (Small, Medium, 和 Distilled 版本) 以及一个 fMRI 记录数据集,该数据集来自阅读《哈利·波特与魔法石》第九章的受试者。
他们的目标是分离出 多词信息 对大脑一致性的具体贡献。为此,他们需要控制 (去除影响) NWP 和词级信息。他们通过对模型使用两种特定的“扰动” (修改) 技术实现了这一点。
扰动 1: 输入打乱 (Input Scrambling)
第一种技术是 输入打乱 。 通过在推理时打乱输入文本窗口 (例如 20 个词) 中的单词,研究人员创造了这样一种场景:
- 词级信息 被保留 (单词是一样的) 。
- 多词信息 被破坏 (句法消失了) 。
- 下一个词预测 受到严重阻碍 (从杂乱无章的词语中预测下一个词几乎是不可能的) 。
扰动 2: 刺激微调 (Stimulus-Tuning)
第二种技术是 刺激微调 。 这涉及在《哈利·波特》故事的文本上专门微调预训练的 GPT-2 模型 (使用与测试集不同的训练集) 。
- 这使模型成为该特定叙事的“专家”。
- 它提高了模型针对这段特定文本的 下一个词预测 能力。
- 它可能改善了特定于该故事的 多词信息 表征。
对比的逻辑
这是论文最精彩的部分。作者将大脑一致性视为不同因素的数学总和。他们建立了一个方程组来分离这些变量。
让我们看看当我们打乱输入时, 基线 (Baseline) 模型的大脑一致性变化 (\(\Delta\)) 。
普通基线模型与打乱基线模型之间的一致性变化 (\(\Delta^{base}\)) 由三部分组成: 词级 (WL) 、下一个词预测 (NWP) 和“其他”因素 (用 \(*\) 表示,代表多词信息) 的变化。

然而,请记住,打乱 不会改变词级信息 。 单词是一样的,只是顺序不同。因此,\(\Delta_{WL}^{base} = 0\)。这简化了方程:

这告诉我们,当我们打乱文本时,性能的下降来自于预测能力的丧失和多词信息的丧失。但我们仍然无法将它们区分开来。
双重减法
为了分离它们,作者将 基线 模型与 刺激微调 模型进行了比较。他们计算了刺激微调对比 (\(\Delta^{stim}\)) 与基线对比 (\(\Delta^{base}\)) 之间的差值。

这看起来很复杂,但它有一个特定的目的。研究人员特意选择了一个 刺激微调 模型的检查点,在这个点上,由打乱引起的 预测性能下降 与在基线模型中观察到的下降大致相同。
换句话说,他们确保了打乱对两个模型的预测能力所造成的“损害”是相等的。如果预测能力的变化是相等的,那么:

如果 NWP 分量相互抵消,我们就得到了最终结果:

通俗地说: 通过比较刺激微调模型 (及其打乱版本) 与基线模型 (及其打乱版本) ,并在数学上中和下一个词预测和词级信息的影响, 任何“剩余的”大脑一致性必然归因于多词信息。
实验与结果
作者运行了这些模型,并将它们的内部表征与受试者的 fMRI 数据进行了比较。他们观察了大脑中已知用于语言处理的特定感兴趣区域 (ROIs) ,例如额下回 (IFG) 和角回 (AG) 。
1. 刺激微调有效
首先,研究人员确认他们的扰动按预期工作。

在 图 2 (上图) 中,面板 A 显示了下一个词预测误差 (越低越好) 。
- 刺激微调 (深蓝色) : 表现最好 (误差最低) 。它很好地学习了哈利·波特的风格。
- 基线 (浅蓝色) : 表现为 GPT-2 的典型水平。
- 打乱模型 (灰色) : 正如预期的那样,表现明显更差。
关键在于,面板 C 和 D 显示了 大脑一致性 。
- 面板 D (刺激微调) : 在整个语言网络中显示出强的一致性 (红色区域) 。
- 面板 C (基线) : 显示出良好的一致性,但不如微调后的模型。
这证实了在故事上微调模型确实有助于模型更好地与大脑对齐。
2. 打乱的影响
打乱单词 (图 2 中的面板 E 和 F) 明显降低了大脑一致性。这证实了大脑在乎顺序。如果大脑只关心单个单词,打乱后的地图看起来应该与未打乱的完全一样。但事实并非如此。一致性的下降表明结构很重要。
3. 关键发现: 残余一致性
现在来到重头戏。作者应用了上述方程中推导出的双重减法逻辑。他们提出的问题是: 在我们减去 NWP 和词级信息的影响后,是否还有任何一致性增益?
如果“NWP 假设” (即预测就是一切) 是真的,结果应该为零。应该没有残余一致性。
然而,这并不是他们的发现。

图 5 (上图) 揭示了答案。条形代表了无法用预测或词级含义解释的一致性“百分比增益”。
- 看一看 额下回 (IFG) 和 角回 (AG) 的条形。
- 在不同的模型尺寸 (GPT-2 Small, Medium, Distilled) 中,它们始终为正值。
这种正向的残余意味着, 刺激微调模型获得了一些信息——可能与句法、事件或叙事结构有关——这些信息提高它了与大脑的一致性,且独立于其预测下一个词的能力。
定性可视化
我们也可以从空间上观察这一点。下图可视化了哪些体素 (大脑的 3D 像素) 显示了这种残余一致性。

在 图 9 (特别关注论文中解释的对比逻辑) 中,红色区域表示刺激微调模型比基线模型与大脑的一致性更好的区域,即使在严格控制了预测能力之后也是如此。语言区域亮起红色,证实了 LM 正在捕捉人类大脑也在使用的高级语言特征。
讨论与启示
这篇论文对“预测编码”的热潮提供了一个细致的修正。虽然预测下一个词无疑是 LM 和大脑运作的重要组成部分,但它并不是驱动它们相似性的 唯一 机制。
IFG 和 AG 的作用
在 额下回 (IFG) 和 角回 (AG) 中存在残余一致性具有生物学意义。
- IFG (布罗卡区) : 传统上与句法处理和句子结构有关。
- AG: 通常与语义整合和理解“事件” (谁对谁做了什么) 有关。
残余一致性出现在这里表明,通过在文本上微调模型,模型不仅仅是更擅长猜测下一个词了——它还构建了特定于《哈利·波特》的事件和句子结构的更好表征,这与读者大脑中的结构表征相匹配。
对 AI 的启示
对于 AI 研究人员来说,这突显了 刺激微调 的效率。在极少量的特定文本 (正在阅读的故事) 上训练一个通用模型,显著提高了其大脑一致性。这表明,对模型进行“情境化”处理可以让它利用比通用预训练表征更像人类的多词表征。
结论
“语言模型像我们一样思考吗?”这个问题远未得到解答,但这项研究让我们向精确的答案迈进了一步。
通过在数学上解耦语言处理的变量,作者证明了 GPT-2 与人类大脑之间的一致性不仅仅是预测下一个词的副产品。在硅基与生物之间,存在着一种更深层次的、结构性的一致性——特别是关于多词信息的一致性。
大脑不仅仅是一个预测引擎;它是一个结构构建者。看来,在底层,我们的语言模型也在学习构建这些结构。
](https://deep-paper.org/en/paper/2212.00596/images/cover.png)