我们可以教会 AI 像人类一样阅读吗?逆向工程认知阅读者

你的大脑是如何处理你现在正在阅读的这句话的?你可能不会以同样的注意力阅读每个字母。你会跳过像“the”或“of”这样的功能词,并在复杂或意想不到的词上稍微停留更久。这种变化的“处理费力程度 (processing effort) ”——可以通过你的眼睛注视某个词的时间长短来衡量——是通往人类思维的窗口。

多年来,研究人员一直使用像 GPT-2 这样的大型语言模型 (LMs) 作为代理来研究这一现象。主流理论认为,LM 和人类共享一个基本机制: 预测。如果 LM 认为一个词是意料之外的 (高惊奇度,high surprisal) ,人类通常也会觉得它更难处理 (阅读时间更长) 。

但本质上,这项研究一直是单行道。我们使用一个在大规模互联网文本上训练好的、优化用于预测下一个词的预训练模型,然后问: “这看起来像人类吗?”

一篇引人入胜的研究论文 “Reverse-Engineering the Reader” (逆向工程阅读者) 将这个问题颠倒了过来。作者没有问 LM 是否碰巧像人类,而是问: 我们能否直接优化一个语言模型,使其成为一个有用的认知模型?

我们能否拿来一个 AI,对其进行微调,不是为了写出更好的文章或代码,而是为了让它像人类一样阅读?如果我们这样做,模型的智力会发生什么变化?结果让我们对统计概率与生物认知之间的差异有了一瞥。

基础: 惊奇度理论 (Surprisal Theory)

要理解我们如何“逆向工程”一个阅读者,我们需要先理解人工智能与心理学之间的桥梁: 惊奇度理论

惊奇度理论认为,处理一个词所需的认知努力与该词在给定上下文中的意外程度成正比。如果你读到句子“The cat sat on the…”,你的大脑预期的是“mat” (垫子) 。如果下一个词是“mat”,惊奇度就很低,你的眼睛会快速移动。如果下一个词是“stratosphere” (平流层) ,惊奇度就很高,你的眼睛会停留来处理这个异常。

用数学术语来说,对于上下文 \(c\) 中的语言单位 \(u\) (如单词) ,惊奇度是负对数概率:

Surprisal definition equation.

这里,\(p_H\) 代表“人类语言模型”——即我们脑海中的理论概率分布。由于我们无法打开大脑直接读取概率,研究人员使用计算语言模型 (\(p_\theta\)) 来近似它:

Approximated surprisal equation using model parameters theta.

心理语言学的标准方法是假设存在线性关系。我们假设阅读时间 (\(\psi\)) 大致等于模型的惊奇度值乘以某个系数,再加上一些基线因素。

标准评估: Delta 对数似然 (Delta Log-Likelihood)

我们如何知道一个模型是否能很好地预测人类阅读?我们使用一种称为 Delta 对数似然 (\(\Delta_{\text{llh}}\)) 的指标。

想象我们有两个预测器试图猜测你注视一个词的时间:

  1. 基线预测器 (Baseline Predictor): 它知道词的长度以及该词在全球范围内的普遍程度 (频率) ,但它忽略了具体的句子上下文。
  2. 目标预测器 (Target Predictor): 它知道基线知道的一切,外加我们的语言模型提供的上下文惊奇度。

我们比较在这两个模型下,实际人类阅读时间出现的可能性。如果目标预测器 (使用 LM 的惊奇度) 比基线能更好地解释数据,我们会得到一个高的正 \(\Delta_{\text{llh}}\) 值。

Delta Log-Likelihood equation comparing target and baseline models.

通常,研究人员只是在现有模型上测量这一指标。然而,这篇论文的作者决定不把 \(\Delta_{\text{llh}}\) 当作记分牌,而是当作目标函数。他们想要训练模型来最大化这个分数。

方法: 心理测量对齐 (Psychometric Alignment)

这种方法在概念上类似于现代 AI 中的“对齐”——例如人类反馈强化学习 (RLHF),它将模型与人类偏好 (如“不要有毒”、“要有帮助”) 对齐。然而,研究人员不是对齐到二元偏好 (A 比 B 好) ,而是将模型对齐到实数值的心理测量数据 (阅读时间) 。

这带来了一个困难的数学挑战。我们要做的不仅仅是让模型输出“正确”的下一个 token。我们试图调整模型的内部概率分布 (\(p_\theta\)),以便其惊奇度值在输入线性回归模型时,能准确预测以毫秒为单位的注视持续时间。

目标函数

这里的核心创新是一种微调 LM 的技术,以隐式优化线性回归器的参数。

让我们分解研究人员设计的“奖励 (Reward)”函数。他们将奖励 \(r(\theta)\) 定义为人类阅读时间 (\(\psi\)) 与预测时间 (\(\hat{\psi}\)) 之间的负误差 (均方误差) 。

Reward function defined as the negative minimum expected mean squared error.

注意方程中的 “min”。在训练语言模型的每一步,系统实际上都在为模型的当前状态寻找最佳可能的线性回归拟合 (\(\beta_\theta\)),然后计算误差。

为了在训练过程中使其可计算,他们使用一批数据来近似奖励。线性回归的最佳系数 (将惊奇度与时间联系起来的斜率和截距) 可以使用称为岭回归 (Ridge Regression) 的闭式解来计算。

Formula for optimal coefficients beta star using ridge regression.

这里,\(X_\theta\) 是包含模型生成的惊奇度值的矩阵。通过将这个最优 \(\beta^*\) 代回误差公式,研究人员创建了一个可微的流程。他们可以更新 GPT-2 模型的权重,以最小化预测阅读时间的误差。

正则化: 保持模型理智

如果我们训练模型预测阅读时间,它可能会破坏其对英语语言的知识。为了拟合回归线,它可能会分配离奇的概率。

为了防止这种情况,研究人员使用了 Kullback–Leibler (KL) 正则化 。 如果微调后的模型 (\(p_\theta\)) 偏离原始的、预训练的参考模型 (\(p_{\text{ref}}\)) 太远,这会增加一个惩罚项。

KL Regularization term definition.

最终的训练目标结合了心理测量奖励和 KL 惩罚:

Total objective function combining reward and KL regularization.

这迫使模型平衡两个目标: “保持做一个好的语言模型” (通过 KL 项) 和“成为一个好的认知模型” (通过奖励项) 。

实验设置

研究人员使用 GPT-2 系列模型 (Small, Medium, 和 Large) 测试了这种方法。

在人类数据方面,他们利用了三个著名的眼动追踪语料库:

  1. Dundee Corpus: 由 10 名参与者阅读的报纸文本。
  2. Provo Corpus: 由 84 名参与者阅读的小说和非小说段落。
  3. ZuCo Corpus: 电影评论和维基百科文章。

主要指标是注视持续时间 (Gaze Duration)——即读者的眼睛在移开之前注视某个词的总时间。

实验被设置为交叉评估。例如,他们可能会在 Dundee 语料库上微调模型 (教它 Dundee 参与者是如何阅读的) ,然后测试它在 Provo 语料库上预测阅读时间的效果。这确保了模型正在学习人类阅读的一般原则,而不仅仅是死记硬背特定参与者的怪癖。

成功了吗?结果分析

简短的回答是: 是的。

这种微调技术成功地“逆向工程”了阅读者。几乎在所有模型尺寸和数据集上,微调后的模型都比原始的、现成的 GPT-2 模型能更好地预测人类阅读时间。

请看下面的学习曲线。第一行显示均方误差 (MSE) 下降,第二行显示 \(\Delta_{\text{llh}}\) 随着训练步骤的增加而上升。

Figure 1: Learning curves showing decreasing MSE and increasing Delta Log-Likelihood over fine-tuning steps.

紫色线条 (GPT-2 Small) 和蓝色线条 (GPT-2 Large) 都显示出明显的改善。这证实了在数学上确实可以调整 LM 的内部概率,使其更好地与生物处理数据对齐。

模型学到了什么?

当研究人员分析回归系数时,他们发现了一些有趣的事情。记住,线性模型是基于多个因素 (包括词长和惊奇度) 来预测阅读时间的。

随着微调的进行, 惊奇度的系数持续增加 (见下图中左上画面板) 。

Figure 3: Coefficients over fine-tuning. Surprisal coefficient increases, length coefficient decreases.

这意味着为了更好地模仿人类数据,模型学会了更多地依赖可预测性 (惊奇度) ,而较少依赖像词长这样的表面特征。微调后的模型变得对上下文更“敏感”,就像人类读者一样。

巨大的权衡: 心理测量拟合度 vs. 语言建模能力

这正是这篇论文最深刻的发现所在。

在 NLP 世界中,“更好”通常意味着更低的困惑度 (Perplexity) 。 困惑度衡量模型的困惑程度;一个完美的模型会对序列中的下一个词分配高概率 (低困惑度) 。我们通常假设模型越聪明 (困惑度越低) ,它就越“像人”。

然而,最近的研究暗示了一种分歧: 超大型模型 (如 GPT-4) 实际上比更小、更笨的模型在预测人类阅读时间方面表现更差。其理论是,这些模型是“超人类”的——它们能太容易地预测接下来的词,以至于它们无法反映人类在处理复杂句子时所面临的困难。

这篇论文为该理论提供了因果证据。通过强制模型与人类阅读时间对齐 (增加 \(\Delta_{\text{llh}}\)) ,研究人员观察到困惑度变差了。

Figure 2: Plot showing the inverse relationship between Perplexity and Delta Log-Likelihood.

在上图中,y 轴是心理测量拟合度 (\(\Delta_{\text{llh}}\)),x 轴是 Log 困惑度。随着曲线向上移动 (更好的阅读预测) ,它们同时也向右移动 (更差的语言建模) 。

这暗示了一种根本性的张力。为了准确地模拟人类思维,我们必须让我们的 AI 模型在预测文本方面变得更差。我们必须引入生物大脑所具有的同样的不确定性和低效率。

正则化的作用

研究人员发现,KL 正则化项 (由参数 \(\lambda\) 控制) 对于管理这种权衡至关重要。

Figure 4: Trajectories of metrics for different KL coefficient values.

  • \(\lambda = 0\) (无正则化): 模型变成了阅读时间的极佳预测器 (高 \(\Delta_{\text{llh}}\)) ,但其困惑度激增。作为语言生成器,它基本上“坏掉”了。
  • \(\lambda = 500\) (强正则化): 模型保留了其语言能力 (困惑度变化小) ,但在预测阅读时间方面的提升较少。

这证实了“人类阅读”分布 (\(p_H\)) 在数学上不同于“最佳文本预测”分布 (\(p_{\text{ref}}\))。你无法同时最大化两者。

像人类一样思考会让你变聪明吗?

如果我们训练一个模型像人类一样处理信息,它在理解语言任务方面会变得更好吗?

为了测试这一点,研究人员在 BLiMP (语法判断) 和 LAMBADA (叙事预测) 等基准上评估了微调后的模型。

结果令人清醒。

Figure 5: Results on BLiMP showing decreased accuracy after fine-tuning.

带斜线的条形代表原始模型;实心条形代表微调后的模型。几乎在所有情况下, 在人类阅读数据上微调都降低了下游 NLP 任务的性能。

这加强了“权衡”假设。人类认知是嘈杂的,受限于工作记忆,且容易出错。一个优化用于模仿这些生物限制的 AI,自然在需要完美统计推理的任务上能力会“较弱”。

结论: 为什么这很重要

“Reverse-Engineering the Reader” 是计算心理语言学中具有里程碑意义的一步。它超越了被动观察——检查 LM 是否碰巧看起来像人类——转向了主动实验。

学生和研究人员的主要收获包括:

  1. 对齐是可能的: 我们可以直接在神经网络的损失函数中使用心理测量数据 (如眼动追踪) 。我们不必仅仅依赖文本预测或人类偏好标注。
  2. 困惑度差距: 模型的统计质量与其对人类处理数据的拟合度之间存在因果负相关关系。为了模拟人类,你可能不得不给最先进的 AI 做个“脑叶切除术”。
  3. 科学新工具: 这种方法给心理学家提供了一种新工具。与其争论哪个预训练模型最符合他们的理论,不如生成针对其特定假设优化过的定制模型,从而可能揭示人类认知的隐藏参数。

随着我们继续构建与我们互动的 AI,理解“人工”概率与“人类”期望之间的分歧变得至关重要。这篇论文表明,如果我们想让 AI 真正理解我们是如何阅读的,我们可能必须教它在处理文本时多费一点劲——就像我们一样。