如果你曾发现自己不自觉地替别人补全句子的后半部分,你就直观地理解了语言处理是具有预测性的。当我们阅读或聆听时,不仅仅是被动地接收词汇;我们的大脑会根据上下文积极地预测接下来的内容。
在心理语言学领域,这种现象被形式化为惊奇理论 (Surprisal Theory) 。 其核心原则简单而有力: 处理一个语言单位 (通常以我们的眼睛在上面停留的时间来衡量) 所需的努力与其“惊奇度” (即给定前文语境下该词的出乎意料程度) 成正比。一个高度可预测的词会被快速处理;而一个令人惊讶的词则会导致认知流的停顿,从而导致更长的阅读时间。
多年来,这一理论一直是阅读时间预测的基石,并得到了从 N-gram 模型到现代 Transformer 等各种研究的支持。然而,Opedal 等人的一篇题为 “On the Role of Context in Reading Time Prediction” (论上下文在阅读时间预测中的作用) 的新论文,向我们发起了挑战,要求我们更仔细地审视这一理论。
研究人员确定了一个关键的混淆因素: 频率 (Frequency) 。 罕见的词往往令人惊讶,而常见的词往往是可以预测的。如果我们不仔细将词汇固有的频率与其上下文的可预测性区分开来,我们是否高估了大脑对上下文的依赖?
在这篇深度文章中,我们将探索作者提出的数学框架,用于分离这些变量。我们将了解他们如何利用希尔伯特空间投影来创建“正交化”预测变量,以及他们的实验结果揭示了人类实际处理语言的哪些真相。
第一部分: 阅读难度的常见嫌疑人
在拆解当前的模型之前,我们需要了解起作用的变量。当研究人员试图预测学生盯着句子中的“苹果”一词看多久时,他们通常依赖于源自语言模型 (LMs) 的两个主要概率概念。
1. 频率 (一元惊奇度)
一个词最基本的属性是它在语言中出现的频率,这与上下文无关。“The”很常见;“defenestration” (把某人扔出窗外) 则不常见。
在信息论中,我们经常将频率表示为一元惊奇度 (Unigram Surprisal) 。 如果 \(q_H\) 是一个一元语言模型 (即视词汇为独立事件的模型) ,那么一元惊奇度就是该词的负对数概率:

在本文中,作者将这个量简称为频率 。 众所周知,人类阅读高频词的速度比低频词快。这是一种“无上下文”效应。
2. 上下文惊奇度
这是主角。上下文惊奇度衡量的是一个词在给定其前文历史的情况下有多么出乎意料。如果 \(p_H\) 是一个类人的语言模型,那么在上下文 \(\mathbf{c}\) 下单位 \(\bar{u}\) 的惊奇度为:

惊奇理论认为,阅读时间是该值的一个仿射函数 (线性关系) 。
问题: 共线性
问题就出在这里。频率和上下文惊奇度并不是独立的。
- 相关性: 罕见词 (高一元惊奇度) 通常在上下文中也很难预测 (高上下文惊奇度) 。
- 共线性: 在线性回归模型中,当两个预测变量高度相关时,很难确定究竟是哪个变量在起作用。
如果你建立一个模型声称“上下文惊奇度可以预测阅读时间”,但上下文惊奇度中有 50% 只是伪装的频率,那么你究竟是证明了上下文很重要,还是仅仅再次证明了频率很重要?
第二部分: 新视角——点互信息
为了解决这个问题,作者引入了故事的第三个角色: 点互信息 (Pointwise Mutual Information, PMI) 。
PMI 衡量的是一个词与其上下文之间的关联性。它提出的问题是: “与该词的一般频率相比,在这个特定上下文中出现这个词的可能性要高多少?”
在数学上,PMI 定义为:

这看起来很复杂,但它可以完美地简化。PMI 实际上就是频率与惊奇度之差:

这个恒等式 (方程 10) 至关重要。它揭示了频率 (\(v_H\)) 、惊奇度 (\(\iota_H\)) 和 PMI (\(\mu_H\)) 是线性相关的。如果你有其中两个,就可以构建出第三个。
线性模型的等价性
这对研究有什么影响?许多研究使用线性回归来验证惊奇理论。他们建立的模型如下:
\[ \text{Reading Time} \approx \text{Frequency} + \text{Surprisal} \]作者证明,由于上述线性关系,该模型在数学上等价于:
\[ \text{Reading Time} \approx \text{Frequency} + \text{PMI} \]这意味着任何支持惊奇理论的经验证据同样也是支持“PMI 理论” (一种基于关联性的语言处理观点) 的证据。系数会改变,但预测能力保持完全一致。在使用控制了频率的标准线性模型时,我们无法区分“预测” (惊奇度) 和“关联” (PMI) 。
第三部分: 通过正交化剥离上下文
由于标准回归无法分离这些效应,作者提出了一个几何解决方案。他们将这些概率度量 (频率、惊奇度、PMI) 视为存在于希尔伯特空间 (Hilbert Space) 中的随机变量。
在不陷入泛函分析细节的情况下,可以将希尔伯特空间想象成一个允许我们要测量角度和长度的向量空间。在这个空间中:
- 向量: 我们的预测变量 (频率、惊奇度) 是向量。
- 内积: 变量之间的相关性就像向量之间的夹角。
由于惊奇度和频率是相关的,它们的向量指向某种相似的方向。作者希望分离出惊奇度中“纯粹”的上下文部分——即与频率完全无关的部分。
投影
为了做到这一点,他们执行了一个投影操作。他们将惊奇度向量投影到频率向量的“正交补”上。
简单来说: 他们在数学上从惊奇度向量中减去频率向量,只留下惊奇度中与频率垂直 (不相关) 的分量。
这个正交化惊奇度 (Orthogonalized Surprisal) 预测变量的公式为:

这里:
- \(\mathbf{I}_H\) 是惊奇度向量。
- \(\mathbf{Y}_H\) 是频率向量。
- 分数部分表示它们之间的协方差 (共享信息) 。
结果是一个仅代表上下文本身的新预测变量。通过强制其与频率的相关性为零,作者现在可以问: “当上下文不再能借用频率的解释力时,它实际上解释了多少?”
第四部分: 实验
为了测试这一点,研究人员使用了多语言眼动语料库 (MECO) 。 该数据集追踪了参与者阅读 13 种不同语言的维基百科风格文章时的眼球运动。
他们专注于凝视时长 (Gaze Duration) ——即读者在首次阅读时视线停留在某个词上的总时间。
他们建立了三个相互竞争的线性模型来预测凝视时长:
- 标准模型: 频率 + 标准惊奇度 + 词长。
- PMI 模型: 频率 + PMI + 词长。
- 正交模型: 频率 + 正交化惊奇度 + 正交化词长。
注: 他们还将“词长”作为一个预测变量,因为较长的词自然需要更长的时间阅读。他们也对长度进行了正交化处理,以确保变量的纯度。
指标: 解释方差 (LMG)
他们没有仅仅关注准确性,而是使用了一种称为 LMG (Lindeman, Merenda, and Gold) 的技术。LMG 对 \(R^2\) (总解释方差) 进行分解,以显示每个预测变量究竟应得多少“功劳”。
结果
结果如下图 Figure 1 所示,令人震惊。

让我们来拆解这张图显示的内容:
- 列: 每组代表一种语言 (荷兰语、英语、芬兰语等) 。
- 颜色:
- 红色: 频率 (一元惊奇度) 。
- 蓝色: 词长。
- 绿色: 上下文 (我们要测试的变量) 。
- 行:
- 顶行 (Surprisal) : 使用标准度量。注意绿色条形是可见的,表明上下文有影响。
- 中间行 (PMI) : 使用 PMI。绿色条形稍微缩小。
- 底行 (Orthogonalized) : 这是关键测试。使用解耦的、正交化的惊奇度。
观察结果: 看看底行的绿色条形 。 它们非常微小。
当频率和上下文之间的共享方差被分配给频率时 (这很合乎逻辑,因为频率是更简单、与上下文无关的属性) ,上下文剩余的效应非常小。
在几乎所有语言中 (韩语除外) , 频率 (红色) 和长度 (蓝色) 主导了预测。“纯粹”的上下文信息只能解释阅读时间方差中极小的一部分。
稳健性检验: 非线性模型
有人可能会争辩说,这种关系不是线性的。也许大脑以一种复杂的、曲线的方式处理上下文?
为了解决这个问题,作者运行了广义加性模型 (GAMs) , 该模型允许非线性关系。他们计算了“Delta 对数似然”——本质上是衡量当添加特定预测变量时模型性能提高了多少。

Figure 4 证实了线性的发现。
- 看左边的单预测变量列。 频率 (Freq) 始终是阅读时间最强的单个预测变量。
- 惊奇度 (Surp) 和 PMI 表现尚可,但 正交化惊奇度 (Osurp) 最弱。
- 在右侧,当你组合预测变量 (例如 “Surp & Freq”) 时,模型之间几乎没有差异。
这强化了一种观点,即“标准惊奇度”表现良好主要是因为它包含了频率信息。一旦剥离这些信息 (Osurp) ,它就变成了一个弱预测变量。
第五部分: 影响与结论
这篇论文为心理语言学和自然语言处理 (NLP) 提供了一个清醒的“现实检验”。
1. 上下文被高估了 (在统计学上)
这并不意味着上下文无关紧要。显然,如果你在“河流”之后看到“银行 (bank,也有河岸的意思) ”一词,大脑的处理方式会与在“金钱”之后看到它不同。然而,就一般阅读的原始处理时间而言,词汇的固有属性 (多长、多罕见) 承担了大部分工作。上下文提供的微妙加速作用比我们之前认为的要小得多。
2. 验证“足够好 (Good Enough) ”的方法
结果支持了语言理解的“浅层处理”或“足够好”理论。我们可能在很大程度上依赖启发式方法 (如频率) ,仅在必要时才进行深度、预测性的上下文处理。
3. LLM 的脱节
有趣的是,这有助于解释人工智能研究中最近的一个谜题。更大、更强大的大型语言模型 (LLMs) 在拟合人类阅读时间方面,往往比中等规模的模型表现更差。
为什么?大型 LLM 是上下文大师。它们可以根据长历史以惊人的准确度预测罕见词。但人类并没有那么厉害。通过将上下文预测做得太完美,大型 LLM 最小化了罕见词的惊奇度,这与人类的体验背道而驰——对人类来说,无论上下文如何,罕见词仍然是一个障碍。
总结
Opedal 等人为我们提供了一个新的数学视角——希尔伯特空间投影——来看待一个老问题。通过严格分离频率与上下文的影响,他们证明了“预测性思维”可能比我们意识到的更倾向于“频率主义思维”。
对于认知科学和 NLP 的学生来说,教训是明确的: 相关性不等于因果性,在语言统计的大杂烩中,变量很少是独立的。要真正理解我们如何阅读,我们必须将它们剥离开来,即使结果比我们希望的要少一点“惊奇”。
](https://deep-paper.org/en/paper/2409.08160/images/cover.png)