引言
阅读是现代社会生存所需的最基本技能之一,然而,评估一个人对所读内容的理解程度仍然是一个复杂的挑战。传统上,衡量阅读理解能力的唯一实用方法是通过标准化测试——给某人一段文章,然后问他们问题。
虽然这种方法有效,但它有很大的局限性。它是“离线”的,意味着我们只能在阅读过程结束后得到结果。它不能告诉我们读者哪里感到困惑,何时注意力转移,或者他们如何实时处理信息。这本质上是一种“黑盒”方法: 输入文本,输出答案,而我们错过了其间发生的一切。
但是,如果我们能打开这个黑盒呢?如果我们能在理解发生的当下对其进行解码呢?
这就是论文《Fine-Grained Prediction of Reading Comprehension from Eye Movements》 (眼动阅读理解的细粒度预测) 所解决的核心问题。研究人员探讨了是否可以仅根据参与者阅读段落时的眼球运动,来预测单个参与者是否能正确回答单个问题。
这篇博客文章将带你了解他们的方法论、他们为融合文本和注视数据而开发的新颖机器学习架构,以及他们广泛实验得出的令人惊讶的结果。
背景: 眼-脑联系
这项研究的科学基础在于“眼-脑假说” (Just & Carpenter, 1980) ,该假说认为我们看的地方与我们在认知上处理的内容之间存在紧密的时间联系。当你遇到一个生僻词时,你的视线会停留。当一个句子的句法复杂时,你的眼睛可能会回视 (向后跳跃) 以重读之前的单词。这些微小的运动——注视 (fixations) 和扫视 (saccades) ——留下了你认知努力的痕迹。
既往研究的局限性
虽然利用眼动追踪来预测理解能力的想法并不新鲜,但过去的尝试面临几个瓶颈:
- 数据量小: 大多数数据集都很小,参与者少,问题也非常少,难以训练现代的数据饥渴型机器学习模型。
- 粒度粗糙: 过去的研究通常试图预测一个综合得分 (例如,总体的“高 vs. 低”理解水平) ,而不是针对特定问题的特定答案。
- 阅读模式: 大多数研究只关注“普通阅读” (为了大意而阅读) ,而忽略了“信息搜寻” (寻找特定答案) ,后者是现实世界中常见的行为。
OneStop 数据集
为了克服这些限制,作者利用了 OneStop Eye Movements 数据集。这是迄今为止最大的阅读理解眼动追踪语料库。它涉及 360 名参与者阅读《卫报》的文章并回答 486 个多项选择题。
至关重要的是,该数据区分了两种阅读模式:
- 收集 (普通阅读) : 参与者先阅读文本,然后看问题。
- 搜寻 (信息搜索) : 参与者先看问题,然后阅读文本以寻找答案。
该数据集使用 STARC 标注框架对答案进行分类,确保“错误”答案不仅仅是随机的,而是反映了特定类型的误解。

如上表 1 所示,该数据集不仅追踪正确答案 (A),还追踪显示部分理解或看似合理的误解的答案 (B, C, D)。这种粒度允许对预测进行更细致的分析。
挑战: 单项预测
作者定义的核心任务是 细粒度预测 。 他们将“试次 (trial) ”定义为特定参与者阅读特定段落并回答特定问题。
目标是构建一个分类器 \(h\),它接收试次数据 (文本项 \(W\) 和眼动 \(S\)) 并预测结果。
这项任务的第一个变体是 二分类 :
在这里,模型预测 1 表示答案正确,0 表示答案错误。这个公式与测试形式无关——它不在乎是多项选择题还是开放式问题,只在乎读者是否理解了。
第二个变体利用了多项选择的形式:
在这里,模型试图准确预测参与者会选择哪个选项 (\(a_1, a_2, a_3, a_4\)) 。
核心方法: 多模态 Transformer
为了应对这一挑战,作者需要一种方法来结合两种截然不同的数据类型: 自然语言 (文本) 和 生理信号 (眼动) 。 他们利用了 Transformer 模型 (特别是 RoBERTa) 的强大功能,这是现代 NLP 的骨干,并开发了三种不同的架构来整合注视数据。
1. 特征提取
在将眼动输入神经网络之前,必须处理原始信号。眼动仪以 1000 Hz (每秒 1000 次) 记录注视坐标。

如图 1 所示,原始轨迹 (左) 被转换为词级特征 (右) 。对于段落中的每个单词,研究人员提取特定的指标。他们还计算单词的语言属性 (如长度和频率) ,因为我们知道这些属性会影响阅读时间,而与理解无关。
提取的具体特征非常详细,涵盖了停留时间、回视次数和瞳孔大小:

2. 模型架构
作者提出了三种融合注视数据与文本的策略。

A. RoBERTa-QEye (早期融合)
这是最直接的方法 (图 2a) 。模型将眼动特征直接与词嵌入拼接在一起。
对于每个单词 \(w_i\),模型生成一个组合表示 \(Z_{E_{w_i}}\)。这涉及使用全连接层 (\(FC\)) 将眼动特征 (\(E_{w_i}\)) 投影到与词嵌入相同的维度空间,并添加一个学习到的“眼动嵌入”标记 (\(Emb_{eye}\)) :

这创建了一个如下所示的序列: [文本嵌入序列] [分隔符] [眼动特征序列]。然后 Transformer 处理这个长序列,使其能够同时“关注”单词的语义含义和对它们的生理反应。
B. MAG-QEye (中层融合)
该模型 (图 2b) 改编自用于情感分析的“多模态适应门控” (MAG) ,更加微妙。它不是将眼动特征作为新标记附加,而是使用它们来 移动 (Shift) Transformer 层内的文本标记表示。
其理念是根据阅读方式来强调或弱化单词。如果用户在一个特定的词上注视很久,MAG 门控会显著移动该词的向量表示。
在数学上,某一层的单词隐藏表示 (\(Z\)) 由眼动向量 (\(H\)) 进行修改:

这种移动的幅度由一个门控机制控制,该机制同时考虑文本和眼动特征。这允许模型动态决定眼动应该在多大程度上影响文本的含义。
C. PostFusion-QEye (晚期融合)
在这个架构中 (图 2c) ,文本和眼动最初由单独的编码器处理。
- 文本通过标准的语言模型。
- 眼动通过卷积神经网络 (CNN) 。
- 这两个流使用 交叉注意力 (Cross-Attention) 进行合并。
眼动充当“查询 (Query) ”,从文本“键 (Keys) ”和“值 (Values) ”中提取相关信息。这创建了一个统一的“阅读空间”表示。最后,问题本身被用来查询这个组合的阅读表示,将模型的注意力集中在与所问问题最相关的阅读体验部分。
实验设置
为了严格测试这些模型,作者设计了一个严格的评估协议。机器学习中最大的陷阱之一是“数据泄露”——在与测试数据过于相似的数据上训练模型。
为了避免这种情况,他们利用了三种不同的分割机制:
- 新参与者 (New Participant) : 模型在一个它从未见过的人身上进行测试 (但它之前见过这段文本) 。
- 新项目 (New Item) : 模型在一个它从未见过的文本段落上进行测试 (但它之前见过这个参与者) 。
- 新项目和参与者 (New Item & Participant) : 最难的设置。模型既不知道这个人,也不知道这段文本。

图 3 展示了这种复杂的分割。这确保了如果模型表现良好,它不仅仅是记住了“5 号参与者总是猜 B”或“12 号段落真的很难”。
基线模型
作者将他们的新 Transformer 模型与几个基线进行了比较:
- 多数类 (Majority Class) : 简单地猜测最常见的结果。
- 逻辑回归与 CNN: 既往研究中使用的简单模型。
- 纯文本 RoBERTa (Text-only RoBERTa) : 这是一个关键的基线。它仅使用文本 (段落+问题) 来预测正确性。为什么这很重要?因为有些问题客观上比其他问题更难。纯文本模型捕捉了项目的内在难度。任何高于此基线的改进都代表了眼动带来的真实价值。
结果与讨论
那么,眼动能预测理解能力吗?答案是……能,但这很复杂。
二分类结果 (正确 vs. 错误)
表 2 (下) 展示了预测答案是否正确的结果。使用的指标是平衡准确率 (50% 是随机机会) 。

主要结论:
- 任务很难: 最佳准确率徘徊在 59-60% 左右。这比随机 (50%) 要好,但它表明阅读理解是一个嘈杂的过程,不容易仅从注视中解码。
- 文本难度很重要: 纯文本 RoBERTa 基线表现得出奇地好 (约 57-58%) 。这表明很大一部分可预测性仅仅来自于知道“这是一个难题”,而不管人们是如何移动眼睛的。
- 眼动增加了价值: 提出的模型 (RoBERTa-QEye, MAG-QEye, PostFusion-QEye) 始终优于纯文本基线,特别是在“普通阅读” (收集) 模式下。这证明眼动确实包含了文本本身所没有的关于理解的独特信号。
- 泛化很棘手: 模型在“新参与者”上的表现优于“新项目”。模型更容易适应新人在熟悉文本上的阅读风格,而不是理解在完全陌生文本上的阅读行为。
多项选择结果
当预测具体的答案选项 (A, B, C 或 D) 时,随机水平是 25%。

如上表所示,模型再次优于纯文本基线。有趣的是, RoBERTa-QEye (Fixations) 模型在这里表现最好。这种改进具有统计显著性,意味着眼动正在帮助模型区分正确答案和特定的干扰项。
结论与启示
这项研究代表了心理语言学和人工智能交叉领域迈出的重要一步。通过将大规模 Transformer 应用于细粒度眼动追踪数据,作者证明了 以高于随机的准确率预测单项理解是可能的。
然而,相对于纯文本基线的适度提升也是一个现实的检验。我们还没有达到人工智能可以通过你的眼睛完美“读心”的阶段。有几个因素可能解释这一点:
- 信号噪声: 眼动不仅受理解能力影响,还受疲劳、分心和运动噪声的影响。
- 建模限制: 即使是复杂的 Transformer 也可能尚未捕捉到认知处理的复杂时间动态。
- 数据不平衡: 在现实世界的数据中,人们大多能答对问题。预测罕见的困惑情况本来就很困难。
这为什么重要? 尽管存在挑战,但这项工作为未来的“在线”教育工具奠定了基础。想象一下,电子阅读器可以检测到你何时走神或误解了复杂的段落,并提示你重新阅读,或者一个不需要回答问题的自动化测试系统。虽然我们还没有到达那一步,但这篇论文提供了实现这一目标所需的架构蓝图——以及严格的评估标准。
这项研究强调,虽然眼睛可能是心灵的窗户,但要解码它们所看到的内容,不仅需要强大的模型,还需要对它们正在阅读的文本有深刻的理解。
](https://deep-paper.org/en/paper/2410.04484/images/cover.png)