引言

阅读感觉像是一个连续、流畅的过程。当你的眼睛扫过这句话时,你似乎瞬间吸收了其中的含义——或者说,这是你的感觉。实际上,人类的阅读是一场跳跃且不稳定的“芭蕾”。你的眼睛进行着快速的移动,称为扫视 (saccades) , 并在特定的点短暂亦停留,称为注视 (fixations) 。 你可能会跳过像“the”这样常见的单词,在“spatiotemporal (时空的) ”这样复杂的单词上停留更久,甚至回跳 (回视) 去重读一个令人困惑的短语。

这一系列的眼球运动——包括空间坐标和在每个点停留的时间——被称为扫描路径 (scanpath)

对于计算机科学家和认知心理学家来说,预测这些扫描路径是阅读理解建模的“圣杯”。如果人工智能 (AI) 能够准确预测人类如何视觉化地处理文本,这将为革命性的应用打开大门。想象一下,能够实时检测阅读困难的教育软件,或者能够像人类专家一样带有细微差别地“阅读”文档的自然语言处理 (NLP) 模型。

然而,存在一个主要的瓶颈: 数据稀缺 。 收集高质量的眼动追踪数据需要昂贵的设备和人类参与者。虽然像 GPT-4 这样的大型语言模型 (LLM) 是在数万亿个单词上训练出来的,但眼动追踪数据集通常只包含几千个句子。

在这篇文章中,我们将深入探讨 ScanEZ , 这是由科罗拉多大学博尔德分校、马尔堡大学和 HK3Lab 的研究人员提出的一个新框架。这篇论文针对数据短缺问题提出了一个巧妙的解决方案: 研究人员不再等待更多的人类数据,而是利用认知科学教 AI “臆想”出阅读模式,然后再用真实的人类行为对其进行提炼。

挑战: 有限数据下的时空建模

要理解 ScanEZ 为何如此重要,我们首先需要理解问题的复杂性。扫描路径不仅仅是一串单词列表;它是一个时空 (spatiotemporal) 轨迹。

  1. 空间 (\(x, y\)): 眼睛落在哪里?眼睛并不总是落在单词的中心。它们落在特定的字符上,这通常受下一个单词的长度或当前单词的语言复杂性影响。
  2. 时间 (\(t\)): 眼睛在那里停留多久?注视持续时间是认知处理的直接代理指标。较长时间的停顿通常表明大脑正在更努力地处理句法或意义。

以前的大多数方法要么将其视为纯粹的序列问题,要么只关注空间方面 (单词的顺序) 。它们经常忽略持续时间 (\(t\)),错过了故事的一半。此外,深度学习模型极其依赖数据。如果没有海量数据集,它们很难进行泛化。

ScanEZ 框架通过结合自监督学习 (SSL)认知模型来解决这个问题。

解决方案: ScanEZ 框架

ScanEZ 的核心理念是架起两个世界的桥梁: 现代深度学习的数据驱动世界和认知科学的理论驱动世界。

该框架分两个阶段运行: 预训练 (Pre-training)微调 (Fine-tuning)

结合合成数据和人类眼动数据进行扫描路径预测的工作流程概览。使用 E-Z Reader 模型从 CNN + DM 文本生成的合成扫描路径用于 SCANEZ 的预训练阶段。然后模型在真实的人类数据上进行微调。

如上图 1 所示,该过程从合成数据开始,以真实人类数据结束。让我们分解这个架构的每个组件。

1. 使用 E-Z Reader 生成合成数据

由于真实的眼动追踪数据稀缺,研究人员提出疑问: 我们能生成逼真的假数据吗?

为此,他们利用了 E-Z Reader (Reichle et al., 2003),这是一个完善的计算认知模型。E-Z Reader 不是神经网络;它是一组源自数十年心理学研究的数学规则。它模拟大脑如何处理单词并指挥眼睛移动。它考虑了诸如以下的因素:

  • 词频 (Word Frequency): 这个词有多常见?
  • 可预测性 (Predictability): 这个词在这个上下文中出现的可能性有多大?
  • 视觉敏锐度 (Visual acuity): 周边视觉中的文本有多清晰?

研究人员使用了海量的 CNN & Daily Mail 语料库 (新闻文章合集) ,并将其输入到 E-Z Reader 模型中。结果是一个包含数百万条合成扫描路径的数据集。虽然这些模拟并不完全像人类,但它们提供了强大的“归纳偏置 (inductive bias)”——即对阅读如何运作的基本理解。

这种合成数据与可用的人类数据在规模上的差异是惊人的:

表 2: 所用数据集的描述性统计。上部分: 用于预训练的合成数据集;下部分: 实验中使用的人类数据集。

如表 2 所示,合成预训练数据 (CNN + Daily Mail) 包含超过 1000 万个模拟句子。相比之下,真实的人类数据集 (CELER, ZuCo, EML) 仅包含几百到几千个句子。正是这个巨大的合成数据集使得 ScanEZ 能够在看到真实的人类眼球运动之前就学习到稳健的表征。

2. 模型架构

ScanEZ 的核心是一个 BERT 风格的 Transformer 。 如果你熟悉 NLP,你就会知道 Transformer 非常擅长处理序列。

模型的输入是一个注视点序列。每个注视点由三个数字表示:

  • \(x\) 坐标
  • \(y\) 坐标
  • \(t\) (持续时间)

这些输入被归一化并通过一个嵌入层投影到密集的向量空间中。模型将正弦位置编码 (sinusoidal positional encodings) 添加到这些嵌入中。这至关重要,因为与严格按顺序处理数据的循环神经网络 (RNN) 不同,Transformer 是一次性处理整个序列的。位置编码告诉模型注视的顺序 (即,“这个注视是第 1 个,那个是第 2 个”) 。

3. 掩码注视建模 (Masked Gaze Modeling)

模型实际上是如何学习的?研究人员采用了一种称为掩码语言建模 (Masked Language Modeling, MLM) 的技术,该技术因 BERT 而闻名。

在 NLP 中,MLM 的工作原理是隐藏句子中的一个单词 (例如,“The cat sat on the [MASK]”) ,并强迫 AI 根据上下文猜测缺失的单词。ScanEZ 对眼球运动做完全相同的事情。

研究人员随机掩盖轨迹中一定比例的注视点。模型看到周围的上下文——缺失点之前和之后的眼睛位置——并且必须预测被掩盖注视点的空间坐标 (\(x, y\))持续时间 (\(t\))

这迫使模型学习阅读行为中深层的、潜在的依赖关系。例如,它学习到对困难主题的注视通常伴随着回视,或者简短的功能词经常被跳过。

4. 损失函数

为了训练模型,研究人员使用了一个损失函数来衡量模型的预测与真实值相比有多“错误”。具体来说,他们使用掩码索引的均方误差 (MSE)。

表示用于训练的损失函数的方程。

在这个方程中:

  • \(\mathcal{M}\) 代表被掩盖项的集合 (模型必须猜测的项) 。
  • \(X_i\) 是实际的真实值 (真实的坐标和时间) 。
  • \(\hat{X}_i\) 是模型的预测值。

模型试图最小化这种差异,从而磨练其精确预测读者将在何处以及多长时间内进行注视的能力。

实验设置

为了证明 ScanEZ 的有效性,研究人员将其与目前最先进的模型 Eyettention (Deng et al., 2023) 进行了测试。

他们使用了三个不同的人类数据集进行微调和评估:

  1. CELER L1: 母语为英语的人阅读《华尔街日报》的句子。
  2. ZuCo 1.0: 来自维基百科和电影评论的句子。
  3. EML: 一个包含教育文本 (生物学、历史) 的复杂数据集,比标准句子更难处理。

评估指标

评估扫描路径很棘手。你不能仅仅问“它找到了正确的单词吗?”,因为注视发生在连续的空间和时间中。研究人员使用了几种指标:

  • NLL (负对数似然): 衡量预测的概率分布与真实数据拟合程度的统计量。数值越低越好。
  • NLD (归一化莱文斯坦距离): 衡量预测的注视序列与真实序列之间的“编辑距离”。数值越低越好。

关键是,他们还引入了针对阅读特定维度的准确性指标:

注视持续时间准确率 (FDA): 该指标衡量预测时间 (\(T_{pred}\)) 与实际时间 (\(T_{ground}\)) 的接近程度。得分为 1 意味着完美预测。

注视持续时间准确率 (FDA) 的方程。

注视位置准确率 (FLA): 这衡量预测的空间坐标 (\(X, Y\)) 与实际着陆位置的接近程度。

注视位置准确率 (FLA) 的方程。

结果: 新的技术水平 (SOTA)

结果令人信服。ScanEZ 在几乎所有的实验设置中都优于基线 (Eyettention)。

逐项对比

让我们看看在 CELER L1 数据集上的表现。研究人员使用“参与者 + 文本划分 (Participant + Text Split, P.T.)”测试了模型,这是最难的设置。在这种情况下,模型在测试时面对的是的参与者阅读它在训练期间从未见过的文本。

表 1: 上部分: 在 CELER L1 数据集 (CLR) 上,我们的框架与 Eyettention 的对比,以及我们的模型在不同训练条件下的对比: 仅使用 EZ-Reader 数据 (w/o Fine-tuning) ,仅使用人类数据 (w/o Pre-training) ,以及同时使用 EZ-Reader 预训练和人类数据微调 (ScanEZ) 。下部分: 使用 EML 数据集的评估。

参考 表 1 (上部分) :

  • NLL (越低越好): ScanEZ 获得了 1.524 的分数,显著低于 Eyettention 的 2.297 。 这代表了模型拟合数据能力的巨大提升。
  • NLD (越低越好): ScanEZ 得分为 0.421 , 而 Eyettention 为 0.568 。 这意味着 ScanEZ 预测的扫描路径在结构上更接近人类行为。

先“学着读”再阅读的力量

这篇论文最有趣的部分之一是消融实验 (Ablation Study)——研究人员移除系统的部分组件,看看什么会失效。

看表 1 中标记为 w/o Fine-tuning (无微调) 和 w/o Pre-training (无预训练) 的行:

  1. 无微调 (Without Fine-tuning): 如果你只在合成的 E-Z Reader 数据上训练,而从未向模型展示真实的人类眼动数据,表现很差 (NLL 3.035)。这证实了虽然认知模型很好,但它们本身还不够拟人
  2. 无预训练 (Without Pre-training): 如果你跳过合成数据,只在小型人类数据集上训练,模型表现尚可 (NLL 1.772),但仍不如完整的 ScanEZ 系统。

结论: 两者缺一不可。合成数据起到了“启动”作用,教会模型阅读的一般物理规律。然后,人类数据提炼了这些知识,用人类行为的混乱现实修正了模拟的机械僵化。

详细分类

为了更细致的观察,我们可以看看 ScanEZ 在不同划分策略下的表现。

表 3: 在三种划分设置下 CELER L1 上的表现。我们的模型 ScanEZ 改善了 NLL 和 NLD,并为时间预测设立了基准。

表 3 证实,无论是按文本 (新句子) 还是按参与者 (新读者) 划分数据,ScanEZ 始终保持领先。它还提供了 NLL_t 分数 (时间的负对数似然) ,这是 Eyettention 无法提供的,因为它没有显式地对时间进行建模。

跨数据集泛化

AI 的一个常见故障模式是“过拟合”——死记硬背一个特定的数据集,但在另一个数据集上失败。为了测试这一点,研究人员在 CELER L1 上训练 ScanEZ,并在 ZuCo 1.0 上进行测试 (反之亦然) 。

表 4: 遵循训练-测试集组合的跨数据集结果。基于 NLL,我们的模型展示了比 Eyettention 更好的迁移性能。

表 4 所示,ScanEZ 展示了卓越的可迁移性。当在 CELER L1 上训练并在 ZuCo 上测试时,它的 NLL 达到了 0.548 , 而 Eyettention 则飙升至 2.613 。 这表明 ScanEZ 不仅仅是在记忆数据集的怪癖;它正在学习阅读行为的普遍原则。

意义何在

ScanEZ 代表了我们在处理数据受限问题方式上的转变。作者没有将眼动追踪数据的稀缺视为死胡同,而是利用了嵌入在数十年认知科学中的丰富知识。

通过将心理学理论 (E-Z Reader) 转化为数据集,他们有效地将人类知识“下载”成 Transformer 可以理解的格式。

主要收获:

  1. 混合方法: 结合认知模型 (模拟) 和深度学习 (Transformer) 比单独使用任何一种方法都能产生更好的结果。
  2. 时空至关重要: 阅读关乎在哪里何时。对注视持续时间进行建模可以提高轨迹的整体准确性。
  3. 自监督学习: 掩码建模目标允许 AI 学习眼球运动中的复杂依赖关系,而无需为每种可能的情况提供标记数据。

这项研究为更具“人类意识”的 AI 铺平了道路。在未来,你的电子阅读器可能会注意到你在某一段落上很吃力并提供定义,或者搜索引擎可能会检测到你正在略读并提供摘要。通过理解扫描路径,AI 得以一窥读者的思维。