AI 如何像人类一样阅读：深入解析 ScanEZ

引言

阅读感觉像是一个连续、流畅的过程。当你的眼睛扫过这句话时，你似乎瞬间吸收了其中的含义——或者说，这是你的感觉。实际上，人类的阅读是一场跳跃且不稳定的“芭蕾”。你的眼睛进行着快速的移动，称为扫视 (saccades) , 并在特定的点短暂亦停留，称为注视 (fixations) 。你可能会跳过像“the”这样常见的单词，在“spatiotemporal (时空的) ”这样复杂的单词上停留更久，甚至回跳 (回视) 去重读一个令人困惑的短语。

这一系列的眼球运动——包括空间坐标和在每个点停留的时间——被称为扫描路径 (scanpath) 。

对于计算机科学家和认知心理学家来说，预测这些扫描路径是阅读理解建模的“圣杯”。如果人工智能 (AI) 能够准确预测人类如何视觉化地处理文本，这将为革命性的应用打开大门。想象一下，能够实时检测阅读困难的教育软件，或者能够像人类专家一样带有细微差别地“阅读”文档的自然语言处理 (NLP) 模型。

然而，存在一个主要的瓶颈: 数据稀缺 。收集高质量的眼动追踪数据需要昂贵的设备和人类参与者。虽然像 GPT-4 这样的大型语言模型 (LLM) 是在数万亿个单词上训练出来的，但眼动追踪数据集通常只包含几千个句子。

在这篇文章中，我们将深入探讨 ScanEZ , 这是由科罗拉多大学博尔德分校、马尔堡大学和 HK3Lab 的研究人员提出的一个新框架。这篇论文针对数据短缺问题提出了一个巧妙的解决方案: 研究人员不再等待更多的人类数据，而是利用认知科学教 AI “臆想”出阅读模式，然后再用真实的人类行为对其进行提炼。

挑战: 有限数据下的时空建模

要理解 ScanEZ 为何如此重要，我们首先需要理解问题的复杂性。扫描路径不仅仅是一串单词列表；它是一个时空 (spatiotemporal) 轨迹。

空间 (\(x, y\)): 眼睛落在哪里？眼睛并不总是落在单词的中心。它们落在特定的字符上，这通常受下一个单词的长度或当前单词的语言复杂性影响。
时间 (\(t\)): 眼睛在那里停留多久？注视持续时间是认知处理的直接代理指标。较长时间的停顿通常表明大脑正在更努力地处理句法或意义。

以前的大多数方法要么将其视为纯粹的序列问题，要么只关注空间方面 (单词的顺序) 。它们经常忽略持续时间 (\(t\))，错过了故事的一半。此外，深度学习模型极其依赖数据。如果没有海量数据集，它们很难进行泛化。

ScanEZ 框架通过结合自监督学习 (SSL) 和认知模型来解决这个问题。

解决方案: ScanEZ 框架

ScanEZ 的核心理念是架起两个世界的桥梁: 现代深度学习的数据驱动世界和认知科学的理论驱动世界。

该框架分两个阶段运行: 预训练 (Pre-training) 和微调 (Fine-tuning) 。

结合合成数据和人类眼动数据进行扫描路径预测的工作流程概览。使用 E-Z Reader 模型从 CNN + DM 文本生成的合成扫描路径用于 SCANEZ 的预训练阶段。然后模型在真实的人类数据上进行微调。

如上图 1 所示，该过程从合成数据开始，以真实人类数据结束。让我们分解这个架构的每个组件。

1. 使用 E-Z Reader 生成合成数据

由于真实的眼动追踪数据稀缺，研究人员提出疑问: 我们能生成逼真的假数据吗？

为此，他们利用了 E-Z Reader (Reichle et al., 2003)，这是一个完善的计算认知模型。E-Z Reader 不是神经网络；它是一组源自数十年心理学研究的数学规则。它模拟大脑如何处理单词并指挥眼睛移动。它考虑了诸如以下的因素:

词频 (Word Frequency): 这个词有多常见？
可预测性 (Predictability): 这个词在这个上下文中出现的可能性有多大？
视觉敏锐度 (Visual acuity): 周边视觉中的文本有多清晰？

研究人员使用了海量的 CNN & Daily Mail 语料库 (新闻文章合集) ，并将其输入到 E-Z Reader 模型中。结果是一个包含数百万条合成扫描路径的数据集。虽然这些模拟并不完全像人类，但它们提供了强大的“归纳偏置 (inductive bias)”——即对阅读如何运作的基本理解。

这种合成数据与可用的人类数据在规模上的差异是惊人的:

表 2: 所用数据集的描述性统计。上部分: 用于预训练的合成数据集；下部分: 实验中使用的人类数据集。

如表 2 所示，合成预训练数据 (CNN + Daily Mail) 包含超过 1000 万个模拟句子。相比之下，真实的人类数据集 (CELER, ZuCo, EML) 仅包含几百到几千个句子。正是这个巨大的合成数据集使得 ScanEZ 能够在看到真实的人类眼球运动之前就学习到稳健的表征。

2. 模型架构

ScanEZ 的核心是一个 BERT 风格的 Transformer 。如果你熟悉 NLP，你就会知道 Transformer 非常擅长处理序列。

模型的输入是一个注视点序列。每个注视点由三个数字表示:

\(x\) 坐标
\(y\) 坐标
\(t\) (持续时间)

这些输入被归一化并通过一个嵌入层投影到密集的向量空间中。模型将正弦位置编码 (sinusoidal positional encodings) 添加到这些嵌入中。这至关重要，因为与严格按顺序处理数据的循环神经网络 (RNN) 不同，Transformer 是一次性处理整个序列的。位置编码告诉模型注视的顺序 (即，“这个注视是第 1 个，那个是第 2 个”) 。

3. 掩码注视建模 (Masked Gaze Modeling)

模型实际上是如何学习的？研究人员采用了一种称为掩码语言建模 (Masked Language Modeling, MLM) 的技术，该技术因 BERT 而闻名。

在 NLP 中，MLM 的工作原理是隐藏句子中的一个单词 (例如，“The cat sat on the [MASK]”) ，并强迫 AI 根据上下文猜测缺失的单词。ScanEZ 对眼球运动做完全相同的事情。

研究人员随机掩盖轨迹中一定比例的注视点。模型看到周围的上下文——缺失点之前和之后的眼睛位置——并且必须预测被掩盖注视点的空间坐标 (\(x, y\)) 和持续时间 (\(t\)) 。

这迫使模型学习阅读行为中深层的、潜在的依赖关系。例如，它学习到对困难主题的注视通常伴随着回视，或者简短的功能词经常被跳过。

4. 损失函数

为了训练模型，研究人员使用了一个损失函数来衡量模型的预测与真实值相比有多“错误”。具体来说，他们使用掩码索引的均方误差 (MSE)。

表示用于训练的损失函数的方程。

在这个方程中:

\(\mathcal{M}\) 代表被掩盖项的集合 (模型必须猜测的项) 。
\(X_i\) 是实际的真实值 (真实的坐标和时间) 。
\(\hat{X}_i\) 是模型的预测值。

模型试图最小化这种差异，从而磨练其精确预测读者将在何处以及多长时间内进行注视的能力。

实验设置

为了证明 ScanEZ 的有效性，研究人员将其与目前最先进的模型 Eyettention (Deng et al., 2023) 进行了测试。

他们使用了三个不同的人类数据集进行微调和评估:

CELER L1: 母语为英语的人阅读《华尔街日报》的句子。
ZuCo 1.0: 来自维基百科和电影评论的句子。
EML: 一个包含教育文本 (生物学、历史) 的复杂数据集，比标准句子更难处理。

评估指标

评估扫描路径很棘手。你不能仅仅问“它找到了正确的单词吗？”，因为注视发生在连续的空间和时间中。研究人员使用了几种指标:

NLL (负对数似然): 衡量预测的概率分布与真实数据拟合程度的统计量。数值越低越好。
NLD (归一化莱文斯坦距离): 衡量预测的注视序列与真实序列之间的“编辑距离”。数值越低越好。

关键是，他们还引入了针对阅读特定维度的准确性指标:

注视持续时间准确率 (FDA): 该指标衡量预测时间 (\(T_{pred}\)) 与实际时间 (\(T_{ground}\)) 的接近程度。得分为 1 意味着完美预测。

注视持续时间准确率 (FDA) 的方程。

注视位置准确率 (FLA): 这衡量预测的空间坐标 (\(X, Y\)) 与实际着陆位置的接近程度。

注视位置准确率 (FLA) 的方程。

结果: 新的技术水平 (SOTA)

结果令人信服。ScanEZ 在几乎所有的实验设置中都优于基线 (Eyettention)。

逐项对比

让我们看看在 CELER L1 数据集上的表现。研究人员使用“参与者 + 文本划分 (Participant + Text Split, P.T.)”测试了模型，这是最难的设置。在这种情况下，模型在测试时面对的是新的参与者阅读它在训练期间从未见过的新文本。

表 1: 上部分: 在 CELER L1 数据集 (CLR) 上，我们的框架与 Eyettention 的对比，以及我们的模型在不同训练条件下的对比: 仅使用 EZ-Reader 数据 (w/o Fine-tuning) ，仅使用人类数据 (w/o Pre-training) ，以及同时使用 EZ-Reader 预训练和人类数据微调 (ScanEZ) 。下部分: 使用 EML 数据集的评估。

参考 表 1 (上部分) :

NLL (越低越好): ScanEZ 获得了 1.524 的分数，显著低于 Eyettention 的 2.297 。这代表了模型拟合数据能力的巨大提升。
NLD (越低越好): ScanEZ 得分为 0.421 , 而 Eyettention 为 0.568 。这意味着 ScanEZ 预测的扫描路径在结构上更接近人类行为。

先“学着读”再阅读的力量

这篇论文最有趣的部分之一是消融实验 (Ablation Study)——研究人员移除系统的部分组件，看看什么会失效。

看表 1 中标记为 w/o Fine-tuning (无微调) 和 w/o Pre-training (无预训练) 的行:

无微调 (Without Fine-tuning): 如果你只在合成的 E-Z Reader 数据上训练，而从未向模型展示真实的人类眼动数据，表现很差 (NLL 3.035)。这证实了虽然认知模型很好，但它们本身还不够拟人。
无预训练 (Without Pre-training): 如果你跳过合成数据，只在小型人类数据集上训练，模型表现尚可 (NLL 1.772)，但仍不如完整的 ScanEZ 系统。

结论: 两者缺一不可。合成数据起到了“启动”作用，教会模型阅读的一般物理规律。然后，人类数据提炼了这些知识，用人类行为的混乱现实修正了模拟的机械僵化。

详细分类

为了更细致的观察，我们可以看看 ScanEZ 在不同划分策略下的表现。

表 3: 在三种划分设置下 CELER L1 上的表现。我们的模型 ScanEZ 改善了 NLL 和 NLD，并为时间预测设立了基准。

表 3 证实，无论是按文本 (新句子) 还是按参与者 (新读者) 划分数据，ScanEZ 始终保持领先。它还提供了 NLL_t 分数 (时间的负对数似然) ，这是 Eyettention 无法提供的，因为它没有显式地对时间进行建模。

跨数据集泛化

AI 的一个常见故障模式是“过拟合”——死记硬背一个特定的数据集，但在另一个数据集上失败。为了测试这一点，研究人员在 CELER L1 上训练 ScanEZ，并在 ZuCo 1.0 上进行测试 (反之亦然) 。

表 4: 遵循训练-测试集组合的跨数据集结果。基于 NLL，我们的模型展示了比 Eyettention 更好的迁移性能。

如 表 4 所示，ScanEZ 展示了卓越的可迁移性。当在 CELER L1 上训练并在 ZuCo 上测试时，它的 NLL 达到了 0.548 , 而 Eyettention 则飙升至 2.613 。这表明 ScanEZ 不仅仅是在记忆数据集的怪癖；它正在学习阅读行为的普遍原则。

意义何在

ScanEZ 代表了我们在处理数据受限问题方式上的转变。作者没有将眼动追踪数据的稀缺视为死胡同，而是利用了嵌入在数十年认知科学中的丰富知识。

通过将心理学理论 (E-Z Reader) 转化为数据集，他们有效地将人类知识“下载”成 Transformer 可以理解的格式。

主要收获:

混合方法: 结合认知模型 (模拟) 和深度学习 (Transformer) 比单独使用任何一种方法都能产生更好的结果。
时空至关重要: 阅读关乎在哪里和何时。对注视持续时间进行建模可以提高轨迹的整体准确性。
自监督学习: 掩码建模目标允许 AI 学习眼球运动中的复杂依赖关系，而无需为每种可能的情况提供标记数据。

这项研究为更具“人类意识”的 AI 铺平了道路。在未来，你的电子阅读器可能会注意到你在某一段落上很吃力并提供定义，或者搜索引擎可能会检测到你正在略读并提供摘要。通过理解扫描路径，AI 得以一窥读者的思维。

引言#

挑战: 有限数据下的时空建模#

解决方案: ScanEZ 框架#

1. 使用 E-Z Reader 生成合成数据#

2. 模型架构#

3. 掩码注视建模 (Masked Gaze Modeling)#

4. 损失函数#

实验设置#

评估指标#

结果: 新的技术水平 (SOTA)#

逐项对比#

先“学着读”再阅读的力量#

详细分类#

跨数据集泛化#

意义何在#

引言