阅读障碍 (Dyslexia) 是最常见的学习障碍之一,估计影响着 9% 到 12% 的人口。它不是视力问题,也与智力无关;确切地说,它是语音解码 (将声音映射到字母) 方面的困难。虽然这种情况是终身的,但早期诊断是确保孩子在教育系统中不掉队的单一最关键因素。

然而,问题在于实施难度。标准的阅读障碍测试组既昂贵又耗时,并且需要受过训练的专家进行一对一的管理,而这些专家并不总是驻扎在学校里。这就造成了一个瓶颈,许多孩子因此被遗漏。

如果我们能够自动、廉价且不引人注意地筛查阅读障碍,情况会怎样?

在最近一篇题为 “Automatic detection of dyslexia based on eye movements during reading in Russian” (基于俄语阅读眼动数据的阅读障碍自动检测) 的研究中,研究人员提出了一种利用深度学习的新颖解决方案。通过追踪儿童阅读时的眼球运动,并将这些序列数据输入长短期记忆 (LSTM) 网络,他们能够以惊人的准确率检测出阅读障碍。这篇文章将分解他们的方法,探讨从静态分析到时间序列分析的转变,以及为什么观察孩子如何阅读比仅仅测量他们读得有多快更重要。

眼与脑的联系

在深入研究算法之前,我们需要了解生物学前提。早在 20 世纪 80 年代的研究就已经确定,虽然阅读障碍不是动眼神经 (眼部肌肉) 缺陷,但阅读障碍者的眼球运动与典型读者存在显著差异。

当我们阅读时,眼睛并不是平滑滑动的。它们会跳跃 (扫视,saccades) 和停留 (注视,fixations) 。对于典型发展的读者来说,随着时间的推移,这个过程会变得高效。对于患有阅读障碍的读者来说,处理语音的困难通常会导致注视时间变长、扫视距离变短以及更多的回视 (regressions,即回头看之前的单词) 。

由于眼球运动反映了解码文本的认知努力,它们提供了一个观察阅读大脑的“窗口”。这使得眼动追踪成为机器学习应用的首选。

数据: 多样化的年轻读者群体

该领域以往研究的局限性之一是使用小型、同质的群体。为了最小化方差,模型通常在同年龄段的参与者上进行训练。然而,现实世界的筛查工具需要跨年龄段工作,因为一年级学生的阅读方式与六年级学生截然不同。

本研究的研究人员使用了一个包含 293 名以俄语为母语的儿童的数据集,年级跨度从一年级到六年级。

  • 221 名儿童 为典型发育。
  • 72 名儿童 被诊断患有发育性阅读障碍。

孩子们阅读了来自“俄语儿童句子语料库”的 30 个句子。这些句子的难度设计在 3-4 年级水平。该数据集的独特之处在于它包含了阅读成熟度的广泛差异。

表1: 按年级组织的两个参与者群体的人口统计和认知特征。斜杠前的数值代表对照组,斜杠后的数值对应阅读障碍参与者。

如上方的表 1 所示,各组按年级、性别和阅读速度进行了特征描述。请注意各年级和条件之间阅读速度 (wpm) 的显著重叠和差异,这使得基于简单阈值的分类变得困难。

核心方法: 从聚合到序列

这篇论文的主要贡献在于眼动数据处理方式的转变。

基线方法 (SVM)

该领域通常使用的“最先进” (SOTA) 参考方法是支持向量机 (SVM) 。这种方法依赖于聚合特征 。 它获取一个阅读会话并计算摘要统计,例如:

  • 平均注视持续时间。
  • 注视总次数。
  • 平均扫视长度。

虽然这种方法有效,但这种聚合扁平化了数据。它将阅读视为一个静态事件,丢失了关于在句子中何时以及何处发生困难的丰富时间信息。

提出的方法 (LSTM)

为了捕捉阅读的时间动态特性,研究人员采用了BiLSTM (双向长短期记忆) 网络。LSTM 是一类专门设计用于处理序列数据的循环神经网络 (RNN) 。与看到“平均注视持续时间”的 SVM 不同,LSTM 看到的是展开的阅读过程: 注视 1 -> 扫视 -> 注视 2 -> 回视 -> 注视 3…

输入特征

该模型不仅仅关注眼睛在看哪里。研究人员为每一次注视构建了一个丰富的输入向量,结合了三种类型的特征:

  1. 人口统计学特征:
  • 年龄和年级: 至关重要,因为小学阶段的阅读技能发展迅速。
  • 性别: 包含在内是因为男孩被诊断为阅读障碍的频率高于女孩。
  1. 注视特定特征:
  • 注视持续时间。
  • 屏幕上的坐标 (X, Y)。
  • 描述移动到下一次注视的扫视细节 (幅度、角度、速度) 。
  1. 语言学特征:
  • 词长和形态: 较长的单词或包含许多语素的单词需要更长的处理时间。
  • 频率和可预测性: 生僻词更难阅读。包含这一点有助于模型理解长时间的注视是因为阅读障碍还是仅仅因为遇到了生词。

架构

序列输入被馈送到 BiLSTM 中。“双向”意味着模型既向前也向后处理注视序列,使其能够理解阅读路径的上下文。

LSTM 的隐藏状态 (代表模型对阅读路径的“记忆”) 被平均并通过线性层。最后,一个 Sigmoid 激活函数输出 0 到 1 之间的概率分数,将读者分类为患有阅读障碍或未患有阅读障碍。

实验与结果

研究人员使用嵌套交叉验证来评估模型,以确保结果具有稳健性,而不仅仅是记住了特定的参与者。他们测试了两种场景:

  1. 读者预测: 使用孩子阅读的所有 30 个句子进行诊断。
  2. 句子预测: 试图仅基于阅读单个句子对孩子进行分类。

性能通过 AUC (受试者工作特征曲线下的面积) 来衡量。AUC 为 0.5 表示随机猜测;1.0 表示完美预测。

LSTM vs. SOTA

结果显示序列模型具有明显优势。

图1: 模型性能总结。SOTA 基线模型使用了年级信息。

如图 1 所示,与 SOTA 基线 (蓝线) 相比,LSTM (红线) 在任何给定的假阳性率下始终实现更高的真阳性率。

  • 读者预测: LSTM 达到了 0.93 的 AUC,显著优于 SOTA 模型的 0.86。
  • 句子预测: 值得注意的是,仅使用单个句子,LSTM 就达到了 0.90 的 AUC。

这表明眼球运动的特定序列包含了聚合统计数据所遗漏的诊断标记。此外,在单句上的高性能表明,有效的筛查不需要冗长、令人疲劳的测试过程。

哪些特征很重要? (消融研究)

为了理解模型如何做出决策,研究人员进行了消融研究——系统地移除特征以观察性能如何下降。

表2: 读者预测和句子预测设置下的 AUC ± 标准误差汇总。

表 2 强调了几个关键发现:

  1. 语言学特征是次要的: 移除词频和可预测性 (LSTM-Ling) 后分数几乎没有下降 (0.92) 。这表明无论文本难度如何,眼球运动模式本身是最强的信号。
  2. 人口统计学特征并非关键: 移除年龄、年级和性别 (LSTM-Demographic) 后 AUC 为 0.90。这对于公平性来说是一个积极的发现;它意味着模型是根据阅读行为来检测阅读障碍,而不仅仅是对年幼儿童或男孩产生偏见。
  3. 注视是关键: 当移除所有眼动特征时 (显然) 下降最显著,但有趣的是,专门移除扫视信息 (LSTM-Saccade) 影响较小。核心信号似乎在于注视——眼睛停留的时间和位置。

讨论与启示

LSTM 的卓越表现强调了时间动态特性在阅读分析中的重要性。阅读是一个过程,而不是一个统计摘要。通过保留注视的顺序,模型可能会捕捉到以语音解码问题为特征的微妙处理挣扎——比如快速重读或不稳定的落点位置。

对年龄的鲁棒性

一个令人惊讶的结果是,增加“年级”信息并没有显着改善模型。这意味着 LSTM 发现了阅读障碍阅读的一个“不变属性”。换句话说,阅读障碍的特定眼动“特征”在一年级学生和六年级学生身上可能看起来很相似,这与一般的阅读不成熟是有区别的。

伦理考量

作者明确解决了潜在的偏见问题。由于男孩被诊断为阅读障碍的频率更高,因此存在模型可能只是学会标记男性参与者的风险。然而,消融研究表明,在没有性别或年龄输入的情况下,模型的表现几乎同样出色。这表明该模型具有鲁棒性,适合进行公平的筛查。

结论

这项研究表明,利用眼动追踪自动检测阅读障碍不仅可行,而且非常准确。通过从静态平均值转向序列深度学习模型 (LSTM) ,我们可以捕捉阅读过程中认知处理的细微差别。

该方法的 AUC 达到 0.93,优于最先进的基线模型,即使是短文本片段也能有效工作。虽然它不能取代临床诊断,但它为一种快速、负担得起且可扩展的筛查工具提供了一条充满希望的道路,这种工具可以部署在学校中——确保有阅读困难的儿童尽早被识别并获得支持。