如果你曾经学过一门新语言、为了医学执照考试死记硬背,或者记忆冷知识,你可能对 Anki 或 SuperMemo 这样的间隔重复系统 (SRS) 并不陌生。这些工具是高效学习的黄金标准。它们通过在你即将遗忘的确切时刻安排抽认卡复习,从而最大化你的记忆效率。
然而,标准的 SRS 算法有一个明显的盲点: 它们是“文盲”。
对于像 FSRS (Free Spaced Repetition Scheduler) 或 SM-2 这样的传统算法来说,抽认卡“谁是美国第一任总统?”和抽认卡“谁是乔治·华盛顿?”在数学上是毫无关系的。它们仅仅是 ID #101 和 ID #102。如果你学习了 ID #101 并证明你完全掌握了它,系统不会更新它对 ID #102 的预测。它将每一张新卡片都视为一张白纸,忽略了人类大脑所依赖的语义联系。
在一篇题为 “KAR³L: Knowledge-Aware Retrieval and Representations aid Retention and Learning in Students” 的引人入胜的论文中,来自耶鲁大学、马里兰大学和乔治华盛顿大学的研究人员提出了一个解决方案。他们引入了 内容感知调度 (Content-Aware Scheduling) , 这一范式转变允许算法“阅读”卡片并理解它们之间的关系。
这篇文章将详细拆解他们的模型——KAR³L,它是如何利用自然语言处理 (BERT) 、信息检索以及一种新颖的教学策略,不仅预测你知道什么,而且实际上帮助你比现有最先进的调度器学得更快。
“内容无关”调度的问题
要理解为什么 KAR³L 是必要的,我们首先需要看看当前的学生模型是如何工作的。
大多数抽认卡应用程序依赖于学习历史数据。它们跟踪:
- 你做对还是做错了 (响应) 。
- 距离上次看到这张卡片已经过去了多久 (时间差) 。
- 你过去复习的序列。
当神经网络应用于这些历史数据时,这被称为 深度知识追踪 (Deep Knowledge Tracing, DKT) 。 虽然有效,但这种方法忽略了卡片上的文本。
想象一个学生正在学习美国历史。他们复习了一张询问美国第二任总统的卡片,并正确回答了“约翰·亚当斯”。人类导师会立即推断出这个学生很可能知道 第一任 美国总统是谁,或者至少比一个对美国历史一无所知的学生知道的概率要高。
传统算法无法做出这种推断。因为它们无法处理文本,所以无法将知识从一张卡片迁移到语义相关的另一张卡片上。这会导致效率低下,例如安排学生明显已经知道的卡片,或者未能强化那些正在遗忘的相关概念。
KAR³L 登场: 内容感知模型
研究人员开发了 KAR³L (Knowledge-Aware Retrieval and Representations for Retention and Learning,用于保持和学习的知识感知检索与表示) 。这是一个结合了深度知识追踪的优势与大语言模型 (LLM) 的语义理解能力的学生模型。
架构
从高层次来看,KAR³L 预测学生在特定时间 (\(t\)) 回忆起特定抽认卡 (\(f_t\)) 的概率。与以前只关注卡片 ID 的模型不同,KAR³L 关注的是 内容。

如上图 1 所示,该过程分为三个不同的阶段:
- 检索 (Retrieval) : 模型查看当前的抽认卡 (例如,“谁是第一任美国总统?”) ,并在学生的学习历史中搜索他们过去学过的语义最相似的卡片 (例如,“谁是第二任美国总统?”) 。
- 表示 (Representation) : 它使用 BERT 创建当前卡片和检索到的历史卡片的向量嵌入。它将这些嵌入与“抽认卡级特征” (如距离上次复习的时间) 相结合。
- 预测 (Prediction) : 一个分类器 (CLF) 分析这些组合输入,输出预测的回忆概率 (例如,0.8 或 80%) 。
让我们深入探讨两个最具创新性的组件: 检索机制和表示策略。
1. 语义检索: 寻找相关的过去
标准的深度知识追踪 (DKT) 模型通常将学生 完整 的历史序列输入到循环神经网络 (RNN) 或 Transformer 中。虽然这对短序列有效,但现实世界中的学生可能拥有跨越数十个主题、数千张卡片的学习历史。
如果你正在学习一张关于日本文学的卡片,你三周前在数学卡片上的表现本质上就是噪音。它会干扰模型。
KAR³L 利用 检索增强生成 (Retrieval-Augmented Generation) 原理解决了这个问题。它不使用全部历史记录;它只选择前 \(k\) 个最相关的卡片。

图 4 完美地说明了这一点。一个学生正在看一张关于“源氏物语” (日本文学) 的新卡片。
- 按时间顺序的历史 (Past-3) : 学生最后复习的三张卡片是关于厨房和欧洲历史的。这些是不相关的。
- 检索到的历史 (Top-3) : KAR³L 搜索历史记录并提取关于“日本小说”和“神道教”的卡片,即使它们是几天前学的。
这种检索确保了模型基于相关的领域知识进行预测。
它是如何计算相似度的? 研究人员使用了预训练的 BERT 嵌入。过去卡片 (\(f_i\)) 和当前卡片 (\(f_t\)) 之间的相似度由它们嵌入的点积决定:

通过使用最大内积搜索 (Maximum Inner-Product Search) ,系统可以即时找到与当前问题相关的特定记忆,模仿人脑利用联想记忆的方式。
2. 特征表示
一旦检索到相关的历史记录,KAR³L 就需要处理它。它不仅仅依赖文本;它将文本与硬数据结合起来。分类器的输入包括:
- BERT 嵌入: 卡片文本的向量表示。
- 复习分布: 学生在相似卡片上做对与做错的次数。
- 时间特征: 距离上次复习的时间 (“遗忘曲线”数据) 。
这种混合方法使 KAR³L 能够理解“乔治·华盛顿”在语义上与“约翰·亚当斯”很接近,同时也承认你已经三个月没有复习美国历史了。
可视化语义连接
KAR³L 最强大的功能之一是创建 动态遗忘曲线 。 在传统模型中,遗忘曲线是一个固定的数学衰减——你会随着时间以特定的速率遗忘。
有了 KAR³L,学习一个事实可以“提升”另一个事实的保留曲线,即使你根本没有碰过后者。

在图 3 中,我们看到了卡片 1 (詹姆斯·加菲尔德) 和卡片 2 (亚伯拉罕·林肯) 的遗忘曲线。
- 在第 0 天: 学生学习了卡片 1。
- 在第 10 天: 学生再次复习卡片 1 并回答 正确。
- 结果: 看卡片 2 的曲线 (橙色线) 。即使学生没有学习亚伯拉罕·林肯,知道卡片 2 的概率在第 10 天后也有所 上升。
模型推断: “你刚刚搞定了一个关于美国总统的问题;你对其他总统的记忆可能比我想象的要好。”这就是内容感知调度的精髓。
数据挑战
训练这样一个模型是很困难的,因为大多数开源的抽认卡数据集 (如 Duolingo 或 EdNet) 不发布卡片的 文本——只有 ID 和性能日志。
为了克服这个问题,研究人员建立了自己的抽认卡平台,并招募了 543 名用户进行了为期四个月的学习,生成了 123,143 条学习日志。

他们使用 QANTA 数据集生成抽认卡,该数据集由高质量的冷知识问题组成,涵盖文学、历史和科学等主题。

这种多样性至关重要。如表 5 所示,数据集涵盖了从“摩门经”到“钛”的所有内容,确保模型学会处理各种语义关系。
离线结果: 预测未知
KAR³L 的第一次测试是“离线评估”——向模型输入历史数据,并要求它预测留出的 (held-out) 学习会话的结果。
研究人员将 KAR³L 与几个基线进行了比较:
- Leitner & SM-2: 启发式系统 (基于规则) 。
- HLR: 半衰期回归 (Duolingo 使用) 。
- FSRS: 当前最先进的调度器 (重数学) 。
- LM-KT & GPT-3.5: 其他基于语言模型的方法。
使用的指标是 AUC (曲线下面积,衡量模型区分已知和未知卡片的能力) 和 ECE (预期校准误差,衡量概率百分比的准确性) 。

结果 (表 1) 非常清晰:
- 已见卡片 (Seen Cards) : 对于学生之前学过的卡片,KAR³L 取得了最高的 AUC (0.864) 和最低的校准误差 (0.091) 。它在辨别力上显著优于 FSRS。
- 未见卡片 (Unseen Cards) : 这是一个杀手级功能。像 HLR 和 FSRS 这样的传统模型 无法 对未见过的卡片进行预测 (因此表中为“-”) 。然而,KAR³L 仅通过分析学生在相关卡片上的历史,就在学生从未见过的卡片上取得了 0.786 的 AUC。
这证明了语义检索比仅仅查看原始性能统计数据能更有效地捕捉学生的“知识状态”。
在线评估: Delta 教学策略
能够预测回忆率固然很好,但最终目标是 教学 。 调度器需要一个策略: 一套决定接下来展示 哪张 卡片的规则。
标准策略是基于阈值的 (例如,“当概率降至 90% 以下时显示卡片”) 。但研究人员认为这不是最优的。他们提出了一种 基于增量 (Delta) 的教学策略 。
系统不再维护一个阈值,而是问: “如果现在学习哪张卡片,会产生最大的未来记忆强度增量?”
这个“Delta 分数”的公式是:

它计算了两种情景下未来回忆概率 (\(p_{t'}\)) 的差异: 现在学习这张卡片 vs. 不学习它。
为了计算如果 确实 学习了该卡片的预期未来回忆率,模型必须考虑到学生在复习过程中可能做对也可能做错的事实:

通过优先考虑具有最高 Delta 分数的卡片,调度器将目标锁定在那些学习时机“成熟”的事实上——即复习能为记忆保持提供最大边际效用的卡片。
它真的帮助学生学习了吗?
研究人员对 27 名学生进行了一项对照用户研究。他们比较了 FSRS (当前的黄金标准) 和 KAR³L + Delta 策略 。
他们测量了 测试吞吐量 (Testing Throughput) : 学生每秒测试时间能产生的正确答案数量。这结合了准确性和速度 (流利度) 。
- 准确性: 两个系统都帮助学生的准确率从前测到后测翻了一番 (从约 42% 到约 87%) 。
- 响应时间: 使用 KAR³L 的学生回忆答案的速度明显更快 (6.15 秒 vs FSRS 的 6.58 秒) 。
因为学生在更短的时间内达到了相同的准确率,KAR³L 表现出了更高的 测试吞吐量 。 这表明内容感知调度不仅帮助他们通过了测试;它帮助他们更深入地内化了知识,从而实现了更快、更自信的回忆。
结论与启示
KAR³L 的论文提供了第一个具体的证据,证明与最先进的基于行为的系统相比, 内容感知调度 可以改善学生的学习成果。
通过赋予算法“阅读”的能力,我们不再将学生视为二进制数据 (正确/错误) 的生产者,而是开始将他们视为获取相互关联概念的学习者。KAR³L 证明,如果你知道约翰·亚当斯是谁,算法应该知道你也可能认识乔治·华盛顿。
给未来教育科技 (EdTech) 的关键启示:
- 检索是强大的: 你不需要分析学生的整个人生历史;最相关的语义时刻就足够了。
- 解决冷启动问题: NLP 允许系统预测学生从未接触过的抽认卡的表现。
- 超越阈值的优化: 基于“学习增量 (Learning Delta) ” (最大化收益) 的调度可能比仅仅基于固定遗忘阈值的调度产生更好的流利度。
随着大语言模型变得更快、更高效,我们可以期待下一代学习应用不仅仅是调度器,而是真正理解它们所教 内容 的 AI 导师。
](https://deep-paper.org/en/paper/2402.12291/images/cover.png)