如果你参加过数学选择题考试,你一定熟悉这种感觉: 你解出一道题,得出答案,然后查看选项。如果你的答案在其中,你就会圈出它。但是,如果你的答案是错的,但它仍然作为一个选项列在其中呢?
这些错误的选项被称为干扰项 (Distractors) 。 在高质量的教育中,干扰项不仅仅是随机数字;它们是精心设计的陷阱,旨在捕捉特定的误解。例如,如果题目问 \(2^3\) 是多少,一个好的干扰项是 \(6\) (捕捉把 \(2 \times 3\) 当成答案的学生) ,而不是 \(5\) (这只是一个随机错误) 。
对于教师来说,创建这些具有“诊断性”的干扰项既困难又耗时。虽然像 GPT-4 这样的大型语言模型 (LLM) 非常擅长解决数学问题,但它们在预测学生如何做错题方面却出奇地糟糕。更重要的是,它们往往难以解释错误答案背后的推理过程。
在最近的一篇论文中,来自马萨诸塞大学阿默斯特分校和 Eedi 的研究人员介绍了 DiVERT (Distractor Generation with Variational Errors Represented as Text,基于文本表示的变分错误干扰项生成) 。这个新的 AI 框架不仅能生成错误的答案,还能揭示其背后的具体“错误故事”。通过教导一个较小的开源模型像困惑的学生一样思考,他们在生成有用的数学干扰项方面超越了像 GPT-4o 这样的大型专有模型。
问题所在: 随机猜测 vs. 可诊断的错误
在教育评估中,目标不仅仅是给学生打分,而是诊断他们的知识漏洞。如果学生选择了一个特定的干扰项,老师应该能够说: “啊,你忘了进位,”或者“你混淆了直径和半径。”
现有的自动化方法主要分为两类:
- 基于规则的系统: 这些系统很僵化,很难扩展到简单算术之外。
- LLM 提示工程: 要求像 GPT-4 这样的模型“生成错误选项”。
标准 LLM 提示工程的问题在于可解释性 。 LLM 可能会给你一个看似合理的错误数字,但它很少理解导致该数字的精确因果链。没有这个因果链,错误答案就无法用于诊断。
研究人员认为,要生成一个好的干扰项 (\(d\)) ,你首先需要理解导致它的潜在错误 (\(e\)) 。
DiVERT 登场: 一种变分方法
DiVERT 的核心创新在于它构建这个问题的方式。它没有将问题直接映射到错误答案 (\(s \to d\)) ,而是强迫 AI 经过一个中间步骤: 错误解释 (\(e\)) 。
研究人员使用变分自编码器 (VAE) 框架来构建这个问题。通常,VAE 用于图像生成,其中图像被压缩成数值向量 (“潜在空间”) ,然后再重构。DiVERT 做了一件令人着迷的事情: 它将文本视为潜在空间。
该系统由三个协同工作的特定 LLM 组成,如下图所示:

让我们分解图 1 中展示的三个组件:
- 错误先验模型 (Error Prior, \(p(e|s)\)) : 这个模型观察数学问题 (\(s\)) 并预测学生错误可能的文本解释 (\(e\)) 。例如,“学生将分子和分母相加,而不是寻找公分母。”
- 干扰项生成器 (Distractor Generator, \(p(d|s, e)\)) : 这个模型利用问题以及上一个模型生成的特定错误文本来计算由此产生的错误答案 (\(d\)) 。
- 错误识别器 (Error Identifier, \(q(e|s, d)\)) : 这是训练期间使用的“侦探”模型。它观察问题和一个特定的错误答案,并试图逆向推导出错误解释。
通过联合训练这些模型,DiVERT 学习到了问题、误解和错误答案之间的结构化关系。
错误的数学原理
为了使该系统正常工作,模型需要最大化生成“好”干扰项 (即学生实际上可能会选的干扰项) 的似然度。给定问题 \(s\) 生成干扰项 \(d\) 的数学概率表示为所有可能错误的求和:

由于对描述错误的所有可能的英文句子进行求和是不可能的,研究人员使用了一种称为证据下界 (ELBO) 的技术。该目标函数平衡了两个目标:
- 重构: 模型能否根据错误准确生成对应的干扰项?
- 正则化: “侦探”模型的解释是否符合我们通常预期的错误描述?
训练目标在数学上定义为:

“软 Token” 技巧
这里有一个主要的技术障碍。在标准机器学习中,你需要整个系统是可微的,以便使用反向传播 (更新 AI 大脑的算法) 。然而, 文本是离散的 。 你不能用微积分稍微调整“添加”这个词让它变成“相乘”。
为了解决这个问题,DiVERT 使用了软 Token (Soft Tokens) 。 模型不是选择一个硬性的单词 (如“分子”) ,而是将概率分布 (单词的加权混合) 传递给下一阶段。这使得梯度信息能够向后流过“文本”瓶颈,允许系统进行端到端学习。
为了防止模型在这个过程中偏离并产生无意义的内容,他们引入了一个正则化项。这确保了模型的错误解释仍然基于教师提供的初始训练数据。

实验: 以小博大
研究人员使用了来自 Eedi (一个数学学习平台) 的真实数据集来测试 DiVERT。该数据集包含 1,400 多个数学问题,并附有专家教师编写的干扰项和错误解释。
他们将 DiVERT (基于 70 亿参数的开源模型 Mistral 构建) 与 GPT-4o 进行了比较,后者是最先进的专有模型,体量大好几个数量级。
定量结果
结果令人震惊。尽管 DiVERT 是一个更小的模型,但在“干扰项生成” (即创建与真实教师编写的问题一致的错误答案的能力) 方面,它优于或匹配了 GPT-4o。
他们使用的一个最稳健的指标是 Prop@10 (比例匹配) ,它衡量在 AI 的前 10 个猜测中包含了多少比例的人工编写的干扰项。
如补充分析中提供的 表 6 所示,DiVERT 获得了 68.75 分,击败了得分 63.89 的最佳 GPT-4o 方法。

少样本学习
DiVERT 最大的优势之一是它的效率。因为它使用变分方法 (学习错误的结构) ,即使没有为每个问题都提供标注好的错误解释,它也能有效地学习。
下面的 图 2 显示了当向模型隐藏错误标签时会发生什么。即使 80% 的训练数据没有提供错误解释,DiVERT (青色线) 仍保持高性能,而标准的微调方法 (黄色和品红色线) 性能则迅速下降。

定性分析: 这合理吗?
数字固然重要,但在教育中,内容的质量才是最重要的。DiVERT 生成的错误听起来像真正的学生吗?
表 3 比较了 DiVERT 和 GPT-4o 在一道关于最小公倍数 (LCM) 的问题上的输出。

注意其中的区别:
- GPT-4o (Zero-shot) 产生了像“质因数”这样复杂的概念幻觉,这可能与导致“5”这个具体错误的推理并不相关。
- DiVERT 识别出了一个非常具体、接地气的误解: “认为只需给出其中一个数字的倍数即可”,从而导致答案“15”。这是一个非常合理的学生错误。
失败案例
DiVERT 并非完美无缺。研究人员进行了错误分析( 表 4 ),发现最常见的失败模式是一致性 。 有时,模型生成了一个完美的错误描述,但计算出的该错误的数值却是错的 (反之亦然) 。

在上面的例子中,模型正确识别了错误“除以分母”,但得出的数字与该逻辑并不完全匹配。这种脱节仍然是未来工作的一个挑战。
人类评估: 教师测试
最后,研究人员邀请真正的数学老师对人类、DiVERT 和 GPT-4o 生成的错误解释质量进行盲评。他们根据相关性、正确性和合理性对这些解释进行评分。

表 5 中的结果是开源 AI 的一次重大胜利。教师对 DiVERT 错误的评分 (3.07) 与人工编写错误的评分 (3.23) 在统计学上相当。两者的得分都显著高于 GPT-4o (2.56) 。
这表明像 GPT-4o 这样通用的“智能”模型往往会把学生错误复杂化,或者臆造出不符合中学课堂现实的理由。而专门训练用于模仿学生误解的 DiVERT,则更好地捕捉到了课堂的“基本事实”。
结论: 个性化学习的未来
DiVERT 展示了我们在教育中应用 AI 方式的关键转变。它超越了单纯的内容生成 (问题和答案) ,转向了教学数据生成 (对误解的解释) 。
通过将“错误”视为基于文本的潜在变量,模型强迫自身具备可解释性。它不能只是猜测一个错误的数字;它必须清楚地表达为什么这个数字是一个合理的错误。
这项技术为高度个性化的自动辅导系统打开了大门。由 DiVERT 驱动的系统不再只是给出通用的“回答错误,请重试”,而是可以观察学生的错误答案,将其映射到潜在的文本错误,并提供反馈,例如: “看起来你把分子相乘了,但请记住——在做分数除法时,我们要先把第二个分数倒过来。”
对于学生和老师来说,这种差异至关重要。
](https://deep-paper.org/en/paper/2406.19356/images/cover.png)