如果你参加过多项选择题考试,你一定熟悉这样的流程: 阅读问题 (即题干 ),找出正确答案,并忽略其他选项。那些不正确的选项有一个专门的名称: 干扰项 (Distractors)

对于学生来说,干扰项仅仅是障碍。然而对于教育工作者而言,设计干扰项是一项巨大的挑战。一个好的干扰项必须具有足够的合理性以测试学生的理解能力,但又必须明显错误以避免产生歧义。如果干扰项太容易,测试就毫无用处;如果它们与正确答案混淆不清,测试就不公平。

随着人工智能的兴起,手动编写这些选项的繁重任务正逐渐转向自动化。Alhazmi 等人最近的一项全面调查探讨了干扰项生成 (Distractor Generation, DG) 领域。本文将拆解他们的研究,解释人工智能模型——从早期的基于规则的系统到现代的大型语言模型 (LLMs) ——是如何学习这种微妙的“犯错”艺术的。

干扰项生成的版图

干扰项生成是自然语言生成 (NLG) 的一个子任务。目标很简单: 给定一个问题和一个正确答案 (通常还有一段支持性文章) ,生成一组语义相关但实际上不正确的选项。

研究人员根据评估类型将 DG 分为两个主要领域:

  1. 填空题 (Fill-in-the-Blank, FITB) : 也称为完形填空测试 (Cloze tests) 。系统必须预测不正确的单词或短语来填补句子中的空缺。
  2. 多项选择题 (Multiple-Choice Questions, MCQ) : 这包括标准的问答 (QA) 、阅读理解 (RC) 和多模态任务 (涉及图像) 。

为了直观地展示这个领域的广泛程度,作者提供了当前研究版图的分类法,涵盖了任务、数据集和方法。

详细介绍干扰项生成组件的层级流程图,分为任务 (FITB, MCQ) 、方法 (传统、神经网络、预训练模型) 和评估三个分支。

如图 1 所示,该领域已从传统方法迅速转向深度神经网络和预训练模型。在深入探讨复杂的架构之前,让我们先看看任务本身。

任务: 文本与视觉

最常见的 DG 形式处理的是文本。例如,在科学考试中,如果答案是“肺 (lungs) ”,系统需要理解“呼吸系统”的上下文,从而建议“肾脏 (kidneys) ”或“肠道 (intestines) ”,而不是“方向盘”或“快乐”这类无关词汇。

然而,该领域正在超越文本。 多模态问答要求 AI 观察图像并根据视觉线索生成干扰项。

多模态问答任务的视觉示例。展示了一个餐桌布置,并附有问题如“什么是蓝色的?”和“什么是白色的?”。

在上例 (图 2) 中,模型必须识别图像中的物体。如果问题问“什么是白色的?”,而答案是“香草冰淇淋”,干扰项必须是场景中存在或合理的其他物体 (如“盘子”或“雪”) ,但对于被查询的特定边界框来说是不正确的。

同样,还有视觉完形填空 (Visual Cloze) (如下图所示) ,其中的“空白”是序列或食谱中缺失的一张图像。

图 4 标记为视觉完形填空,展示了四个面板。面板 D 是水果沙拉的正确图像,而其他面板则作为视觉干扰项。

在这里,AI 必须理解食谱的时间或逻辑顺序 (例如,切水果要在上菜之前) ,以生成或选择看起来相关但在上下文中错误的图像。

方法的演变

该调查详细介绍了计算机生成这些干扰项的方式所经历的迷人演变。我们可以将这个时间线分为三个不同的时代: 传统方法、深度神经网络和预训练语言模型。

1. 传统方法: 规则与本体

在早期,DG 依赖于严格的规则和静态数据库。

  • 基于语料库 (Corpus-based) : 这些方法分析词频和语法。如果正确答案是一个像 “ran” (跑) 这样的过去式动词,系统会寻找其他过去式动词。
  • 基于知识 (Knowledge-based) : 这些方法依赖于像 WordNet 这样的结构化数据库。如果答案是 “Dog” (狗) ,系统会查看本体树以寻找该概念的“兄弟姐妹”,如 “Cat” (猫) 或 “Wolf” (狼) 。

虽然这些方法确保了干扰项是相关的,但它们往往缺乏语境。知识库可能会建议 “Bark” (树皮/吠叫) 作为 “Trunk” (树干/象鼻) 的干扰项,因为它们都是树的一部分,但如果问题是关于大象的,“Bark” 就毫无意义。

2. 深度神经网络 (DNNs)

序列到序列 (Seq2Seq) 模型的引入改变了游戏规则。模型不再是在数据库中查找单词,而是开始“阅读”文章并逐字“生成”干扰项。

这一时期的关键架构包括:

  • 层级编码器-解码器 (HRED) : 该模型在两个层面上处理文章——单词级和句子级。它使用注意力机制 (attention mechanisms) 来关注文本中与问题相关但与正确答案相关的特定部分。
  • 静态与动态注意力: 研究人员开发了机制以确保模型不会意外生成正确答案。通过使用“负答案正则化”,如果模型生成的干扰项与实际答案太相似,它就会受到惩罚。

3. 预训练语言模型 (PLMs)

这是目前的最先进技术 (SOTA) 。像 BERT、T5 和 GPT 这样的模型彻底改变了 DG,因为它们阅读了大量的文本并理解细微差别。

PLMs 主要有两种使用方式:

  1. 微调 (Fine-Tuning) : 采用像 T5 这样 (专为文本到文本转换设计) 的模型,并在考试题目数据集上对其进行专门训练。
  2. 提示 (Prompting) : 使用像 GPT-3 或 GPT-4 这样的大型语言模型 (LLMs) 。这种方法不需要重新训练;你只需给模型指令。

调查强调了产生不同结果的不同提示策略。

比较三种使用语言模型生成合理错误选项 (干扰项) 方法的图表: 单阶段模板学习、多阶段模板学习和少样本上下文学习。

如图 3 所示,提示工程至关重要:

  • 模板学习 (单阶段) : 掩盖答案并要求模型填空。
  • 模板学习 (多阶段) : 一种“思维链”方法。模型首先提取关键词,生成问题,然后生成干扰项。这模仿了人类的推理过程。
  • 上下文学习 (少样本) : 在要求模型生成新干扰项之前,先向其展示好的问题和干扰项示例 (图中用红色和绿色高亮显示) 。这通过为 AI 设定模式,极大地改善了输出。

实验与评估: AI 真的擅长这个吗?

我们如何判断计算机是否擅长编造错误的答案?研究人员讨论了两类评估: 自动评估和人工评估。

自动指标

研究人员使用像 BLEUROUGE 这样的指标,这些是翻译任务中的标准。它们衡量 AI 生成的干扰项与人类编写的“金标准”干扰项有多少单词是重合的。

  • 指标的问题: 这些指标对于 DG 往往有缺陷。如果人类写了 “Cat” (猫) ,而 AI 写了 “Kitten” (小猫) ,BLEU 分数可能会很低 (匹配度差) ,尽管 “Kitten” 是一个完全有效的干扰项。

定性分析 (真正的考验)

该调查批判性地审视了这些模型的失败之处。尽管 LLMs 功能强大,但它们在有效干扰项的三个主要支柱上仍很挣扎: 合理性 (Plausibility) 、可靠性 (Reliability) 和多样性 (Diversity) 。

可靠性问题: 有时,AI 生成的干扰项实际上是正确的,导致问题无效。其他时候,它生成的选项毫无意义。

表 4 展示了 FITB 和 MC-QA 任务中的 DG 质量问题示例。示例包括作为有效答案的干扰项、过于技术化或明显错误的干扰项。

表 4 突出了这些具体失败案例:

  1. 有效答案错误: 在例 (1) 中,模型建议“葡萄糖 (glucose) ”作为能量来源的干扰项。问题在于?葡萄糖就是主要的能量来源。干扰项是正确的,使得问题不成立。
  2. 上下文错误: 在例 (2) 中,答案是“公平 (fair) ”。BART 模型建议“不公平 (unfair) ”。虽然逻辑上是反义词,但在多项选择题的语境中,一个直接反义的选项往往明显错误 (或如表中标记的“obviously wrong”) ,使得测试太简单。
  3. 重复: 在例 (3) 中,T5 模型陷入循环,生成了 “think, think, think”。

阅读理解中的有效性: 当 AI 需要生成完整的句子而不是单个单词时,挑战就增加了。

表 5 展示了 MC-RC 任务中的 DG 有效性问题。问题包括语义相似的干扰项和有偏见的选项。

表 5 揭示了更深层次的语义问题:

  1. 语义相似性: 在例 (1) 中,模型生成了“辐射是无害的”和“辐射不会伤害我们”。这两者意思相同。如果学生看到两个意思相同的选项,他们通常可以立即排除这两个 (因为只能有一个正确答案) 。这是一个“应试技巧 (test-wiseness) ”缺陷。
  2. 偏见: 在例 (2) 中,模型依赖于其训练数据中发现的社会偏见 (例如,将“有吸引力”与文中未提及的特定身体特征联系起来) ,这导致了不公平的评估项目。

结论与未来方向

Alhazmi 等人总结道,虽然我们已经远远超越了简单的字典查找,但干扰项生成尚未成为一个已解决的问题。

目前这一代 AI 模型在流畅性方面表现出色——它们能写出语法正确的句子。然而,它们缺乏教育评估所需的逻辑。一个好的干扰项需要“心智理论 (Theory of Mind) ”——理解学生可能会在什么地方产生误解

确定的关键未来方向:

  1. 可信生成: 减少幻觉,并确保“错误”的答案不会意外地变成“正确”的。
  2. 教育部署: 将这些模型集成到实际的学习平台中,但需要“人在回路 (Human-in-the-Loop) ”来验证质量。
  3. 多模态扩展: 深入研究视频和音频干扰项,这部分目前很大程度上还未被探索。

对于对 NLP 感兴趣的学生和开发人员来说,这个领域提供了一个独特的挑战: 它是 AI 中为数不多的目标是生成可信但可被证伪的虚假信息的领域之一。随着模型变得越来越聪明,“好的干扰项”与“幻觉”之间的界限将成为研究的下一个前沿。