介绍
想象一下,你正在在线平台上学习一门新语言或为历史考试做准备。你遇到了一个关于刚刚阅读过的文本的问题: “为什么主角待在家里?”
你自信地回答: “因为他病了。”
系统回复: “不正确。再试一次。”
这就是验证阶段。它告诉你这是错的,但没有告诉你为什么,也没有帮助你找到正确答案。现在,想象一个更好的系统。它会回复: “实际上,文中提到他感觉很好,但请仔细看看他的车发生了什么。”
这就是详尽反馈 (Elaborated Feedback) 。 这是阅卷机和人类导师之间的区别。它引导学习者,促使他们进行自我反思,而不是立即给出答案。
虽然大型语言模型 (LLMs) 彻底改变了文本生成,但让它们充当有效的导师却出奇地困难。它们经常产生幻觉,过快地给出答案,或者被学生错误的推理搞糊涂。
在这篇文章中,我们将深入探讨一篇题为 “More Insightful Feedback for Tutoring: Enhancing Generation Mechanisms and Automatic Evaluation” (更有洞察力的辅导反馈: 增强生成机制与自动评估) 的论文。研究人员提出了一种名为 ReCTify 的新颖架构。他们引入了两项主要的技术创新——关键句辅助的 KL 正则化和直接偏好优化 (DPO) ——以帮助模型生成不仅准确,而且在教学上有用的反馈。此外,他们提出了全新的方法来衡量这种反馈的质量,超越了简单的词匹配指标。
反馈的层级
要理解工程挑战,我们首先必须理解教学目标。反馈不是二元的;它存在于一个有用性的谱系中。
研究人员将反馈分为四个不同的详细程度级别,如下图所示:

- 验证 (Verification) : 简单地说明“不”或“再试一次”。这最容易自动化,但对困惑的学生帮助最小。
- 解释 (Explanation) : 解释为什么学生的具体答案是错误的 (例如,“不,待在家里的是汤姆”) 。
- 提示 (Hint) : 提供指向正确证据的线索 (例如,“不。他们去游泳了”) 。
- 纠正 (Correction) : 简单地陈述正确答案。虽然准确,但这往往会终止学习过程,因为学生不需要自己推导答案。
ReCTify 模型的目标是中间地带: 解释和提示 。 这些形式的详尽反馈迫使学生重新接触材料。
数据问题
研究人员面临的首要障碍之一是缺乏高质量的数据。现有的数据集通常使用多项选择题,其中的“错误”答案是人为设计的干扰项。在现实辅导中,学生会基于真正的误解犯下独特的、有时甚至离奇的错误。
为了解决这个问题,作者创建了 DIRECT-F , 这是一个数据集,其中真人根据阅读段落生成错误的答案,而其他人 (导师) 针对这些特定错误编写有用的反馈。

如表 1 所示,新数据集包含丰富的反馈类型组合 (解释、提示、纠正) 和形式 (陈述句、疑问句) ,为训练复杂的导师模型提供了坚实的基础。
方法论: 构建 ReCTify
这篇论文的核心在于研究人员如何采用标准的 T5 (Text-to-Text Transfer Transformer) 模型,并修改其训练流程以更好地处理辅导的细微差别。
标准方法是将 段落、问题和学生的错误答案输入模型,并要求其预测 反馈 。 然而,这种朴素的方法通常会导致模型在段落中迷失方向,或被学生的错误答案误导。
研究人员在训练流程中引入了两个关键扩展:
- 关键句辅助的 KL 正则化 (用于提高输入理解) 。
- 直接偏好优化 (DPO) (用于提高输出质量) 。
让我们一步步分解这些。

创新 1: 关键句辅助的 KL 正则化
当人类导师查看阅读段落以制定提示时,他们不会以同样的注意力阅读全文。他们会聚焦于回答问题所必需的特定句子——即 关键句 (Key Sentences) 。
研究人员希望 AI 也能做到这一点。然而,在推理时 (即模型实际被学生使用时) ,我们并不总有一份“关键句”列表可以喂给模型。模型需要学会自己找到它们。
两种输入
为了教授这种行为,研究人员在训练期间创建了两个版本的输入数据:
- 丰富输入 (\(X_{w\_key}\)): 包括段落、问题、学生答案,以及明确的 上下文 (关键句) 。
- 标准输入 (\(X_{wo\_key}\)): 仅包括段落、问题和学生答案。

正则化项
这是聪明的部分。他们在两种输入上都训练模型。显然,当模型有小抄 (关键句) 时,表现会更好。
研究人员应用了 Kullback-Leibler (KL) 正则化 。 简单来说,KL 散度衡量两个概率分布之间的差异。研究人员添加了一个损失项,强制模型在阅读标准输入时的输出分布,看起来尽可能像在阅读丰富输入时的输出分布。

在公式 1 中,你可以看到总损失是以下几项的组合:
- 不带关键句输入的标准误差。
- 带关键句输入的标准误差。
- 两者之间的 KL 散度 。
为什么这有效? 它有效地迫使模型“幻想”出如果它被给予关键句时会有的注意力模式。即使没有明确标记,它也学会了在内部识别段落的重要部分。
创新 2: 直接偏好优化 (DPO)
自动反馈中的第二个主要问题是模型很容易受影响。如果学生说“他们去了游泳池”,模型可能会产生幻觉并说“不,游泳池关门了”,即使文中从未提及游泳池。模型意外地“蕴涵” (entails,即同意前提) 了学生的错误答案。
好的反馈应该是自适应的。它需要在不接受学生错误前提的情况下指出错误。

如图 4 所示,如果学生猜“他们待在家里”,告诉他们“不,他们去游泳了”是很好的反馈——它纠正了误解。但如果学生猜“他们去游泳了”,重复“不,他们去游泳了”则是荒谬且令人困惑的。
实现 DPO
为了解决这个问题,研究人员使用了 直接偏好优化 (DPO) 。 DPO 是一种用于将语言模型与人类偏好对齐的技术,无需复杂的强化学习奖励模型。
他们建立了一个基于 自然语言推理 (NLI) 的“偏好”系统:
- 首选反馈: 与学生的错误答案具有低蕴涵关系的反馈 (它引入了新信息) 。
- 非首选反馈: 具有高蕴涵关系的反馈 (它只是重复或同意错误答案) 。
此阶段的损失函数如下所示:

通过针对这一目标进行优化,模型学会了生成能够主动纠正学生的反馈,而不是被动地附和他们的困惑。
实验与结果
这些架构上的改变真的有效吗?研究人员将 ReCTify 模型与标准的 T5 基线和之前的最先进系统进行了测试。
定量表现
他们使用了 BLEU、METEOR、ROUGE 和 BERTScore 等标准指标。这些指标通常衡量生成的反馈与“金标准” (人类编写的) 反馈之间的单词重叠程度。

表 2 (上图) 展示了消融研究——开启或关闭不同组件来测试模型。
- 第 1 行: 基线 T5。
- 第 2 行: T5 + KL 正则化。
- 第 3 行: T5 + DPO。
- 第 4 行: ReCTify (完整模型) 。
结果很明显。完整模型在所有指标上都取得了最高分。值得注意的是,METEOR (与人类对同义词和措辞的判断相关性较好) 从 18.2 跃升至 21.5 , 这是一个统计学上显著的提升。
与相关工作的比较
他们还将 ReCTify 与“DiReCT”进行了比较,后者是一个以前的基于对话的辅导系统,在类似数据上进行了训练。

这里的差距是巨大的。ReCTify 在 METEOR 上比之前的最佳系统高出近 6 分,在 BLEU 上高出 4 分。这表明,针对这一特定任务,专门的训练流程 (KL + DPO) 远优于标准的微调。
重新思考评估: 新指标
这篇论文最有趣的部分之一是作者对标准指标的批判。像 BLEU 这样的指标计算单词重叠。但在辅导中,你可以使用与参考答案完全不同的词语给出极好的反馈。相反,你也可能因为单词重叠率高但过早给出答案而得分高,但这在教学法上是糟糕的。
为了解决这个问题,研究人员提出了两个新的自动化指标: 信息量指数 (\(I^2\)) 和 忠实度 (\(F\)) 。
1. 信息量指数 (\(I^2\))
这个指标衡量“剧透”程度。它问: 这个反馈在多大程度上支持正确答案?
为了计算这一点,他们将反馈视为“证据”,将正确答案视为“假设”。他们使用预训练模型 (如在 MultiRC 上微调过的 T5) 来检查反馈是否让答案变得显而易见。

目标并不总是 100% 的信息量 (那只是直接给出答案) 或 0% 的信息量 (那是无用的) 。理想情况下,模型的信息量 (\(p\)) 应该与人类导师的信息量 (\(p_E\)) 相匹配。当模型处于由人类参考定义的“恰到好处的区域”时,\(I^2\) 分数就高。
2. 忠实度 (\(F\))
反馈必须忠实于源文本。如果反馈“幻想”出了阅读段落中没有的事实,那就是有害的。
忠实度分数使用自然语言推理来检查反馈是否被原始阅读段落所 蕴涵 。

该公式奖励由文本支持的反馈 (\(p_{entail}\)),并惩罚与文本相矛盾的反馈 (\(p_{contra}\))。
综合得分
研究人员将这些组合成一个加权的总体质量分数:

验证指标: 人类同意吗?
发明一个数学公式很容易;证明它确实能衡量质量则很难。研究人员通过将新指标与人类排名进行比较来验证它们。他们获取了由 GPT-4、GPT-3.5 和旧模型生成的反馈,让人类对其进行排名,然后检查自动化指标是否产生了相同的排名。
结果很有启发性。

看图 6。 人类评判者 (最左边的图表) 压倒性地偏好 GPT-4 (红色条) 和 GPT-3 (绿色条) 。
现在看看标准指标( BLEU, ROUGE, METEOR )。它们在预测这一点上表现糟糕!它们实际上偏好较旧、较弱的模型 (DiReCT/紫色条) ,仅仅是因为它倾向于写简短、简单的句子,这些句子与训练数据重叠。
然而,看看 “Ours” (我们的) 图表 (左起第二个) 。它几乎与人类偏好完美对齐,正确地将 GPT-4 识别为表现最佳者。

图 7 进一步说明了这种偏差。红色区域表示“高估” (认为模型比实际好) ,蓝色区域表示“低估”。标准指标 (BLEU, BERTScore) 严重低估了 GPT-4 (巨大的蓝色条) 。提出的指标 (“Ours”) 具有更平衡的误差分布,表明它是一个更公平的质量裁判。
深入分析
使用他们的新指标,研究人员分析了 ReCTify 的行为。

表 10 (上图) 显示了模型实际运行的示例。
- 示例 1: 当学生给出标题“耳部手术”时,模型解释说“这有点跑题了”,而不是仅仅说“错”。
- 示例 2: 模型成功地提示“他是一个非常善良的人还是一个自私的人?”,引导学生找到文中使用的形容词。
然而,没有模型是完美的。研究人员使用 信息量 指标分析了反馈类型的分布。

在图 8 中,x 轴代表答案被揭示的程度 (0 = 无,1.0 = 全部) 。粉色条是人类反馈;蓝色条是模型。
你可以看到蓝色条在最右侧 (1.0) 有一个尖峰。这表明,与人类导师相比,该模型仍然有轻微的倾向更频繁地给出 纠正反馈 (揭示答案) 。虽然 ReCTify 在给出提示方面比以前的模型好得多,但它有时还是会“恐慌”并直接给出答案。
结论
ReCTify 论文提出了一个令人信服的案例,即我们不能简单地将辅导反馈视为标准的文本生成任务。它需要特定的架构调整以确保模型:
- 正确阅读文本: 通过 KL 正则化聚焦于关键句子。
- 不强化错误: 通过 DPO 区分好的提示和重复的附和。
也许最重要的是,这项工作突显了当前教育领域评估指标的失败。如果我们针对 BLEU 分数优化 AI 导师,我们就是在针对平庸进行优化。通过引入 信息量 (\(I^2\)) 和 忠实度 (\(F\)) , 研究人员为社区提供了更好的工具来构建下一代 AI 教师——它们不仅授人以鱼,更授人以渔。
](https://deep-paper.org/en/paper/file-3404/images/cover.png)