介绍

想象一下，你正在在线平台上学习一门新语言或为历史考试做准备。你遇到了一个关于刚刚阅读过的文本的问题: “为什么主角待在家里？”

你自信地回答: “因为他病了。”

系统回复: “不正确。再试一次。”

这就是验证阶段。它告诉你这是错的，但没有告诉你为什么，也没有帮助你找到正确答案。现在，想象一个更好的系统。它会回复: “实际上，文中提到他感觉很好，但请仔细看看他的车发生了什么。”

这就是详尽反馈 (Elaborated Feedback) 。这是阅卷机和人类导师之间的区别。它引导学习者，促使他们进行自我反思，而不是立即给出答案。

虽然大型语言模型 (LLMs) 彻底改变了文本生成，但让它们充当有效的导师却出奇地困难。它们经常产生幻觉，过快地给出答案，或者被学生错误的推理搞糊涂。

在这篇文章中，我们将深入探讨一篇题为 “More Insightful Feedback for Tutoring: Enhancing Generation Mechanisms and Automatic Evaluation” (更有洞察力的辅导反馈: 增强生成机制与自动评估) 的论文。研究人员提出了一种名为 ReCTify 的新颖架构。他们引入了两项主要的技术创新——关键句辅助的 KL 正则化和直接偏好优化 (DPO) ——以帮助模型生成不仅准确，而且在教学上有用的反馈。此外，他们提出了全新的方法来衡量这种反馈的质量，超越了简单的词匹配指标。

反馈的层级

要理解工程挑战，我们首先必须理解教学目标。反馈不是二元的；它存在于一个有用性的谱系中。

研究人员将反馈分为四个不同的详细程度级别，如下图所示:

图 1: 可能的反馈类型。给定一群朋友去海滩旅行，学生被问及他们的位置，并错误地回答他们待在家里。

验证 (Verification) : 简单地说明“不”或“再试一次”。这最容易自动化，但对困惑的学生帮助最小。
解释 (Explanation) : 解释为什么学生的具体答案是错误的 (例如，“不，待在家里的是汤姆”) 。
提示 (Hint) : 提供指向正确证据的线索 (例如，“不。他们去游泳了”) 。
纠正 (Correction) : 简单地陈述正确答案。虽然准确，但这往往会终止学习过程，因为学生不需要自己推导答案。

ReCTify 模型的目标是中间地带: 解释和提示 。这些形式的详尽反馈迫使学生重新接触材料。

数据问题

研究人员面临的首要障碍之一是缺乏高质量的数据。现有的数据集通常使用多项选择题，其中的“错误”答案是人为设计的干扰项。在现实辅导中，学生会基于真正的误解犯下独特的、有时甚至离奇的错误。

为了解决这个问题，作者创建了 DIRECT-F , 这是一个数据集，其中真人根据阅读段落生成错误的答案，而其他人 (导师) 针对这些特定错误编写有用的反馈。

表 1: DIRECT 和 DIRECT-F 的比较。

如表 1 所示，新数据集包含丰富的反馈类型组合 (解释、提示、纠正) 和形式 (陈述句、疑问句) ，为训练复杂的导师模型提供了坚实的基础。

方法论: 构建 ReCTify

这篇论文的核心在于研究人员如何采用标准的 T5 (Text-to-Text Transfer Transformer) 模型，并修改其训练流程以更好地处理辅导的细微差别。

标准方法是将段落、问题和学生的错误答案输入模型，并要求其预测反馈。然而，这种朴素的方法通常会导致模型在段落中迷失方向，或被学生的错误答案误导。

研究人员在训练流程中引入了两个关键扩展:

关键句辅助的 KL 正则化 (用于提高输入理解) 。
直接偏好优化 (DPO) (用于提高输出质量) 。

让我们一步步分解这些。

图 2: 扩展的模型训练流程。

创新 1: 关键句辅助的 KL 正则化

当人类导师查看阅读段落以制定提示时，他们不会以同样的注意力阅读全文。他们会聚焦于回答问题所必需的特定句子——即 关键句 (Key Sentences) 。

研究人员希望 AI 也能做到这一点。然而，在推理时 (即模型实际被学生使用时) ，我们并不总有一份“关键句”列表可以喂给模型。模型需要学会自己找到它们。

两种输入

为了教授这种行为，研究人员在训练期间创建了两个版本的输入数据:

丰富输入 (\(X_{w\_key}\)): 包括段落、问题、学生答案，以及明确的 上下文 (关键句) 。
标准输入 (\(X_{wo\_key}\)): 仅包括段落、问题和学生答案。

图 3: 丰富输入格式的示例。

正则化项

这是聪明的部分。他们在两种输入上都训练模型。显然，当模型有小抄 (关键句) 时，表现会更好。

研究人员应用了 Kullback-Leibler (KL) 正则化 。简单来说，KL 散度衡量两个概率分布之间的差异。研究人员添加了一个损失项，强制模型在阅读标准输入时的输出分布，看起来尽可能像在阅读丰富输入时的输出分布。

公式 1

在公式 1 中，你可以看到总损失是以下几项的组合:

不带关键句输入的标准误差。
带关键句输入的标准误差。
两者之间的 KL 散度 。

为什么这有效? 它有效地迫使模型“幻想”出如果它被给予关键句时会有的注意力模式。即使没有明确标记，它也学会了在内部识别段落的重要部分。

创新 2: 直接偏好优化 (DPO)

自动反馈中的第二个主要问题是模型很容易受影响。如果学生说“他们去了游泳池”，模型可能会产生幻觉并说“不，游泳池关门了”，即使文中从未提及游泳池。模型意外地“蕴涵” (entails，即同意前提) 了学生的错误答案。

好的反馈应该是自适应的。它需要在不接受学生错误前提的情况下指出错误。

图 4: 展示学生答案自适应反馈重要性的示例。

如图 4 所示，如果学生猜“他们待在家里”，告诉他们“不，他们去游泳了”是很好的反馈——它纠正了误解。但如果学生猜“他们去游泳了”，重复“不，他们去游泳了”则是荒谬且令人困惑的。

实现 DPO

为了解决这个问题，研究人员使用了 直接偏好优化 (DPO) 。 DPO 是一种用于将语言模型与人类偏好对齐的技术，无需复杂的强化学习奖励模型。

他们建立了一个基于 自然语言推理 (NLI) 的“偏好”系统:

首选反馈: 与学生的错误答案具有低蕴涵关系的反馈 (它引入了新信息) 。
非首选反馈: 具有高蕴涵关系的反馈 (它只是重复或同意错误答案) 。

此阶段的损失函数如下所示:

公式 2

通过针对这一目标进行优化，模型学会了生成能够主动纠正学生的反馈，而不是被动地附和他们的困惑。

实验与结果

这些架构上的改变真的有效吗？研究人员将 ReCTify 模型与标准的 T5 基线和之前的最先进系统进行了测试。

定量表现

他们使用了 BLEU、METEOR、ROUGE 和 BERTScore 等标准指标。这些指标通常衡量生成的反馈与“金标准” (人类编写的) 反馈之间的单词重叠程度。

表 2: 消融测试结果。

表 2 (上图) 展示了消融研究——开启或关闭不同组件来测试模型。

第 1 行: 基线 T5。
第 2 行: T5 + KL 正则化。
第 3 行: T5 + DPO。
第 4 行: ReCTify (完整模型) 。

结果很明显。完整模型在所有指标上都取得了最高分。值得注意的是，METEOR (与人类对同义词和措辞的判断相关性较好) 从 18.2 跃升至 21.5 , 这是一个统计学上显著的提升。

与相关工作的比较

他们还将 ReCTify 与“DiReCT”进行了比较，后者是一个以前的基于对话的辅导系统，在类似数据上进行了训练。

表 3: 在 DIRECT 数据集上与相关工作的比较。

这里的差距是巨大的。ReCTify 在 METEOR 上比之前的最佳系统高出近 6 分，在 BLEU 上高出 4 分。这表明，针对这一特定任务，专门的训练流程 (KL + DPO) 远优于标准的微调。

重新思考评估: 新指标

这篇论文最有趣的部分之一是作者对标准指标的批判。像 BLEU 这样的指标计算单词重叠。但在辅导中，你可以使用与参考答案完全不同的词语给出极好的反馈。相反，你也可能因为单词重叠率高但过早给出答案而得分高，但这在教学法上是糟糕的。

为了解决这个问题，研究人员提出了两个新的自动化指标: 信息量指数 (\(I^2\)) 和 忠实度 (\(F\)) 。

1. 信息量指数 (\(I^2\))

这个指标衡量“剧透”程度。它问: 这个反馈在多大程度上支持正确答案？

为了计算这一点，他们将反馈视为“证据”，将正确答案视为“假设”。他们使用预训练模型 (如在 MultiRC 上微调过的 T5) 来检查反馈是否让答案变得显而易见。

公式 3

目标并不总是 100% 的信息量 (那只是直接给出答案) 或 0% 的信息量 (那是无用的) 。理想情况下，模型的信息量 (\(p\)) 应该与人类导师的信息量 (\(p_E\)) 相匹配。当模型处于由人类参考定义的“恰到好处的区域”时，\(I^2\) 分数就高。

2. 忠实度 (\(F\))

反馈必须忠实于源文本。如果反馈“幻想”出了阅读段落中没有的事实，那就是有害的。

忠实度分数使用自然语言推理来检查反馈是否被原始阅读段落所蕴涵。

公式 13

该公式奖励由文本支持的反馈 (\(p_{entail}\))，并惩罚与文本相矛盾的反馈 (\(p_{contra}\))。

综合得分

研究人员将这些组合成一个加权的总体质量分数:

公式 5

验证指标: 人类同意吗？

发明一个数学公式很容易；证明它确实能衡量质量则很难。研究人员通过将新指标与人类排名进行比较来验证它们。他们获取了由 GPT-4、GPT-3.5 和旧模型生成的反馈，让人类对其进行排名，然后检查自动化指标是否产生了相同的排名。

结果很有启发性。

图 6: 总体模型偏好。

看图 6。人类评判者 (最左边的图表) 压倒性地偏好 GPT-4 (红色条) 和 GPT-3 (绿色条) 。

现在看看标准指标( BLEU, ROUGE, METEOR )。它们在预测这一点上表现糟糕！它们实际上偏好较旧、较弱的模型 (DiReCT/紫色条) ，仅仅是因为它倾向于写简短、简单的句子，这些句子与训练数据重叠。

然而，看看 “Ours” (我们的) 图表 (左起第二个) 。它几乎与人类偏好完美对齐，正确地将 GPT-4 识别为表现最佳者。

图 7: 各指标的偏差。

图 7 进一步说明了这种偏差。红色区域表示“高估” (认为模型比实际好) ，蓝色区域表示“低估”。标准指标 (BLEU, BERTScore) 严重低估了 GPT-4 (巨大的蓝色条) 。提出的指标 (“Ours”) 具有更平衡的误差分布，表明它是一个更公平的质量裁判。

深入分析

使用他们的新指标，研究人员分析了 ReCTify 的行为。

表 10: 我们的完整模型 ReCTify 的生成示例。

表 10 (上图) 显示了模型实际运行的示例。

示例 1: 当学生给出标题“耳部手术”时，模型解释说“这有点跑题了”，而不是仅仅说“错”。
示例 2: 模型成功地提示“他是一个非常善良的人还是一个自私的人？”，引导学生找到文中使用的形容词。

然而，没有模型是完美的。研究人员使用 信息量 指标分析了反馈类型的分布。

图 8: 显示人类反馈和模型反馈信息量程度的分布。

在图 8 中，x 轴代表答案被揭示的程度 (0 = 无，1.0 = 全部) 。粉色条是人类反馈；蓝色条是模型。

你可以看到蓝色条在最右侧 (1.0) 有一个尖峰。这表明，与人类导师相比，该模型仍然有轻微的倾向更频繁地给出 纠正反馈 (揭示答案) 。虽然 ReCTify 在给出提示方面比以前的模型好得多，但它有时还是会“恐慌”并直接给出答案。

结论

ReCTify 论文提出了一个令人信服的案例，即我们不能简单地将辅导反馈视为标准的文本生成任务。它需要特定的架构调整以确保模型:

正确阅读文本: 通过 KL 正则化聚焦于关键句子。
不强化错误: 通过 DPO 区分好的提示和重复的附和。

也许最重要的是，这项工作突显了当前教育领域评估指标的失败。如果我们针对 BLEU 分数优化 AI 导师，我们就是在针对平庸进行优化。通过引入 信息量 (\(I^2\)) 和 忠实度 (\(F\)) , 研究人员为社区提供了更好的工具来构建下一代 AI 教师——它们不仅授人以鱼，更授人以渔。

介绍#

反馈的层级#

数据问题#

方法论: 构建 ReCTify#

创新 1: 关键句辅助的 KL 正则化#

两种输入#

正则化项#

创新 2: 直接偏好优化 (DPO)#

实现 DPO#

实验与结果#

定量表现#

与相关工作的比较#

重新思考评估: 新指标#

1. 信息量指数 (\(I^2\))#

2. 忠实度 (\(F\))#

综合得分#

验证指标: 人类同意吗？#

深入分析#

结论#

介绍