从训练到教学：将教育科学应用于 LLM 反馈机制

我们训练大型语言模型 (LLMs) 的方式正在进化。在早期，一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代，我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。

但是，如果你仔细观察我们如何“教导”这些模型，你会发现与人类相互教学的方式相比，它显得出奇地原始。在 RLHF 中，我们经常将模型视为一个黑盒，让它吐出两个答案，然后简单地告诉它: “答案 A 比答案 B 好”。

想象一下，一位老师在给学生的论文评分时，只写下“7分 (满分10分) ”或“比上一篇好”，却没有指出任何拼写错误、逻辑谬误或结构问题。那个学生将很难进步。然而，这正是我们目前训练最先进 AI 的方式。

在论文 “Let Me Teach You: Pedagogical Foundations of Feedback for Language Models” 中，来自洛桑联邦理工学院 (EPFL) 和艾伦人工智能研究所的研究人员认为，是时候停止将反馈仅仅视为一种信号，而开始将其视为教育学 (pedagogy) 了。通过回顾学习科学 (Learning Sciences) 数十年的研究，他们提出了一个新的框架 FELT , 以此将我们向 AI 提供自然语言反馈 (NLF) 的方式系统化。

“好与坏”的问题

目前的对齐技术已经非常成功。像 ChatGPT 和 Claude 这样的模型之所以乐于助人且通常无害，是因为它们已经根据人类偏好进行了调整。这通常涉及一个基于排名训练的奖励模型 (Reward Model, RM) ——即学习到人类更喜欢安全、礼貌的回答，而不是有毒的回答。

然而，这些方法有其上限。一个标量分数 (例如 +1 或 -1) 传达的信息非常少。它不能告诉模型为什么它失败了。是因为答案事实错误吗？是因为语气粗鲁吗？还是仅仅是因为它很无聊？

为了解决这个问题，NLP 社区已经开始转向自然语言反馈 (Natural Language Feedback, NLF) 。我们不再给出一个分数，而是给模型一段文字: “你在第 2 步计算错误” 或 “请更简洁一点。”

虽然前景广阔，但目前的 NLF 研究非常混乱。研究人员通常依赖关于好的反馈应该是什么样子的“直觉猜测”。目前没有标准体系。有些论文让模型“自我批判”，有些使用“编辑评注”，还有些使用“模拟人类反馈”。

这篇论文的作者提出了一个简单的问题: 为什么我们要靠猜? 几个世纪以来，人类一直在研究如何提供有效的反馈。

连接 NLP 与学习科学

这篇论文首先调查了学习科学领域——即研究人类如何学习的学科。事实证明，反馈不仅仅是“提供给学习者的信息”，它是一个复杂的生态系统。

研究表明，反馈要有效，通常需要满足三个条件:

适用性 (Applicability) : 它必须是可操作的。学习者需要知道要去哪里以及如何到达那里。
学习者调节 (Learner Regulation) : 它必须触发认知反应。学习者必须处理反馈，而不仅仅是接收它。
个性化 (Personalization) : 它必须适应学习者当前的知识水平和任务的难度。

研究人员将目前 NLP 中提出的问题 (如“反馈的信息量有多大？”) 映射到了学习科学中已有的概念上。

图 1: 连接 NLP 中的反馈研究与学习科学中的反馈基础。

如图 1 所示，这种脱节是显而易见的。NLP 倾向于关注技术实现 (增强模型、修改生成内容) ，而学习科学关注的是为什么和如何——即影响反馈循环的变量，如时机、来源和学习者特征。

要理解这个领域的深度，可以看看教育学文献中反馈定义的差异。它不仅仅是一件事；它是一种改变学生已知内容与应知内容之间差距的机制。

表 2: 不同教育学著作对反馈的定义。

表 2 突显了这种多样性。从 Ramaprasad (1983) 认为如果信息没有改变表现差距就不算反馈，到 Hattie and Timperley (2007) 将其视为“Feed Up (去哪里) 、Feed Back (做得如何) 和 Feed Forward (下一步去哪里) ”的循环。作者建议，如果我们想要更好的 LLM，我们需要拥抱这种复杂性。

FELT 框架

为了统一这两个世界，作者引入了 FELT : 一个由 Feedback (反馈) 、Errors (错误) 、Learner (学习者) 和 Task (任务) 组成的框架。

这个框架超越了反馈仅仅是一个数据集的概念。它为 LLM 运行的整个“课堂”环境进行了建模。

图 2: 适配于 LLM 的反馈生态系统 FELT。

让我们分解图 2 中展示的生态系统组件:

1. 任务 (The Task)

在 NLP 中，我们经常将所有提示词 (prompts) 视为平等的“输入”。在 FELT 中，任务由其复杂性、指令和回答类型 (开放式与封闭式) 来定义。

*重要性: * 一个简单的算术任务需要立即的、纠正性的反馈。一个创意写作任务需要延迟的、详细的反馈。同等对待它们是低效的。

2. 学习者 (The Learner，即 LLM)

在这里，“学习者”就是模型本身。在教育学中，学生的先验知识决定了你如何教导他们。

*对于 LLM: * “先验知识”编码在模型的预训练数据和规模中。一个 70B 参数的模型比一个 7B 的模型是更“聪明”的学生。
反馈处理机制: 学习者如何消化批评？是通过上下文学习 (In-Context Learning，将批评粘贴到提示词中) ？还是通过权重更新 (强化学习) ？

3. 错误 (Errors)

并非所有的错误都是生而平等的。该框架区分了错误类型和严重程度 。

*教育学视角: * 如果学生打字错误，你圈出来即可。如果学生误解了一个基本概念，你需要重新讲课。
LLM 视角: * 幻觉 (Hallucination) 与推理错误是不同的。反馈应该针对特定的错误类型*，而不仅仅是普遍惩罚输出。

4. 反馈 (Feedback)

这是我们可以操作的杠杆。反馈有三个主要维度:

来源 (Source): 谁在提供反馈？ (人类、另一个模型，还是启发式脚本？)
时机 (Timing): 什么时候提供？ (立即提供，还是延迟以允许“反思”？)
内容 (Content): 反馈实际上说了什么？

自然语言反馈的分类体系

这篇论文最具可操作性的贡献是对反馈内容的深入探讨。作者认为“文本反馈”这个概念太模糊了。他们提出了一个分类法来精确分类提示词中包含的信息。

他们确定了四个互不重叠的反馈内容领域:

学习者状态 (Learner Status): 模型做对了什么或做错了什么？ (“你错过了第二个约束条件。”)
目标 (Goal): 正确答案或目标是什么？ (“答案是 42。”)
程序性 (Procedural): 关于如何修复它的指令。 (“试着把问题分解成几个步骤。”)
外围信息 (Peripheral): 额外的背景信息。 (“这是面试中常用的陷阱题。”)

反馈的 10 个维度

此外，作者定义了 10 个维度 , 允许研究人员精确地调节反馈。如果你正在设计一个提示词来教导 LLM，你应该控制这些变量:

粒度 (Granularity): 你是在批评整个段落、一个句子，还是一个特定的 Token？
指令适用性 (Applicability of Instructions): 你给的是模糊的建议 (“做得更好点”) 还是具体的算法 (“使用思维链”) ？
回答覆盖率 (Answer Coverage): 反馈是针对整个回答还是仅仅针对错误？
目标覆盖率 (Target Coverage): “完美”解决方案被揭示了多少？
标准 (Criteria): 你是基于事实性、风格还是安全性来评判？
信息新颖性 (Information Novelty): 反馈是告诉模型它已经知道的事情，还是引入新数据？
目的 (Purpose): 這是为了提高分数还是为了澄清任务定义？
风格 (Style): 反馈是正式的、粗鲁的，还是鼓励性的？
效价 (Valence): 正向 (强化) 还是负向 (纠正) ？
模态 (Mode): 文本、图像还是代码？

为什么这个分类体系很重要

以前的研究一直不一致。如下面的表 1 所示，不同的论文都声称使用“自然语言反馈”，但它们做的事情却大相径庭。

表 1: 过去使用文本或增强反馈的研究工作。

有些论文使用“学习者状态” (告诉模型它错了) ，而另一些论文使用“程序性”反馈 (告诉模型如何思考) 。没有分类体系，我们就无法公平地比较这些论文。FELT 分类体系让我们可以说: “论文 A 的效果比论文 B 好，因为他们使用了高粒度的程序性反馈，而论文 B 使用了模糊的学习者状态反馈。”

启示: 反馈的未来

那么，我们可以用 FELT 做什么呢？作者建议，这个框架开辟了全新的研究途径，将我们从简单的“带排名的 RLHF”推向复杂的“作为学习智能体的 LLM”。

图 3: 受 FELT 启发的一些未来研究方向的可视化摘要。

图 3 概述了源自 FELT 组件的几个未来方向:

基于任务的处理: 我们可以为不同的任务设计不同的反馈循环。我们不应该对数学题和创意写作使用相同的“提示工程”。
特定错误的惩罚: 通过映射错误类型 (来自“错误”组件) ，我们可以训练奖励模型，使其对幻觉的惩罚方式不同于对风格错误的惩罚。
反馈时机与反思: 受教育学启发，我们可以探索延迟反馈 。与其立即纠正 LLM，我们可以要求它先“反思”其答案，然后针对反思而不是答案提供反馈。这模仿了老师强迫学生自己发现错误的方式。
个性化学习者: 我们可以将 LLM 建模为具有特定特征的学习者。“新手”模型可能需要明确、高粒度的反馈，而“专家”模型可能只需要轻微的提示 (低粒度) 。

结论

从“训练”到“教导” LLM 的转变不仅仅是语义上的转变。它代表了从暴力的统计相关性向结构化的教育学对齐的转变。

FELT 框架为这一领域提供了地图。通过理解反馈是一个涉及学习者状态、任务复杂性和批评具体内容的生态系统，我们可以设计更有效的对齐策略。

对于进入该领域的学生和研究人员来说，结论很明确: 不要只是把数据扔给模型。分析你如何教导它。你是一个提供可操作的、程序性反馈的乐于助人的老师吗？还是仅仅用红笔打分却不写评语？AI 能力的未来很可能取决于我们教学法的质量。

“好与坏”的问题#

连接 NLP 与学习科学#

FELT 框架#

1. 任务 (The Task)#

2. 学习者 (The Learner，即 LLM)#

3. 错误 (Errors)#

4. 反馈 (Feedback)#

自然语言反馈的分类体系#

反馈的 10 个维度#

为什么这个分类体系很重要#

启示: 反馈的未来#

结论#