我们训练大型语言模型 (LLMs) 的方式正在进化。在早期,一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代,我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。

但是,如果你仔细观察我们如何“教导”这些模型,你会发现与人类相互教学的方式相比,它显得出奇地原始。在 RLHF 中,我们经常将模型视为一个黑盒,让它吐出两个答案,然后简单地告诉它: “答案 A 比答案 B 好”。

想象一下,一位老师在给学生的论文评分时,只写下“7分 (满分10分) ”或“比上一篇好”,却没有指出任何拼写错误、逻辑谬误或结构问题。那个学生将很难进步。然而,这正是我们目前训练最先进 AI 的方式。

在论文 “Let Me Teach You: Pedagogical Foundations of Feedback for Language Models” 中,来自洛桑联邦理工学院 (EPFL) 和艾伦人工智能研究所的研究人员认为,是时候停止将反馈仅仅视为一种信号,而开始将其视为教育学 (pedagogy) 了。通过回顾学习科学 (Learning Sciences) 数十年的研究,他们提出了一个新的框架 FELT , 以此将我们向 AI 提供自然语言反馈 (NLF) 的方式系统化。

“好与坏”的问题

目前的对齐技术已经非常成功。像 ChatGPT 和 Claude 这样的模型之所以乐于助人且通常无害,是因为它们已经根据人类偏好进行了调整。这通常涉及一个基于排名训练的奖励模型 (Reward Model, RM) ——即学习到人类更喜欢安全、礼貌的回答,而不是有毒的回答。

然而,这些方法有其上限。一个标量分数 (例如 +1 或 -1) 传达的信息非常少。它不能告诉模型为什么它失败了。是因为答案事实错误吗?是因为语气粗鲁吗?还是仅仅是因为它很无聊?

为了解决这个问题,NLP 社区已经开始转向自然语言反馈 (Natural Language Feedback, NLF) 。 我们不再给出一个分数,而是给模型一段文字: “你在第 2 步计算错误”“请更简洁一点。”

虽然前景广阔,但目前的 NLF 研究非常混乱。研究人员通常依赖关于好的反馈应该是什么样子的“直觉猜测”。目前没有标准体系。有些论文让模型“自我批判”,有些使用“编辑评注”,还有些使用“模拟人类反馈”。

这篇论文的作者提出了一个简单的问题: 为什么我们要靠猜? 几个世纪以来,人类一直在研究如何提供有效的反馈。

连接 NLP 与学习科学

这篇论文首先调查了学习科学领域——即研究人类如何学习的学科。事实证明,反馈不仅仅是“提供给学习者的信息”,它是一个复杂的生态系统。

研究表明,反馈要有效,通常需要满足三个条件:

  1. 适用性 (Applicability) : 它必须是可操作的。学习者需要知道要去哪里以及如何到达那里。
  2. 学习者调节 (Learner Regulation) : 它必须触发认知反应。学习者必须处理反馈,而不仅仅是接收它。
  3. 个性化 (Personalization) : 它必须适应学习者当前的知识水平和任务的难度。

研究人员将目前 NLP 中提出的问题 (如“反馈的信息量有多大?”) 映射到了学习科学中已有的概念上。

图 1: 连接 NLP 中的反馈研究与学习科学中的反馈基础。

图 1 所示,这种脱节是显而易见的。NLP 倾向于关注技术实现 (增强模型、修改生成内容) ,而学习科学关注的是为什么如何——即影响反馈循环的变量,如时机、来源和学习者特征。

要理解这个领域的深度,可以看看教育学文献中反馈定义的差异。它不仅仅是一件事;它是一种改变学生已知内容与应知内容之间差距的机制。

表 2: 不同教育学著作对反馈的定义。

表 2 突显了这种多样性。从 Ramaprasad (1983) 认为如果信息没有改变表现差距就不算反馈,到 Hattie and Timperley (2007) 将其视为“Feed Up (去哪里) 、Feed Back (做得如何) 和 Feed Forward (下一步去哪里) ”的循环。作者建议,如果我们想要更好的 LLM,我们需要拥抱这种复杂性。

FELT 框架

为了统一这两个世界,作者引入了 FELT : 一个由 Feedback (反馈) 、Errors (错误) 、Learner (学习者) 和 Task (任务) 组成的框架。

这个框架超越了反馈仅仅是一个数据集的概念。它为 LLM 运行的整个“课堂”环境进行了建模。

图 2: 适配于 LLM 的反馈生态系统 FELT。

让我们分解图 2 中展示的生态系统组件:

1. 任务 (The Task)

在 NLP 中,我们经常将所有提示词 (prompts) 视为平等的“输入”。在 FELT 中,任务由其复杂性指令回答类型 (开放式与封闭式) 来定义。

  • *重要性: * 一个简单的算术任务需要立即的、纠正性的反馈。一个创意写作任务需要延迟的、详细的反馈。同等对待它们是低效的。

2. 学习者 (The Learner,即 LLM)

在这里,“学习者”就是模型本身。在教育学中,学生的先验知识决定了你如何教导他们。

  • *对于 LLM: * “先验知识”编码在模型的预训练数据和规模中。一个 70B 参数的模型比一个 7B 的模型是更“聪明”的学生。
  • 反馈处理机制: 学习者如何消化批评?是通过上下文学习 (In-Context Learning,将批评粘贴到提示词中) ?还是通过权重更新 (强化学习) ?

3. 错误 (Errors)

并非所有的错误都是生而平等的。该框架区分了错误类型严重程度

  • *教育学视角: * 如果学生打字错误,你圈出来即可。如果学生误解了一个基本概念,你需要重新讲课。
  • LLM 视角: * 幻觉 (Hallucination) 与推理错误是不同的。反馈应该针对特定的错误类型*,而不仅仅是普遍惩罚输出。

4. 反馈 (Feedback)

这是我们可以操作的杠杆。反馈有三个主要维度:

  • 来源 (Source): 谁在提供反馈? (人类、另一个模型,还是启发式脚本?)
  • 时机 (Timing): 什么时候提供? (立即提供,还是延迟以允许“反思”?)
  • 内容 (Content): 反馈实际上说了什么?

自然语言反馈的分类体系

这篇论文最具可操作性的贡献是对反馈内容的深入探讨。作者认为“文本反馈”这个概念太模糊了。他们提出了一个分类法来精确分类提示词中包含的信息。

他们确定了四个互不重叠的反馈内容领域:

  1. 学习者状态 (Learner Status): 模型做对了什么或做错了什么? (“你错过了第二个约束条件。”)
  2. 目标 (Goal): 正确答案或目标是什么? (“答案是 42。”)
  3. 程序性 (Procedural): 关于如何修复它的指令。 (“试着把问题分解成几个步骤。”)
  4. 外围信息 (Peripheral): 额外的背景信息。 (“这是面试中常用的陷阱题。”)

反馈的 10 个维度

此外,作者定义了 10 个维度 , 允许研究人员精确地调节反馈。如果你正在设计一个提示词来教导 LLM,你应该控制这些变量:

  1. 粒度 (Granularity): 你是在批评整个段落、一个句子,还是一个特定的 Token?
  2. 指令适用性 (Applicability of Instructions): 你给的是模糊的建议 (“做得更好点”) 还是具体的算法 (“使用思维链”) ?
  3. 回答覆盖率 (Answer Coverage): 反馈是针对整个回答还是仅仅针对错误?
  4. 目标覆盖率 (Target Coverage): “完美”解决方案被揭示了多少?
  5. 标准 (Criteria): 你是基于事实性、风格还是安全性来评判?
  6. 信息新颖性 (Information Novelty): 反馈是告诉模型它已经知道的事情,还是引入新数据?
  7. 目的 (Purpose): 這是为了提高分数还是为了澄清任务定义?
  8. 风格 (Style): 反馈是正式的、粗鲁的,还是鼓励性的?
  9. 效价 (Valence): 正向 (强化) 还是负向 (纠正) ?
  10. 模态 (Mode): 文本、图像还是代码?

为什么这个分类体系很重要

以前的研究一直不一致。如下面的表 1 所示,不同的论文都声称使用“自然语言反馈”,但它们做的事情却大相径庭。

表 1: 过去使用文本或增强反馈的研究工作。

有些论文使用“学习者状态” (告诉模型它错了) ,而另一些论文使用“程序性”反馈 (告诉模型如何思考) 。没有分类体系,我们就无法公平地比较这些论文。FELT 分类体系让我们可以说: “论文 A 的效果比论文 B 好,因为他们使用了高粒度的程序性反馈,而论文 B 使用了模糊的学习者状态反馈。”

启示: 反馈的未来

那么,我们可以用 FELT 做什么呢?作者建议,这个框架开辟了全新的研究途径,将我们从简单的“带排名的 RLHF”推向复杂的“作为学习智能体的 LLM”。

图 3: 受 FELT 启发的一些未来研究方向的可视化摘要。

图 3 概述了源自 FELT 组件的几个未来方向:

  1. 基于任务的处理: 我们可以为不同的任务设计不同的反馈循环。我们不应该对数学题和创意写作使用相同的“提示工程”。
  2. 特定错误的惩罚: 通过映射错误类型 (来自“错误”组件) ,我们可以训练奖励模型,使其对幻觉的惩罚方式不同于对风格错误的惩罚。
  3. 反馈时机与反思: 受教育学启发,我们可以探索延迟反馈 。 与其立即纠正 LLM,我们可以要求它先“反思”其答案,然后针对反思而不是答案提供反馈。这模仿了老师强迫学生自己发现错误的方式。
  4. 个性化学习者: 我们可以将 LLM 建模为具有特定特征的学习者。“新手”模型可能需要明确、高粒度的反馈,而“专家”模型可能只需要轻微的提示 (低粒度) 。

结论

从“训练”到“教导” LLM 的转变不仅仅是语义上的转变。它代表了从暴力的统计相关性向结构化的教育学对齐的转变。

FELT 框架为这一领域提供了地图。通过理解反馈是一个涉及学习者状态、任务复杂性和批评具体内容的生态系统,我们可以设计更有效的对齐策略。

对于进入该领域的学生和研究人员来说,结论很明确: 不要只是把数据扔给模型。分析你如何教导它。你是一个提供可操作的、程序性反馈的乐于助人的老师吗?还是仅仅用红笔打分却不写评语?AI 能力的未来很可能取决于我们教学法的质量。