打造更好的批评家：FLAMe 如何驯服 LLM 以实现自动化评估

引言

在人工智能飞速发展的今天，我们已经达到了生成文本变得轻而易举的阶段。我们要模型能够写诗、用 Python 编程，并在几秒钟内总结法律文件。然而，我们遇到了一个新的、可以说更困难的瓶颈: 评估。我们如何知道模型生成的文本是否真的好？

传统上，评估的黄金标准是人类判断。你给一个人看两个摘要，问他: “哪一个更准确？”但随着大型语言模型 (LLM) 规模的扩大，人工评估变得极其昂贵、缓慢，有时甚至带有主观性。这导致了“LLM 作为裁判 (LLM-as-a-Judge) ”范式的兴起，即利用 GPT-4 等强大的模型来为较小模型的工作打分。

但这种方法存在缺陷。依赖专有的闭源模型进行评估会产生“黑箱”问题。此外，使用合成数据 (由 AI 生成的数据) 来训练评估器可能会产生反馈循环，导致模型强化自身的偏见。

FLAMe 应运而生，这是由 Google DeepMind 和 Google 的研究人员推出的一个新的基础大型自动评分模型 (Foundational Large Autorater Models) 家族。在他们的论文《Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation》中，作者提出了一个稳健的解决方案: 在一个大规模、高度精选的人类判断集合上训练评估模型——而不是使用 AI 生成的判断。

如下图所示，他们的结果令人震惊。他们的专用模型 FLAMe-RM 在 RewardBench 排行榜上击败了 GPT-4-0125 和 GPT-4o 等行业重量级模型，尽管它仅使用宽松许可的开放数据进行训练。

图 1| 我们的 FLAMe-24B 变体在许多保留的自动评分评估基准测试 (包括 RewardBench) 中，优于 GPT-4 和 Claude-3 等流行的专有“LLM 作为裁判”模型。

在这篇文章中，我们将剖析 FLAMe 背后的方法论，探索作者如何整理 530 万个人类判断，并研究让这些模型如此高效的新颖“尾部修补 (tail-patch) ”微调策略。

背景: 为什么我们需要自动评分器？

在深入了解 FLAMe 的架构之前，学生们有必要了解 LLM 评估的现状。

启发式方法的局限性

过去，自然语言处理 (NLP) 依赖于 BLEU 或 ROUGE 等重叠度指标。这些指标仅仅计算机器生成的文本中有多少单词与人类撰写的参考文本重叠。虽然对简单的任务有用，但这些指标在复杂、开放式的任务中彻底失效。一个句子可能完全符合事实且流畅，但与参考句子没有一个共同的单词。

LLM 作为裁判 (LLM-as-a-Judge) 的兴起

为了解决这个问题，研究人员开始提示 (prompt) LLM 充当裁判。你可能会给 GPT-4 一个提示: “请将以下摘要的有用性按 1 到 5 分进行评分。”

虽然有效，但这种方法引入了偏见。 LLM 通常偏爱较长的答案 (冗长偏见) ，偏爱首先出现的答案 (位置偏见) ，或者仅仅偏爱它们自己输出的内容 (自我中心偏见) 。此外，依赖 GPT-4 进行评估非常昂贵，而且如果用于训练竞争对手的模型，还违反了许多专有模型的服务条款。

FLAMe 假设

FLAMe背后的研究人员假设，构建一个公平、通用的裁判的最佳方法是追根溯源: 人类数据 。通过汇集海量多样化的人类评估任务，他们相信可以训练出一个模型来理解质量的基本原则，而无论手头的具体任务是什么。

核心方法: 构建 FLAMe

FLAMe 的创建是数据工程和迁移学习的大师级杰作。该过程可以分解为三大支柱: 数据收集、统一格式化和模型训练。

1. 数据: 530 万条人类判断

这项工作的基础是一个新的数据集合。作者不仅仅是抓取网络数据；他们从公开可用、宽松许可的研究中精心挑选了 102 个不同的质量评估任务。

至关重要的是，他们坚持了严格的原则:

无合成数据: 数据集中的每一个标签都来自人类标注者。
宽松许可: 仅使用开源数据，以确保生成的模型可以在没有法律灰色地带的情况下发布。
多样性: 数据不仅仅关于“有用性”。它涵盖了不同的 LLM 能力。

正如你在下面的细分图中看到的，该数据集涵盖了现代 AI 评估的支柱:

图 4|按 LLM 能力划分的 FLAMe 数据集细分… 真实性、安全性、编码和数学。

这种多样性至关重要。一个仅受过语法检查 (质量) 训练的模型在检测危险内容 (安全性) 或错误代码 (编码) 时将毫无用处。通过混合这些类别的 530 万个判断，模型学习了“人类偏好什么”的广义表示。

作者还确保了任务类型的多样性。仅仅问“这个好吗？”是不够的。数据包括成对比较 (A 对比 B) 、逐点评分 (1-5 级量表) 和分类 (是/否) 。

图 3|按任务类型划分的 FLAMe 数据集细分… 成对、逐点、分类和开放式。

2. 统一的文本到文本 (Text-to-Text) 格式

多任务学习的最大挑战之一是每个数据集看起来都不一样。一个数据集可能有“提示”和“响应”列，而另一个则有“文章”和“摘要”。

为了解决这个问题，作者将所有 102 个任务转换为单一的文本到文本格式。他们将评估视为一个翻译问题: 将上下文翻译成判断。

他们为每一个任务手动编写了指令。这意味着模型不仅仅是在看数据；它每次都在看任务的定义。

请看下面一个训练示例的架构:

图 2| 我们所有的质量评估任务都被制定为统一的文本到文本格式… 输入包括特定任务的上下文，目标包含预期的人类评估。

在这个图中，你可以看到结构:

指令 (Instructions) : 对“可归属 (attributable) ”含义的清晰定义。
上下文 (Context) : 源文章和待评估的摘要。
评估/目标 (Evaluation/Target) : 人类标签 (No) 和解释。

通过标准化输入，模型可以在给 Python 脚本评分和检查新闻摘要是否产生幻觉之间无缝切换。

3. 三种模型变体

作者以三种不同的方式训练了一个 PaLM-2-24B 模型 (一个经过指令微调的基础模型) 来测试他们的假设。

变体 A: FLAMe (通才)

该模型在包含 102 个任务的整个集合上使用监督多任务训练进行了 30,000 步的训练。数据按比例混合，这意味着较大的数据集出现得更频繁 (设有上限以防止一个数据集占主导地位) 。

结果: 这产生了一个强大的通用评估器，可以很好地泛化到新的、未见过的任务中。

变体 B: FLAMe-RM (专家)

作者想看看他们是否能在奖励建模 (Reward Modeling) (特别是 RewardBench 基准) 上击败专有模型。他们采用基础 FLAMe 模型，并在四个特定的数据集 (涉及聊天、推理和安全) 的平衡混合体上仅微调了 50 步。

结果: 这种轻微的训练“助推”带来了开放权重模型的最先进性能。

变体 C: FLAMe-Opt-RM (高效工程师)

这可能是技术上最有趣的贡献。作者认识到，如果你有一个特定的目标 (如 RewardBench) ，在所有数据上训练并不总是高效的。

他们引入了尾部修补微调策略 (Tail-Patch Fine-Tuning Strategy) 。工作原理如下:

取一个部分训练的模型。
仅在一个特定任务上对其进行短时间的微调 (即“尾部修补”) 。
测量该特定任务是否有助于或损害目标基准的性能。
根据此分析为任务分配权重 (有帮助的任务获得高权重；有害的任务获得低权重或零权重) 。

这使得研究人员能够从数学上确定针对特定目标的“完美配方”数据混合。

图 5|在早期训练阶段 FLAMe-Opt-RM 和 FLAMe 的比较… FLAMe-Opt-RM 更快地实现了显著更高的 Chat Hard 和 Safety 分数。

如图 5 所示，优化后的模型 (FLAMe-Opt-RM) 学习速度快得多。与标准 FLAMe 模型 (红线) 相比，它在“Chat Hard”和“Safety”任务上达到高准确率所需的步数仅为前者的一小部分，而标准 FLAMe 模型实际上会因为次优的数据混合导致安全性任务性能随时间下降。

实验与结果

作者在 12 个基准测试套件上评估了 FLAMe，但最重要的比较是针对 GPT-4、Claude-3 和 Llama-3-70B 等专有的“LLM 作为裁判”模型。

RewardBench 的统治地位

RewardBench 是一个综合基准，评估模型在聊天、推理和安全类别中区分好坏回答的能力。

FLAMe-RM 的结果令人印象深刻。它达到了 87.8% 的总体准确率。

表 2|FLAMe 与官方 RewardBench 排行榜上其他生成模型的比较。FLAMe-RM-24B 取得了仅在宽松许可数据上训练的生成模型中的最佳总体表现 (87.8%)。

观察上表，比较 FLAMe-RM-24B 行与 GPT-4-0125 行。

总体 (Overall) : FLAMe-RM (87.8) > GPT-4-0125 (85.9)。
高难度聊天 (Chat Hard) : FLAMe-RM (75.7) > GPT-4-0125 (74.3)。
安全性 (Safety) : FLAMe-RM (89.6) > GPT-4-0125 (87.2)。

这对于开放科学来说是一个巨大的成就。一个 240 亿参数的模型，在公共数据上训练，在评估响应质量方面击败了庞大的、专有的 GPT-4。

对保留任务的泛化能力

很容易对某个基准产生过拟合。为了证明 FLAMe 是真正的通才，作者在未包含在训练集中的其他 11 个基准 (保留任务) 上对其进行了测试。

FLAMe 在总共 12 个基准中的 8 个 上优于专有模型。具体来说，它在以下方面表现出色:

真实性: 在 LLM-AggreFact 基准上，FLAMe-24B 得分为 81.1%，击败了 GPT-4 的 80.6%。
代码重排序: 当被要求从生成的选项列表中挑选最佳的 Python 代码片段时 (HumanEval) ，FLAMe 显著提高了代码生成模型的成功率，证明它比许多竞争对手更能“读懂”代码质量。

偏见检查: CoBBLEr

使用 LLM 作为法官的一个主要批评是偏见。作者在 CoBBLEr 基准上测试了 FLAMe，该基准测量:

自我中心偏见: 模型是否偏爱自己的输出？
长度偏见: 它是否只是选择更长的答案？
顺序偏见: 它是否总是选择选项“A”？

分析显示，FLAMe 的偏见显著低于 GPT-4。因为它是在多样化的人类判断 (自然会有所不同) 上训练的，它学会了关注内容而不是长度或句子顺序等表面特征。

结论与启示

FLAMe 论文提出了一个令人信服的论点: 我们不需要依赖黑箱、专有模型来评估我们的 AI 系统。通过精心策划多样化的人类标记数据并将其转换为统一格式，我们可以训练出透明、许可宽松且高效的“基础自动评分器”。

给学生们的关键启示:

数据质量重于数量: FLAMe 的成功不是因为拥有的数据多于 GPT-4，而是因为拥有针对评判任务的更好、更具体的数据 (人类评估) 。
格式至关重要: 统一的文本到文本格式允许模型在截然不同的领域之间迁移知识 (例如，学习安全性有助于它理解推理) 。
通过优化提高效率: “尾部修补”方法表明，你可以科学地设计训练数据混合，以更少的算力获得更好的结果。

随着 LLM 的不断发展，为它们评分的模型也必须随之发展。FLAMe 证明了开放研究和公共数据可以与封闭的行业巨头并驾齐驱，为更加民主化和可靠的 AI 评估铺平了道路。

引言#

背景: 为什么我们需要自动评分器？#

启发式方法的局限性#

LLM 作为裁判 (LLM-as-a-Judge) 的兴起#

FLAMe 假设#

核心方法: 构建 FLAMe#

1. 数据: 530 万条人类判断#

2. 统一的文本到文本 (Text-to-Text) 格式#

3. 三种模型变体#

变体 A: FLAMe (通才)#

变体 B: FLAMe-RM (专家)#

变体 C: FLAMe-Opt-RM (高效工程师)#

实验与结果#

RewardBench 的统治地位#

对保留任务的泛化能力#

偏见检查: CoBBLEr#

结论与启示#

引言