大语言模型 (LLMs) 的爆发在人工智能领域制造了一个独特的瓶颈。我们拥有能写诗、写代码和起草法律简报的模型,但我们正逐渐缺乏可靠的方法来为它们评分。
历史上,人类是裁判。但人类不仅速度慢、成本高,而且往往缺乏一致性。为了解决这个问题,行业转向了“大模型即裁判” (LLM-as-a-Judge) 的范式,即使用强大的专有模型 (如 GPT-4) 来评估较小模型的输出。这种方法效果不错,但也引入了新问题: 高昂的成本、缺乏透明度 (闭源) ,以及数据隐私问题。
理想情况下,我们会使用开源模型来为我们的 AI 评分。然而,直到最近,开源的“评估器模型”一直表现平平。它们往往与人类的判断不一致,而且至关重要的是,它们缺乏灵活性。它们通常被训练只做一件事: 要么给出一个分数 (1-5 星) ,要么对两个回答进行排序 (A vs. B) 。
PROMETHEUS 2 登场了。在 KAIST、LG AI Research、CMU 等机构的一篇新论文中,研究人员介绍了一种模型,它不仅缩小了与 GPT-4 的差距,还挑战了我们训练评估器模型的方式。通过利用一种新颖的“权重合并” (weight merging) 技术,他们创建了一个统一的模型,在评分和排序方面都表现出色。
在这篇文章中,我们将剖析 PROMETHEUS 2 的工作原理、支持它的数据,以及为什么合并模型权重可能比传统的训练方法更好。
当前裁判存在的问题
要理解 PROMETHEUS 2 的重要性,我们首先需要审视 AI 评估的现状。
自动化裁判通常分为两类:
- 弱评估器 (Weak Evaluators) : 这些通常是较小的开源模型 (如 Llama-2-70B 或早期版本的 Prometheus) 。它们的评分往往无法与人类判断相关联。
- 强评估器 (Strong Evaluators) : 这些是专有的巨型模型,如 GPT-4 或 Claude-3-Opus。它们的评分与人类以及彼此之间都有高度的相关性。

如上图 1 所示,强评估器 (蓝色) 形成了一个紧密的一致性集群。弱评估器 (红色) 则是分散的;它们不仅与强模型不一致,而且彼此之间也往往不一致。PROMETHEUS 2 的目标是将一个开源模型从红色组移动到蓝色组中。
给 AI 评分的两种方式
要构建一个更好的裁判,我们需要掌握评估的两种主流格式: 直接评估 (Direct Assessment) 和 成对排序 (Pairwise Ranking) 。
1. 直接评估 (绝对评分)
这种方法模仿老师批改论文。模型接收指令、回答和评分细则 (标准) 。它必须输出一个标量分数 (例如 1 到 5) ,通常还需要附带文字解释。
其数学公式如下:

在这里,函数接收指令 (\(i\)) 、回答 (\(r\)) 、参考答案 (\(a\)) 和评估标准 (\(e\)) ,并生成反馈 (\(v_r\)) 和分数 (\(s\)) 。
2. 成对排序 (相对评分)
这种方法模仿视力检查 (“是第 1 个更清楚,还是第 2 个?”) 。模型会收到一条指令和两个回答。它必须根据标准决定哪一个更好。

这种格式通常被认为对模型来说更容易,因为相对比较比绝对评分更简单。然而,现有的开源模型通常只针对其中一种格式进行训练。一个被训练用于将 A 与 B 排序的模型,当被要求给出 1-5 的评分时,往往表现得非常糟糕,反之亦然。

图 2 展示了这种差异。在直接评估中,模型必须证明为什么一个回答值得特定的分数 (例如 4/5) 。在成对排序中,它必须比较两个可能都很优秀的答案之间的细微差别,从而选出胜者。PROMETHEUS 2 旨在统一这些能力。
原料: 定制数据
没有好的数据就无法训练出好的评估器。研究人员利用了两个庞大的数据集来训练他们的模型。
- 反馈数据集 (Feedback Collection,用于直接评估) : 这是一个现有的数据集,包含输入、回答,以及——至关重要的——详细的评分细则和反馈。它教导模型如何基于特定标准 (如“有用性”或“创造力”) 分配分数。
- 偏好数据集 (Preference Collection,用于成对排序) : 这是该论文的新贡献。研究人员意识到,大多数排序数据集 (如用于 RLHF 的那些) 只告诉模型“A 比 B 好”,却不基于特定的评分细则解释为什么。
为了创建 偏好数据集 , 作者采用了反馈数据集并合成了配对。然后,他们使用 GPT-4 生成“文字反馈”,在宣布获胜者之前明确讨论两个回答之间的共同点和差异。这产生了涵盖 1,000 个不同评估标准的 200,000 多个训练实例。
秘方: 权重合并
这是 PROMETHEUS 2 方法论中最具创新性的部分。
训练一个模型执行两项任务 (评分和排序) 的标准方法是 联合训练 (Joint Training) 。 简单地将两个数据集混合在一起,并在组合的数据堆上训练模型。理想情况下,模型会同时学会这两者。
然而,研究人员发现联合训练导致了“负迁移 (negative transfer) ”。与仅针对一项任务训练的模型相比,该模型在每项单独任务上的表现实际上变差了。
他们的解决方案是什么? 权重合并 (Weight Merging) 。
他们没有在一个模型上训练所有数据,而是训练了两个独立的“专家”模型:
- 模型 A: 仅在直接评估数据上训练。
- 模型 B: 仅在成对排序数据上训练。
然后,他们将这两个模型的权重合并成一个最终模型。

上面的公式代表了一个简单的线性合并,其中 \(\theta_{final}\) 是两个模型参数的加权平均值。研究人员试验了几种先进的合并技术 (如 Task Arithmetic 和 TIES) ,最终决定采用一种名为 DARE-Linear 的方法作为最终模型 (特别是针对 8x7B 版本) 。
为什么这种方法更好?假设是合并保留了每个模型学到的专门“特征”,而没有同时训练时发生的干扰 (即一个任务的梯度可能会覆盖另一个任务的进度) 。
实验结果
研究人员将 PROMETHEUS 2 与各种开源模型 (Llama-2, Mistral, 之前的 Prometheus 版本) 和专有模型 (GPT-3.5, GPT-4) 进行了测试。
他们使用了多样化的基准测试集,以确保模型不仅仅是在死记硬背训练数据。

1. 直接评估的表现
在绝对评分任务中,PROMETHEUS 2 (无论是 7B 还是 8x7B 版本) 在所有开源模型中表现出与人类和 GPT-4 裁判最高的相关性。

如表 3 所示,PROMETHEUS 2-8x7B 在 MT Bench 上与 GPT-4 实现了 0.665 的皮尔逊相关性,在 FLASK 上与人类实现了 0.555 的相关性。这有效地将之前开源评估器与 GPT-4 之间存在的性能差距缩小了一半。
2. 成对排序的表现
对于排序任务,结果同样令人印象深刻。模型需要与人类关于哪个回答更好的决定保持一致。

虽然完整的准确率表格显示 PROMETHEUS 2 名列前茅,但表 13 (上图) 强调了一些可能更有趣的东西: 一致性 (Consistency) 。
研究人员测试了“跨格式一致性”。如果模型在成对测试中说“回答 A 比 B 好”,那么当单独对它们评分时,它是否也会给回答 A 比 B 更高的分数? PROMETHEUS 2 的 \(\Delta\) (Delta) 值很小,表明它具有高度的内部一致性。无论你是要求它评分 (1-5) 还是排序 (A vs B) ,它都能以稳健的方式理解质量。
为什么合并会胜出: 分析
论文深入探讨了为什么权重合并优于联合训练。对比非常鲜明。

表 5 揭示了“负迁移”现象。看“联合训练 (Joint Training) ”这一行。通常,当在直接评估基准上测试时,它的表现比“仅直接评估 (Direct Assessment Only) ”模型更低。
现在看看“权重合并 (Weight Merging) ”。它的得分高于单一格式模型和联合训练模型。这表明了 正迁移 (Positive Transfer) 。 从成对排序中学到的技能实际上帮助模型成为了一个更好的绝对评分员,但只有通过合并结合时才会如此。
研究人员还分析了合并比例 (\(\alpha\)) 如何影响性能。

图 3 将这种平衡可视化。X 轴代表直接评估权重与成对排序权重的比例。
- 绿线 (直接评估性能) : 在 0.5 左右达到峰值 (混合比例相等) 。
- 蓝线 (成对排序性能) : 在 0.3 左右达到峰值 (倾向于成对排序权重) 。
这种不对称性令人着迷。它表明,学习比较 (排序) 是一项能提升评分能力的基础技能,而学习评分对排序能力的提升作用较小。
结论
PROMETHEUS 2 代表了开源 AI 向前迈出的重要一步。它提供了一个免费、透明且能力强大的替代方案,取代了使用 GPT-4 作为裁判的做法。
对于学生和研究人员来说,关键要点是:
- 更好的数据: 偏好数据集的引入使模型能够学习排名的理由,而不仅仅是结果。
- 更好的训练: “权重合并”是一项强大的技术。如果你有一个需要同时做好两项不同任务的模型,训练单独的专家并合并它们可能会比多任务训练产生更好的结果。
- 灵活性: 我们不再需要在评分模型和排序模型之间做选择。我们可以拥有一个在两者上都具有高人类一致性的模型。
随着开源 LLM 生态系统的不断发展,拥有一个可靠的、开源的“老师”来为它们评分至关重要。PROMETHEUS 2 填补了这一角色,证明了有时候,两个模型融合在一起确实胜过单一模型。
](https://deep-paper.org/en/paper/2405.01535/images/cover.png)