弥合差距：自动指标如何构建更好的人类对齐翻译模型

机器翻译 (MT) 已经走过了漫长的道路，不再是过去那种笨拙的逐词替换。如今，大型语言模型 (LLMs) 能够进行非常流利的翻译。然而，“流利”并不总是意味着“完美”。在许多情况下，一个翻译可能在语法上是正确的，但却无法捕捉到用户偏好的微妙语气、文化细微差别或特定风格。

这就引出了现代人工智能的一个重大挑战: 对齐 (Alignment) 。我们如何教导模型不仅仅是预测下一个词，而是在多个有效的选项中选择最好的翻译？

通常，研究人员依赖于人类反馈——给模型提供数千个例子，由人类指出“翻译 A 比翻译 B 好”。虽然这种方法有效，但其成本极其高昂且难以扩展。

在这篇文章中，我们将深入探讨一篇引人入胜的论文《Modeling User Preferences with Automatic Metrics》 (利用自动指标建模用户偏好) ，该论文提出了一种巧妙的解决方法。研究人员证明，我们并不一定需要人类来评估每一个训练样本。相反，我们可以利用人类来验证一个自动指标 , 然后利用该指标生成一个海量、高质量的偏好数据集。其成果就是 MT-PREF , 这是一个能帮助开源模型实现超越其量级表现的数据集。

标准训练的问题

要理解这篇论文的重要性，我们需要先了解翻译模型通常是如何训练的。标准方法是监督微调 (Supervised Fine-Tuning, SFT) 。

在 SFT 中，模型会接收一个源句子和一个“金标准”参考译文。它的训练目标是最小化其输出与该参考译文之间的差异。从数学上讲，模型 \(\pi_\theta\) 试图最小化给定源句子 \(x\) 时参考译文 \(y\) 的负对数似然 (NLL) :

标准监督微调中使用的负对数似然损失函数。

这种方法对于学习基础知识很有效。然而，它有一个主要缺陷: 它将翻译视为单解问题。实际上，翻译一个句子有许多有效的方法，根据语境或偏好，有些方法仅仅是比其他的更好。SFT 并不教模型去比较；它只教模型去模仿。

转向偏好学习

为了解决这个问题，该领域已经转向偏好优化 (Preference Optimization, PO) 。与其只向模型展示一个“正确”答案，我们向它展示两个选项: 一个选中 (偏好) 的译文 (\(y_+\)) 和一个拒绝 (非偏好) 的译文 (\(y_-\)) 。

最流行的方法是直接偏好优化 (Direct Preference Optimization, DPO) 。 DPO 训练模型以提高选中译文相对于拒绝译文的概率。损失函数如下所示:

直接偏好优化 (DPO) 损失函数。

这里，\(\pi_{ref}\) 是用作基线的原始模型的冻结副本。目标是确保可训练模型 \(\pi_\theta\) 比参考模型更偏好选中的输出。

然而，DPO 有一个实际的缺点: 它非常消耗内存。你必须在内存中同时加载两个模型 (活动模型和参考模型) 。对于巨大的 LLM 来说，这显著增加了计算成本。

一种更高效的方法: CPO

这篇论文的研究人员利用一种称为对比偏好优化 (Contrastive Preference Optimization, CPO) 的变体来解决内存问题。CPO 近似了该目标，而无需在偏好计算期间将参考模型 (\(\pi_{ref}\)) 加载到内存中。相反，它假设一个均匀的参考分布，将方程简化为:

基本的对比偏好优化 (CPO) 损失函数。

这个方程推动模型最大化选中译文的可能性，同时最小化拒绝译文的可能性。但这存在风险。如果模型过于专注于拉大“选中”和“拒绝”分数的差距，它可能会通过降低两个翻译的概率来实现 (只是降低拒绝译文的幅度更大) 。这可能导致模型“遗忘”良好的翻译行为。

为了防止这种情况，作者添加了一个“行为克隆”正则化项。本质上，他们将少量的标准 SFT 损失混合回来，以确模型仍然能识别出选中的译文是良好的有效文本:

添加了 SFT 正则化项的最终 CPO 损失函数。

这种组合目标使得模型能够高效地学习偏好，而不会丧失其基本的翻译能力。

核心方法: 构建 “MT-PREF” 数据集

数学原理很扎实，但只有拥有好的数据，偏好学习才能奏效。如果你的数据集说翻译 A 比翻译 B 好，但翻译 A 实际上是垃圾，你的模型学不到任何有用的东西。

作者面临一个两难境地:

人类数据质量高，但昂贵且稀缺。
合成数据 (由指标生成) 便宜，但往往不可靠。

他们的解决方案是一种“两全其美”的方法。他们决定使用自动指标来生成数据，但前提是必须先根据人类专家的意见对这些指标进行严格验证。

第 1 步: 验证“自动裁判”

首先，研究人员需要找到一个实际上与人类译者意见一致的自动指标。他们从 WMT23 基准测试中抽取了 200 个源句子，并使用五个顶级系统生成翻译:

商业/闭源: GPT-4, Google Translate。
开源: TowerInstruct (7B 和 13B), ALMA-13B-R。

他们聘请了专业语言学家对这些翻译进行评分。界面如下所示:

语言学家用于对翻译进行评分的标注界面，评分范围为 0 到 6。

语言学家提供了详细的分数，这使得研究人员能够看到人类实际上偏好哪些模型。不出所料，商业巨头仍然占据领先地位。

展示成对偏好的热图。人类普遍偏好 Google 和 GPT-4 (蓝色单元格表示获胜) ，而非开源替代品。

有了这些人类标记的数据，研究人员测试了各种自动指标 (如 COMET、MetricX 及其组合) ，看哪一个与人类判断的相关性最高。

获胜者: 一个名为 xCOMET-XL+XXL 的集成指标。它在与人类评分的相关性方面得分最高，并且在识别一组翻译中“最佳”翻译的精确度也最高。

第 2 步: 生成偏好

有了值得信赖的 xCOMET-XL+XXL，团队构建了 MT-PREF 数据集。

他们挖掘了 10 种语言的全新源句子 (2022 年之后的数据，以避免污染) 。对于每个源句子，他们使用六个不同的模型生成翻译，范围从非常强的模型 (GPT-4) 到较弱的模型 (NLLB-54B) 。

这种多样性至关重要。如果你只根据一个模型的输出来训练，你的系统可能会学习该模型的特定怪癖，而不是通用的质量标准。通过混合模型，数据集涵盖了广泛的“风格”和错误类型。

选中和拒绝假设的分布。NLLB-54B (最右侧) 经常是‘拒绝’的模型，而 Google 和 GPT-4 经常是‘选中’的模型。

如上图所示，自动指标在选择高质量输出 (来自 Google/GPT-4) 作为“选中” (\(y_+\)) 对以及较低质量输出 (通常来自 NLLB) 作为“拒绝” (\(y_-\)) 对方面做得很好。

这一过程创建了 18,000 个偏好三元组 (源句子，胜者，败者) 。

实验与结果

在这个由指标生成的数据集上进行训练真的有效吗？研究人员使用他们的 MT-PREF 数据集和 CPO 目标微调了一个 Tower-7B 模型。

他们将结果与几个基线进行了比较，包括标准 SFT 和不同的 DPO 变体。评估使用了标准的 WMT23 基准。

1. CPO 配合 MT-PREF 带来显著提升

结果显而易见。使用 MT-PREF 数据集进行微调显著提高了翻译质量。

展示 WMT23 结果的表格。与基础 TowerInstruct 模型相比，CPO 方法 (底部行) 持续提高了分数 (COMET, xCOMET) 。

在上表中，请看 CPO 所在的行。使用 CPO 对齐的 Tower-7B 模型与更大的 Tower-13B 基础模型的性能相当，甚至有所超越。这是效率上的巨大胜利——仅仅通过更好的数据对齐，就从 7B 模型中获得了 13B 级别的性能。

2. 训练的稳定性

研究人员还调查了 为什么 CPO 相对于普通 DPO (没有 SFT 正则化) 表现更好。他们观察了模型在训练期间分配给选中和拒绝翻译的对数概率 (可能性) 。

训练期间对数概率的图表。DPO_base (绿色) 导致选中和拒绝句子的可能性都下降，而 CPO (蓝色) 保持稳定。

在上图中，绿色虚线代表标准 DPO (DPO_base) 。注意它是如何导致选中和拒绝的线条都呈下降趋势的吗？这意味着模型对所有文本的信心都在下降，从而降低了流利度。

然而，蓝线 (CPO) 保持得更加稳定。通过使用 SFT 项 (公式 4) 锚定模型，CPO 确保模型在学习偏好好的翻译的同时，不会忘记如何撰写好的语言。

3. 多少数据才够？

最后，团队提出了一个问题: 我们需要数百万个例子吗？他们进行了一项消融研究，将每个语言的数据集大小从 200 变化到 1000 个样本。

COMET 分数与样本大小的关系图。译出英语 (EN-XX) 随着数据的增加持续改善。

结果表明，对于翻译成英语 (XX-EN) ，模型很快就饱和了——大约 400 个样本。但是对于译出英语 (EN-XX) ，随着数据的增加，模型继续学习。这表明，主要在英语上进行预训练的 LLM 需要更多的指导 (更多的偏好对) 来改进其在其他语言中的生成能力。

结论与启示

“MT-PREF” 论文为开源翻译模型的未来提供了一张蓝图。它证明了我们不需要完全依赖海量的、专有的人类反馈数据集来对齐模型。

通过仔细验证自动指标 (如 xCOMET) 与人类判断的一致性，我们可以将该指标视为“代理人类”。这使我们能够基本上免费地生成海量、高质量的偏好数据集。

关键要点:

验证为先: 不要盲目相信自动指标。先用人类对其进行验证。
多样性至关重要: 一个好的偏好数据集应该包含来自许多不同模型的翻译，以避免偏见。
正则化是关键: 在使用偏好优化 (如 CPO) 时，添加行为克隆项有助于模型保持流利度和稳定性。

这种方法使得 7B 参数的模型能够媲美更大系统的性能，普及了高质量机器翻译的使用。随着自动指标的不断改进，这种“指标诱导”的训练循环很可能会成为 LLM 工具箱中的标准组成部分。

标准训练的问题#

转向偏好学习#

一种更高效的方法: CPO#

核心方法: 构建 “MT-PREF” 数据集#

第 1 步: 验证“自动裁判”#

第 2 步: 生成偏好#

实验与结果#

1. CPO 配合 MT-PREF 带来显著提升#

2. 训练的稳定性#

3. 多少数据才够？#

结论与启示#