机器翻译 (MT) 已经走过了漫长的道路,不再是过去那种笨拙的逐词替换。如今,大型语言模型 (LLMs) 能够进行非常流利的翻译。然而,“流利”并不总是意味着“完美”。在许多情况下,一个翻译可能在语法上是正确的,但却无法捕捉到用户偏好的微妙语气、文化细微差别或特定风格。
这就引出了现代人工智能的一个重大挑战: 对齐 (Alignment) 。 我们如何教导模型不仅仅是预测下一个词,而是在多个有效的选项中选择最好的翻译?
通常,研究人员依赖于人类反馈——给模型提供数千个例子,由人类指出“翻译 A 比翻译 B 好”。虽然这种方法有效,但其成本极其高昂且难以扩展。
在这篇文章中,我们将深入探讨一篇引人入胜的论文《Modeling User Preferences with Automatic Metrics》 (利用自动指标建模用户偏好) ,该论文提出了一种巧妙的解决方法。研究人员证明,我们并不一定需要人类来评估每一个训练样本。相反,我们可以利用人类来验证一个自动指标 , 然后利用该指标生成一个海量、高质量的偏好数据集。其成果就是 MT-PREF , 这是一个能帮助开源模型实现超越其量级表现的数据集。
标准训练的问题
要理解这篇论文的重要性,我们需要先了解翻译模型通常是如何训练的。标准方法是监督微调 (Supervised Fine-Tuning, SFT) 。
在 SFT 中,模型会接收一个源句子和一个“金标准”参考译文。它的训练目标是最小化其输出与该参考译文之间的差异。从数学上讲,模型 \(\pi_\theta\) 试图最小化给定源句子 \(x\) 时参考译文 \(y\) 的负对数似然 (NLL) :

这种方法对于学习基础知识很有效。然而,它有一个主要缺陷: 它将翻译视为单解问题。实际上,翻译一个句子有许多有效的方法,根据语境或偏好,有些方法仅仅是比其他的更好。SFT 并不教模型去比较;它只教模型去模仿。
转向偏好学习
为了解决这个问题,该领域已经转向偏好优化 (Preference Optimization, PO) 。 与其只向模型展示一个“正确”答案,我们向它展示两个选项: 一个选中 (偏好) 的译文 (\(y_+\)) 和一个拒绝 (非偏好) 的译文 (\(y_-\)) 。
最流行的方法是直接偏好优化 (Direct Preference Optimization, DPO) 。 DPO 训练模型以提高选中译文相对于拒绝译文的概率。损失函数如下所示:

这里,\(\pi_{ref}\) 是用作基线的原始模型的冻结副本。目标是确保可训练模型 \(\pi_\theta\) 比参考模型更偏好选中的输出。
然而,DPO 有一个实际的缺点: 它非常消耗内存。你必须在内存中同时加载两个模型 (活动模型和参考模型) 。对于巨大的 LLM 来说,这显著增加了计算成本。
一种更高效的方法: CPO
这篇论文的研究人员利用一种称为对比偏好优化 (Contrastive Preference Optimization, CPO) 的变体来解决内存问题。CPO 近似了该目标,而无需在偏好计算期间将参考模型 (\(\pi_{ref}\)) 加载到内存中。相反,它假设一个均匀的参考分布,将方程简化为:

这个方程推动模型最大化选中译文的可能性,同时最小化拒绝译文的可能性。但这存在风险。如果模型过于专注于拉大“选中”和“拒绝”分数的差距,它可能会通过降低两个翻译的概率来实现 (只是降低拒绝译文的幅度更大) 。这可能导致模型“遗忘”良好的翻译行为。
为了防止这种情况,作者添加了一个“行为克隆”正则化项。本质上,他们将少量的标准 SFT 损失混合回来,以确模型仍然能识别出选中的译文是良好的有效文本:

这种组合目标使得模型能够高效地学习偏好,而不会丧失其基本的翻译能力。
核心方法: 构建 “MT-PREF” 数据集
数学原理很扎实,但只有拥有好的数据,偏好学习才能奏效。如果你的数据集说翻译 A 比翻译 B 好,但翻译 A 实际上是垃圾,你的模型学不到任何有用的东西。
作者面临一个两难境地:
- 人类数据质量高,但昂贵且稀缺。
- 合成数据 (由指标生成) 便宜,但往往不可靠。
他们的解决方案是一种“两全其美”的方法。他们决定使用自动指标来生成数据,但前提是必须先根据人类专家的意见对这些指标进行严格验证。
第 1 步: 验证“自动裁判”
首先,研究人员需要找到一个实际上与人类译者意见一致的自动指标。他们从 WMT23 基准测试中抽取了 200 个源句子,并使用五个顶级系统生成翻译:
- 商业/闭源: GPT-4, Google Translate。
- 开源: TowerInstruct (7B 和 13B), ALMA-13B-R。
他们聘请了专业语言学家对这些翻译进行评分。界面如下所示:

语言学家提供了详细的分数,这使得研究人员能够看到人类实际上偏好哪些模型。不出所料,商业巨头仍然占据领先地位。

有了这些人类标记的数据,研究人员测试了各种自动指标 (如 COMET、MetricX 及其组合) ,看哪一个与人类判断的相关性最高。
获胜者: 一个名为 xCOMET-XL+XXL 的集成指标。它在与人类评分的相关性方面得分最高,并且在识别一组翻译中“最佳”翻译的精确度也最高。
第 2 步: 生成偏好
有了值得信赖的 xCOMET-XL+XXL,团队构建了 MT-PREF 数据集。
他们挖掘了 10 种语言的全新源句子 (2022 年之后的数据,以避免污染) 。对于每个源句子,他们使用六个不同的模型生成翻译,范围从非常强的模型 (GPT-4) 到较弱的模型 (NLLB-54B) 。
这种多样性至关重要。如果你只根据一个模型的输出来训练,你的系统可能会学习该模型的特定怪癖,而不是通用的质量标准。通过混合模型,数据集涵盖了广泛的“风格”和错误类型。

如上图所示,自动指标在选择高质量输出 (来自 Google/GPT-4) 作为“选中” (\(y_+\)) 对以及较低质量输出 (通常来自 NLLB) 作为“拒绝” (\(y_-\)) 对方面做得很好。
这一过程创建了 18,000 个偏好三元组 (源句子,胜者,败者) 。
实验与结果
在这个由指标生成的数据集上进行训练真的有效吗?研究人员使用他们的 MT-PREF 数据集和 CPO 目标微调了一个 Tower-7B 模型。
他们将结果与几个基线进行了比较,包括标准 SFT 和不同的 DPO 变体。评估使用了标准的 WMT23 基准。
1. CPO 配合 MT-PREF 带来显著提升
结果显而易见。使用 MT-PREF 数据集进行微调显著提高了翻译质量。

在上表中,请看 CPO 所在的行。使用 CPO 对齐的 Tower-7B 模型与更大的 Tower-13B 基础模型的性能相当,甚至有所超越。这是效率上的巨大胜利——仅仅通过更好的数据对齐,就从 7B 模型中获得了 13B 级别的性能。
2. 训练的稳定性
研究人员还调查了 为什么 CPO 相对于普通 DPO (没有 SFT 正则化) 表现更好。他们观察了模型在训练期间分配给选中和拒绝翻译的对数概率 (可能性) 。

在上图中,绿色虚线代表标准 DPO (DPO_base) 。注意它是如何导致选中和拒绝的线条都呈下降趋势的吗?这意味着模型对 所有 文本的信心都在下降,从而降低了流利度。
然而,蓝线 (CPO) 保持得更加稳定。通过使用 SFT 项 (公式 4) 锚定模型,CPO 确保模型在学习偏好好的翻译的同时,不会忘记如何撰写好的语言。
3. 多少数据才够?
最后,团队提出了一个问题: 我们需要数百万个例子吗?他们进行了一项消融研究,将每个语言的数据集大小从 200 变化到 1000 个样本。

结果表明,对于翻译 成 英语 (XX-EN) ,模型很快就饱和了——大约 400 个样本。但是对于 译出 英语 (EN-XX) ,随着数据的增加,模型继续学习。这表明,主要在英语上进行预训练的 LLM 需要更多的指导 (更多的偏好对) 来改进其在其他语言中的生成能力。
结论与启示
“MT-PREF” 论文为开源翻译模型的未来提供了一张蓝图。它证明了我们不需要完全依赖海量的、专有的人类反馈数据集来对齐模型。
通过仔细验证自动指标 (如 xCOMET) 与人类判断的一致性,我们可以将该指标视为“代理人类”。这使我们能够基本上免费地生成海量、高质量的偏好数据集。
关键要点:
- 验证为先: 不要盲目相信自动指标。先用人类对其进行验证。
- 多样性至关重要: 一个好的偏好数据集应该包含来自许多不同模型的翻译,以避免偏见。
- 正则化是关键: 在使用偏好优化 (如 CPO) 时,添加行为克隆项有助于模型保持流利度和稳定性。
这种方法使得 7B 参数的模型能够媲美更大系统的性能,普及了高质量机器翻译的使用。随着自动指标的不断改进,这种“指标诱导”的训练循环很可能会成为 LLM 工具箱中的标准组成部分。
](https://deep-paper.org/en/paper/2410.07779/images/cover.png)