在机器翻译 (Machine Translation, MT) 领域,我们已经到达了一个迷人的转折点。几十年来,翻译系统的目标一直是匹敌人类的表现。如今,随着像 GPT-4 这样的大型语言模型 (LLMs) 的出现,机器生成的翻译质量往往超越了人类编写的参考译文。
这在评估中造成了一个悖论。传统的指标是通过比较机器的输出 (即“候选句”) 与人类的翻译 (即“参考句”) 来工作的。如果参考句被视为“金标准”,那么指标又怎么可能奖励写得比它更好的机器呢?
在这篇文章中,我们将剖析一篇解决这一确切问题的研究论文。作者介绍了 RESUME (残差评分指标) , 这是一种超越简单参考匹配的新方法,旨在评估相对质量,从而有效地允许机器获得比其人类导师更高的分数。
问题所在: 参考偏差
要理解 RESUME 的创新之处,我们首先需要看看目前是如何对翻译进行评分的。
“金标准”陷阱
大多数 MT 指标,无论是基于词汇重叠 (如 BLEU) 还是神经嵌入 (如 COMET 或 BERTScore) ,都基于一个简单的假设: 人类参考句子是完美的。
评估函数看起来像这样:
\[ f(s, r, c) \]其中 \(s\) 是源句子,\(r\) 是参考句子,\(c\) 是候选句子。
该指标计算 \(c\) 和 \(r\) 之间的相似度。因此,当候选句与参考句完全相同时,得分最高。如果候选句与参考句不同——即使它的不同之处在于更好、更简洁或语法更准确——它也会受到惩罚。
这就是所谓的 参考偏差 (Reference Bias) 问题。
为什么现在这很重要
当机器翻译还很笨拙时,这并不是一个大问题。但考虑到现代环境中的两个因素:
- 人类错误: 参考句子是由人类编写的,他们容易出现不一致、误译或语法疏忽。
- LLM 的优越性: 像 GPT-4 这样的模型正越来越多地生成在文风上优于普通人类参考的翻译。
正如作者的研究所示,当前的指标无法给那些胜过参考句的候选句更高的分数。我们需要一个能够表明“这个翻译不仅仅像参考句,它比参考句更好”的指标。
解决方案: RESUME
研究人员提出了一种名为 RESUME 的方法。RESUME 不仅仅计算绝对质量分数,而是计算 残差分数 (residual score) ——即衡量候选句与参考句之间相对质量差异的指标。
翻译的最终得分是通过取标准指标的得分并加上这个残差调整来计算的:
\[ \text{Final Score} = f(s, r, c) + \lambda \cdot \text{RESUME}(s, r, c) \]这里,\(\lambda\) 是一个权重参数。创新的关键在于 RESUME 的输出内容:
- 如果 候选句 > 参考句,输出 正值 。
- 如果 候选句 < 参考句,输出 负值 。
通过加上这个正残差,总分理论上可以超过参考句本身的分数,从而打破“金标准”的天花板。
核心方法: 训练相对性
开发 RESUME 的最大挑战在于训练数据。创建一个由专家明确标注“句子 A 比句子 B 好确切的 0.5 分”的大规模数据集极其昂贵且耗时。
作者设计了一种巧妙的策略,利用现有的数据集 (如 WMT 直接评估数据) 来训练他们的模型,这些数据集通常只提供绝对质量分数。
训练策略
标准指标最小化预测分数与人类评分 \(y\) 之间的误差,通常范围从 0 到 1。

对于 RESUME,目标是预测候选句与参考句之间的差异 (\(\Delta y\)) 。

但现有的数据集没有 \(\Delta y\)。它们只有候选句的分数 (\(y\)) 。为了解决这个问题,作者为了训练做了一个简化假设: 假设参考句子是完美的 (得分 = 1.0) 。
利用这一假设,他们创建了一个训练循环,教导模型通过如下所示的两步过程来识别劣质和优质的翻译:

第一步: 学习负残差
在标准设置中,模型将候选句 (\(c\)) 与参考句 (\(r\)) 进行比较。由于数据集提供了候选句的分数 \(y\) (其中 \(y \le 1\)) ,且我们假设参考句为 \(1\),因此残差目标是:
\[ \Delta y = \text{score}(c) - \text{score}(r) = y - 1 \]由于 \(y\) 通常小于 1,该值为负。模型通过以下损失函数学习惩罚比参考句差的候选句:

第二步: 学习正残差 (“交换”技巧)
如果我们只通过上述方程进行训练,模型将永远只会学习输出负数。它永远学不会识别候选句何时更好。
为了解决这个问题,研究人员交换了输入 。 他们将参考句放入“候选句”槽位,将候选句放入“参考句”槽位。
- 现在,“候选句” (实际上是参考句) 的得分为 1。
- “参考句” (实际上是候选句) 的得分为 \(y\)。
目标残差变为:
\[ \Delta y = 1 - y \]这产生了一个 正值 。 通过在这种交换配置上进行训练,模型学会了当“候选句”槽位中的输入优于“参考句”槽位中的输入时是什么样子的。

这种对数据增强的巧妙运用使得 RESUME 能够学习全范围的相对质量 (-1 到 +1) ,而无需任何新的人工标注。
实验与结果
增加这个残差分数真的有帮助吗?作者在 WMT 22 MQM 数据集上测试了 RESUME,该数据集使用了高质量的专家评分。
1. 与人类判断的相关性
衡量成功的主要标准是指标是否与人类专家的判断一致。下表比较了标准指标 (如 COMET、BLEURT 和 UniTE) 与它们在增加了 RESUME 后的表现。

关键结论: 正如粗体数值所示, RESUME 持续提升了性能 , 无论是在片段级 (评估单个句子) 还是系统级 (对翻译模型进行排名) 的评估中。它将 BERTScore 这样的无监督指标变成了能与 COMET 这样有监督巨头竞争的对手。
2. 识别优质翻译
为了证明 RESUME 解决了参考偏差问题,作者使用了 译后编辑 (post-editing) 数据集 。 该数据集包含:
- 预编辑 (Pre-edited) : 含有错误的机器翻译。
- 译后编辑 (Post-edited) : 由人类专家修正后的同一翻译。
如果我们将 预编辑 版本作为参考句,一个好的指标应该给 译后编辑 版本打出比参考句更高的分数。

表 2 中的结果非常鲜明。像 COMET 和 BLEURT 这样的标准指标几乎从不 (1-2%) 给更好的翻译打出高于参考句的分数,因为它们太过于关注相似性。 然而,RESUME 在 59% 的情况下正确识别出了更优的质量。
3. 案例研究分析
让我们看一个具体的例子。在下表中,案例 #1 展示了一个包含误译的预编辑参考句。译后编辑的候选句修正了它。

- BERTScore 审视译后编辑的候选句,发现它与 (有缺陷的) 参考句不匹配,于是给出了 0.965 分,低于参考句的分数。
- BERTScore + RESUME 识别出了质量的提升,并增加了一个 +0.134 的残差提升,将分数推高至 1.099 。 这正确地表明了候选句优于参考句。
4. LLM 排名 (GPT-4)
最重要的发现之一是 RESUME 如何影响现代 LLM 的排名。在 WMT22 英中翻译任务中,标准的 BLEU 分数将“Online-W”系统的排名置于 GPT-3 和 GPT-4 之上。

然而,人类评估通常更偏向 GPT-4。正如在图 2 右侧图表中所见,当应用 RESUME 后,分数发生了变化。 GPT-4 (绿色柱) 取得了领先,使得自动指标与人类偏好 LLM 翻译的现实相一致。
敏感性分析
最后,作者探讨了应该给予残差分数多大的权重 (\(\lambda\)) 。

图表显示,虽然最佳的 \(\lambda\) 因指标而异,但增加一定量的残差分数 (在 x 轴上从 0 向右移动) 几乎总是能提高相关性,对于大多数指标来说,在 \(\lambda=0.2\) 到 \(1.0\) 左右达到峰值,然后下降。
结论
将人类参考句视为翻译质量绝对天花板的时代正在结束。随着大型语言模型不断进步,我们的评估工具必须进化,以识别机器何时超越了它的训练数据。
RESUME 指标为参考偏差问题提供了一个实用且巧妙的解决方案。通过使用交换输入训练策略来训练模型评估相对质量,作者创造了一种工具,能够:
- 提升现有指标 (如 COMET 和 BLEURT) 的准确性。
- 正确识别翻译何时优于其参考句。
- 准确地对像 GPT-4 这样的高性能 LLM 进行排名。
这项研究确保了随着翻译系统变得越来越智能,我们的评分能力不会被甩在后面。
](https://deep-paper.org/en/paper/file-2797/images/cover.png)