解读评分：一种可解释的机器翻译评估新框架

引言

在机器翻译 (MT) 领域，我们见证了评估指标从基于启发式的 (如 BLEU) 到基于神经网络的 (如 COMET 和 MetricX) 的巨大转变。这些较新的模型在与人类判断的一致性方面表现得更好。然而，它们带来了一个“黑盒”问题。

当一个神经指标给你一个分数——比如说 0.86——这实际上意味着什么？这是一个完美的翻译吗？还是仅仅是“还行”？如果另一个指标给同一个句子打分 -1.49，你该如何比较它们？

历史上，研究人员主要通过检查指标与人类评分的相关性来评估这些指标。虽然相关性可以告诉我们一个指标的大致趋势是否正确，但它并不能帮助从业者做出具体、硬性的决定。随着指标越来越多地用于数据过滤 (决定保留哪些训练数据) 或重排序 (从选项列表中选择最佳翻译) 等下游任务，这种模糊性变得至关重要。

在论文《Beyond Correlation: Interpretable Evaluation of Machine Translation Metric》中，来自罗马萨皮恩扎大学的研究人员引入了一个新的框架来解决这一可解释性危机。他们不再仅仅依赖相关性，而是基于指标做出二元决策 (通过/失败) 的能力来评估它们，并使用精确率 (Precision) 、召回率 (Recall) 和 F 分数 (F-score) 来衡量其成功程度。

图 1: COMET (Rei et al., 2020)、MetricX-23-QE-XL (Juraska et al., 2023) 和 GEMBA-MQM (Kocmi and Federmann, 2023) 对提供的机器翻译文本返回的质量评估。

如图 1 所示，不同的指标对同一个翻译给出的标量输出截然不同。如果没有一个框架来为这些数字提供依据，想要为 MT 系统做出明智的设计选择几乎是不可能的。

背景: 可解释性缺口

要理解为什么这个新框架是必要的，我们必须看看 MT 指标目前是如何被使用的。最初，指标主要用于跟踪渐进式的进展——检查模型 A 是否比模型 B 略好一点。

然而今天，指标在复杂的流程中充当着活跃的效用函数:

数据过滤 (Data Filtering) : 从海量网络抓取的数据集中过滤掉低质量的翻译，以训练更好的模型。
最小贝叶斯风险 (MBR) 解码: 生成多个翻译假设，并使用指标选择预期误差最小的那个。
强化学习 (Reinforcement Learning) : 使用指标作为奖励模型来微调 MT 系统。

标量的问题

大多数最先进的指标在训练时都是为了最小化与人类判断的均方误差 (MSE) 。它们输出一个单一的数字 (标量) 。作者指出了这种方式存在的三个主要可解释性问题:

范围一致性 (Range Consistency) : 在评分范围的底部增加 0.1 分，是否意味着与在顶部增加 0.1 分具有相同的质量提升？ (很可能不是) 。
错误归因 (Error Attribution) : 一个单一的数字不能告诉你哪里出了问题 (例如，是严重的误译还是仅仅是标点符号错误) 。
性能不透明性 (Performance Opacity) : 知道一个指标与人类有“0.9 的相关性”，并不能告诉你它会有多大概率错误地将一个糟糕的翻译标记为好翻译。

为了解决第三点——性能——作者建议将指标视为分类器 , 而不仅仅是回归模型。

核心方法: 一个可解释的框架

研究人员设计了两个评估场景，作为现实世界用例的代理: 数据过滤和翻译重排序 。

场景 1: 作为二元分类器的指标 (数据过滤)

想象一下，你正在过滤一个庞大的数据集。你想保留“好 (GOOD) ”的翻译，扔掉“坏 (BAD) ”的翻译。你可以使用一个指标 \(\mathcal{M}\) 和一个阈值 \(\tau\)。如果指标分数 \(\mathcal{M}(t) \geq \tau\)，则保留该翻译。

为了评估指标执行此任务的效果，作者将指标的决策与预言机 (专家人工标注) 进行比较。他们将其分解为标准的分类指标:

精确率 (Precision) : 如果指标说一个翻译是好的，它实际上是好的概率是多少？

方程 1: 精确率公式

召回率 (Recall) : 在所有人类实际评定为好的翻译中，指标成功找到的百分比是多少？

方程 2: 召回率公式

F 分数 (F-score) : 结合了精确率和召回率。作者明确使用了 \(F_{\beta}\) (赋予精确率更高的权重) 。为什么？因为在数据过滤中, 假阳性 (False Positive) (保留了糟糕的翻译) 通常比假阴性 (False Negative) (意外丢弃了好翻译) 对模型训练的危害更大。

方程 3: F 分数公式

作者使用了源自 MQM (多维质量指标) 的高质量人类标签。他们定义:

GOOD (好) : 没有严重错误，且微小错误极少。
PERFECT (完美) : 几乎没有任何错误。
BAD (坏) : 其他所有情况。

场景 2: 翻译重排序

在这种场景下，MT 系统为单个源句子生成多个潜在的翻译。指标的工作是对它们进行排序并选出赢家。

这里的评估指标是重排序精确率 (Re-Ranking Precision, RRP) 。它计算指标认为最好的翻译集合 (\(T^{\mathcal{M}}\)) 与人类认为最好的翻译集合 (\(T^{\mathcal{H}}\)) 之间的重叠。

方程 5: 重排序精确率公式

这种设置使我们能够摆脱抽象的相关性，并提出具体的问题: “如果我使用这个指标来过滤我的数据，会有多少垃圾数据漏过去？”

实验设置

评估依赖于 WMT23 MQM 数据集，该数据集提供了专家级的翻译质量人工标注。

源语言: 中文 (ZH)、英文 (EN)、希伯来语 (HE)。
目标语言: 英文 (EN)、德文 (DE)。

研究人员测试了多种指标，包括:

基于参考译文的 (Reference-based) : COMET, MetricX-23, MaTESe。
无参考译文的 (QE) : COMET-QE, MetricX-23-QE, CometKiwi。
基于大语言模型的 (LLM-based) : GEMBA-MQM (使用 GPT-4)。

他们在测试集上优化了阈值 (\(\tau\)) ，以找到每个指标的理论最大性能 (其能力的“天花板”) 。

实验与结果

1. 指标能否区分好与坏？

二元分类任务 (数据过滤) 的结果具有启发性。

表 1: 指标在二元分类中区分 GOOD 与 BAD，以及 PERFECT 与 OTHER 翻译的精确率、召回率和 F 分数。

表 1 (上图) 强调了几个主要发现:

好 vs. 坏: 大多数指标在区分尚可的翻译和糟糕的翻译方面表现不错。表现最好的指标如 GEMBA-MQM 和 xCOMET-QE-ENSEMBLE 达到了超过 81 的 F 分数。
精确率问题: 注意到几乎所有指标的精确率都低于召回率。这意味着指标通常是“乐观的”——它们急于将翻译标记为 GOOD，导致假阳性。
完美 vs. 其他: 当试图识别“完美 (PERFECT) ”翻译时，任务变得更加困难。F 分数显著下降 (降至 60 多分) 。目前的指标缺乏区分“好”翻译和无瑕疵翻译的敏感度。
赢家: 对于开源、无参考译文的应用 (数据过滤中最常见的场景) , MetricX-23-QE-XL 始终表现出顶级水平。

2. 阈值的不稳定性

可解释性的一个主要论点是理解分数的含义。如果 0.8 分代表“好”，那么理想情况下，无论语言对如何，它都应该代表“好”。

然而，实验表明最佳阈值是高度不稳定的。

图 3: 不同语言方向下用于 GOOD vs BAD 分类的测试指标最佳阈值。

如图 3 所示，区分好与坏的最佳阈值 (\(\tau\)) 在不同语言对之间 (ZH\(\to\)EN vs EN\(\to\)DE vs HE\(\to\)EN) 差异巨大。这证实了原始指标分数并不具有普遍的一致性。对于一种语言来说，0.8 可能是一个安全的阈值，但对于另一种语言来说可能太宽松 (或太严格) 。

当试图识别 PERFECT 翻译时，情况也是类似的，如下图所示。

图 4: 不同语言方向下用于 PERFECT vs OTHER 分类的测试指标最佳阈值。

3. 假阳性有多“坏”？

既然指标在精确率方面很吃力，那么了解它们犯错时错得有多离谱就至关重要。如果一个指标将“BAD”翻译标记为“GOOD”，这是一个灾难 (幻觉) 还是一个小麻烦 (拼写错误) ？

作者绘制了假阳性的“MQM 分数 \(\Delta\)”分布图。

图 2: 公开可用指标的假阳性 MQM 分数与人类阈值之间的 MQM 分数差值分布。

在图 2 中，y 轴列出了指标，x 轴显示了假阳性偏离真实阈值的程度。

小提琴形状: 左侧分布更宽意味着该指标放过了一些真正糟糕的翻译。
关键洞察: 最好的指标 (顶部的几行) 的分布向右偏斜。这意味着当它们失败时，通常是在边界情况上失败——那些几乎是好的但稍有欠缺的翻译。
异常值: 看最下面的一行, DA+SQM 。这代表了非专家的人类标注。它的分布非常宽，表明它远不如自动化的神经指标可靠。

4. 重排序与 MBR

在选择唯一的最佳翻译 (重排序) 时, 基于参考译文 (Reference-based) 的指标通常优于无参考译文 (Reference-free) 的指标。

表 3: 基于参考译文的指标作为 MBR 解码效用函数时的重排序精确率。

表 3 比较了标准重排序设置与最小贝叶斯风险 (MBR) 解码中的指标。MBR 是一种强大的技术，系统生成许多假设，并选择与其他所有假设最相似的一个 (使用指标作为相似度量) 。数据表明，MBR 解码充当了基于参考译文质量的强大“代理”，通常击败了标准的质量估计 (QE) 重排序方法。

5. “人类”基线的意外

也许最有争议的发现涉及 DA+SQM (直接评估 + 标量质量指标) 。这是一种收集人类评估数据的常用方法，标注者使用滑块对质量进行评分。

作者发现，DA+SQM 标注与专家级 MQM 标签的相关性比自动指标更差。

DA+SQM 具有低精确率和高召回率 (见表 1 的最后一行) 。
在假阳性分析 (图 2) 中，与 MetricX 或 COMET 等指标相比，DA+SQM 允许明显更差的翻译通过并被标记为“好”。

这引发了对使用非专家人工评估整理的数据集可靠性的担忧。作者建议，对于细粒度的质量过滤，自动指标实际上可能比这些特定的人类标注更可靠。

结论与启示

这篇论文将机器翻译评估领域从“它相关吗？”推进到了“它有用吗？”。通过严格地将指标作为分类器进行测试，作者为从业者提供了可操作的建议:

使用 MetricX-23-QE-XL , 如果你需要一个用于过滤数据的开源、无参考译文指标。
谨慎对待阈值: 你不能选择一个单一的分数 (例如 0.8) 并将其应用于所有语言。阈值必须针对每个语言对进行调整，理想情况下应使用开发集。
相信神经指标胜过 DA+SQM: 基于专家的 MQM 标注是黄金标准。如果无法获得这些标注，顶级的神经指标实际上可能比非专家的众包更一致。
预料到假阳性: 即使是最好的指标在精确率方面也很吃力。它们会漏掉一些糟糕的翻译，而识别“完美”翻译仍然是一个未解决的挑战。

这一框架使研究人员能够根据具体的精确率/召回率权衡 (而不是直觉) 来做出设计选择——比如设定过滤阈值，从而最终获得更干净的数据集和更好的翻译模型。

引言#

背景: 可解释性缺口#

标量的问题#

核心方法: 一个可解释的框架#

场景 1: 作为二元分类器的指标 (数据过滤)#

场景 2: 翻译重排序#

实验设置#

实验与结果#

1. 指标能否区分好与坏？#

2. 阈值的不稳定性#

3. 假阳性有多“坏”？#

4. 重排序与 MBR#

5. “人类”基线的意外#

结论与启示#

引言