在机器翻译 (MT) 飞速发展的今天,我们要迎来一个关键时刻。几年前,翻译系统的目标仅仅是生成可理解的文本。而如今,像 Google Translate、DeepL 和 GPT-4 这样的系统生成的翻译往往与人类的输出难辨真假。我们不再面对“词语堆砌”的乱象;我们面对的是细微差别、风格和高保真的准确性。

但这成功背后隐藏着一个新的、潜在的问题。我们要用来给这些系统打分的工具——如 BLEU、COMET 和 BLEURT 等自动指标——是在一个“好”与“坏”翻译之间有着天壤之别的时代设计和验证的。

大多数翻译都很好的时候会发生什么?我们现有的指标真的能区分“优秀”的翻译和“完美”的翻译吗?

最近一篇名为*“Can Automatic Metrics Assess High-Quality Translations?” (自动指标能否评估高质量翻译?) *的研究论文正是针对这一问题展开的。研究人员利用高质量的人类翻译对最先进的指标进行了系统的压力测试。他们的发现给 NLP 社区敲响了警钟: 我们的“量尺”恰恰在我们最需要它的地方失效了。

在这篇深度文章中,我们将探讨现代指标为何无法区分高质量的备选翻译,为什么它们难以识别无错文本,以及这对机器翻译评估的未来意味着什么。

高质量转变

要理解这个问题,我们首先需要看数据。过去,数据集的质量参差不齐。然而今天,翻译模型的性能已经非常高了。

研究人员分析了近期 WMT (机器翻译研讨会) 比赛的数据。他们使用 MQM (多维质量指标) 框架作为金标准。与简单的 1-10 打分不同,MQM 由训练有素的语言学家标记特定的错误跨度 (如“误译”或“语法错误”) 并给予惩罚:

  • 0: 无错误 (完美) 。
  • -1: 轻微错误。
  • -5: 重大错误。

该论文将 高质量 (HQ) 翻译定义为 MQM 分数大于 -5 的翻译。这意味着翻译没有会让读者困惑的重大错误。

表 1 显示了近期 WMT 数据集中黄金 MQM 分数的分布。绝大多数翻译现在都是高质量的。

表 1 所示,翻译数据的格局绝大多数是“绿色”的。在不同的语言对 (如英译德或中译英) 中,零错误 (深绿色) 或仅有轻微错误 (浅绿色) 的翻译比例非常大。在 WMT 2022 的英译德任务中,超过 51% 的翻译是无错误的。

这这就带来了一个统计学上的挑战。如果你训练一个指标来发现灾难性的错误,但它看到的尽是卓越的翻译,你怎么知道它是否真的在起作用?研究人员认为,目前的评估协议掩盖了指标无法处理这种高质量情况的问题。

方法论: 对指标进行压力测试

这篇论文的核心贡献是对自动指标进行了严格的压力测试。作者建议我们要停止关注“全局相关性”,开始关注“局部排名”。

全局相关性的问题

传统上,指标的性能是使用整个数据集的 Pearson 或 Spearman 相关系数来计算的。这考察了成千上万个句子对 (系统 A 翻译句子 1,系统 B 翻译句子 2 等) ,并提出问题: 该指标在总体上与人类判断一致吗?

问题在于,这种方法混合了“简单”的比较和“困难”的比较。对于指标来说,判断一个通顺的句子比一个破碎的句子好是很容易的。但要看一个源句子和三个不同的、都有效的翻译,并决定哪个最好,这就难得多了。

实验设置

为了测试这一点,作者设计了特定的排名配置,如 图 1 所示。

图 1 展示了排名分析的配置。网格代表了评估时翻译的分组方式。

让我们分解一下 图 1 中的网格:

  1. 左侧网格 (All: \(N \times M\)): 这是标准方法 (No-Grouping)。取所有 \(N\) 个系统和所有 \(M\) 个句子,计算一个大的相关性分数。这实际上衡量的是指标能否在总体上区分好翻译和坏翻译。
  2. 中间网格 (HQ: \(N \times K\)): 这是关键测试。研究人员过滤数据,只保留高质量 (HQ) 的翻译。然后他们按源句子对这些翻译进行分组 (Group-by-Src)。这里的任务是: 给定一个源句子和几个高质量的翻译,指标能像人类一样对它们进行排序吗?
  3. 右侧网格 (All⁺: \(N \times K\)): 这是一个对照设置,使用标准分组但包含所有质量级别。

如果一个指标真的稳健,它应该在中间网格 (HQ) 中表现良好。它应该能够检测出一个只有轻微标点错误的翻译和一个零错误翻译之间的细微差别。

结果 1: 排序失败

那么,这些指标的表现如何呢?结果令人清醒。

研究人员测试了几类指标:

  • 词汇指标: BLEU, chrF (基于单词/字符重叠) 。
  • 嵌入指标: BERTScore。
  • 学习指标: COMET, BLEURT, MetricX (训练来预测质量的神经网络) 。
  • 质量估计 (QE) 指标: CometKiwi, GEMBA-MQM (这些指标看人类参考翻译,只看源文和输出) 。

表 2 展示了英译德数据集的 Spearman 相关性。

表 2 显示了 Spearman 相关性结果。注意与 ‘ALL’ 列相比,‘HQ’ 列中的性能显着下降。

分析数据

请看标记为 Group-by-src / HQ 的列。这代表了评估同一源文的高质量翻译的“困难模式”。

  1. 性能大幅下降: 比较 No-Grouping / ALL 列 (标准评估) 和 Group-by-src / HQ 列。
  • COMET0.578 降至 0.202
  • BLEURT-200.618 降至 0.220
  • xCOMET-XL0.713 降至 0.250

这表明,虽然这些指标擅长从总体上区分好翻译和坏翻译,但当被要求对两个高质量翻译进行相互排名时,它们几乎是随机的。

  1. QE 指标具有竞争力: 令人惊讶的是,在 HQ 环境下,质量估计指标 (不使用参考翻译) 的表现与基于参考的指标持平甚至更好。 GEMBA-MQM (基于 GPT-4 的提示指标) 实现了最高的相关性 (0.368) ,尽管这个数值本身仍然很低。

  2. “平局”问题: 作者认为相关性低的一个原因是指标难以预测“平局”。在 HQ 范围内,许多翻译同样好 (例如,MQM 分数为 0) 。人类能识别这种均等性;而指标往往会根据任意特征强制进行排名,从而引入噪声。

结果 2: 识别“完美” (HQ-ZERO)

排名很难,特别是当翻译相似时。因此研究人员问了一个更简单的二元问题: 指标能识别出一个零错误的翻译吗?

在 MQM 框架中,完美的翻译得分为 0。大多数自动指标被归一化为输出 0 到 1 (或 0 到 100) 之间的分数。因此,如果翻译是完美的,指标输出的分数应该非常接近其最大值 (例如 \(\geq 0.99\)) 。

作者专门分析了这些 HQ-ZERO (完美) 翻译的指标得分分布。

图 2 展示了完美翻译的指标得分分布 (上图) 以及精确度/召回率/F1 性能 (下图) 。

“紧张”指标综合症

图 2 的上半部分显示了代表完美翻译得分密度的小提琴图。理想情况下,这些图形应该紧紧贴在图表的顶部 (得分为 1.0) 。

  • 词汇指标 (chrF, BLEU): 它们几乎从不给出满分。这是意料之中的;除非翻译与人类参考完全一致,否则这些指标会对其进行惩罚,即使它是一个完全有效的备选翻译。
  • 学习指标 (BLEURT, COMET): 它们也难以给出完美分数。它们的分布是分散的,通常集中在 0.8 或 0.9 左右。这意味着它们“低估”了完美翻译的质量。
  • GEMBA-MQM: 这个指标 (红色小提琴图) 在顶部显示出很强的密度。它更愿意将翻译标记为“无错误”。

精确度与召回率的权衡

图 2底部的表格使用精确度 (P)、召回率 (R) 和 F1 分数对此进行了量化。

  • xCOMET-XL 具有高精确度 (0.759) 但召回率极低 (0.026)。它几乎从不称翻译为完美,但当它这样做时,通常是对的。
  • GEMBA-MQM 实现了最佳平衡 (最高 F1) ,召回率很高 (0.835)。它捕捉到了大多数完美翻译。

这揭示了我们训练指标方式的一个缺陷。大多数指标被训练为回归人类分数 (预测一个 0-100 的数字) 。它们学会了“对冲赌注”以最小化误差,即使输入是完美的,也极少输出极端值 1.0。

结果 3: 大语言模型的偏见

鉴于上述结果,人们可能会想,“我们应该只用 GEMBA-MQM (GPT-4) 来做所有事情!”它在 HQ 设置中排名最好,并且愿意给出完美分数。

然而,研究人员发现了一个严重的偏见。

他们研究了 偏好偏见 (Preference Bias) 。 他们计算了指标将“有效” (完美) 分数分配给实际上完美 (HQ-ZERO) 的翻译与完美 (Non HQ-ZERO) 翻译的频率。

图 3 显示了分配有效分数的绝对差异。红色条形表示潜在的偏见。

图 3 中,我们看到了指标在不同翻译系统 (如 ONLINE-B, GPT-4-5shot, NLLB) 上的表现。

请看代表 GEMBA-MQM 的红色条形。注意其在 GPT-4-5shot (第二行) 上的行为。GEMBA-MQM 经常给 GPT-4 的翻译打满分,即使人类在其中标记了错误

这表明存在 自我偏好偏见 。 因为 GEMBA-MQM 是由 GPT-4 驱动的,它倾向于偏爱 GPT-4 生成的翻译,高估了它们的质量。它同时也更严厉地惩罚其他系统。

相反,指标 MaTESe (绿色条形) 倾向于全面高估质量 (高召回率,低精确度) ,给许多实际上包含错误的翻译打出了完美分数。

对学生和研究人员的启示

这篇论文突出了自然语言处理中的一个重大“盲点”。当我们推动 AI 达到“人类水平”时,我们的评估方法却落后了。

以下是给该领域学习或工作的人的关键要点:

  1. 不要轻信全局相关性: 如果你读到一篇论文声称某个新指标基于全局相关性是“最先进的”,要持怀疑态度。问问它在高质量数据上的表现如何。
  2. “参考”并非绝对: BLEU 和 chrF 在 HQ 范围内的失败证实了,依赖与单一人类参考的重叠度来评估高质量翻译已经过时了。一个完美的翻译可能使用了与参考完全不同的词汇。
  3. 指标校准很重要: 目前的神经指标是“不自信”的。它们很少预测完美分数。如果你使用这些指标来过滤数据 (例如,“只保留最好的翻译用于训练”) ,你可能会丢弃完美的好数据,因为指标不敢给它打 1.0 分。
  4. 大语言模型作为裁判: 使用大语言模型 (如 GPT-4) 作为评估者很有前途但也很危险。它们有独特的偏见,偏爱自己的“声音”或风格。这可能会造成一个反馈循环,我们优化模型是为了让它听起来像 GPT-4,而不是为了让它正确。

结论

研究人员总结道,虽然自动指标曾为我们提供了很好的服务,但它们目前不足以应对翻译质量的“最后一公里”。当两个翻译之间的区别在于细微差别而非语法时,目前的指标本质上是在猜测。

为了推动领域进步,我们需要范式转变。我们可能需要从基于回归的指标 (预测分数) 转向基于检测的指标 (识别特定错误) ,类似于 MQM 框架本身。在那之前,人工评估仍然是区分卓越与优秀的唯一真实途径。