想象一下,如果你是一个制作桌子的木匠。你有一把尺子用来测量你的作品长度。但这把尺子有个奇怪的特性: 当你测量橡木做的桌子时,一英寸正好是 2.54 厘米。但当你测量松木做的桌子时,这把尺子会神奇地“缩短”,这时的一“英寸”只有 2 厘米。结果就是,你的松木桌子得到了虚高的测量数据,而橡木桌子却受到了惩罚。
这在木工行业听起来极其荒谬,但最近的研究表明,这正是机器翻译 (MT) 系统评估中正在发生的事情。
在论文 “A Measure of the System Dependence of Automated Metrics” (一种衡量自动指标系统依赖性的方法) 中,研究人员 Pius von Däniken、Jan Milan Deriu 和 Mark Cieliebak 指出,目前的自动评估指标并不是中立的“量尺”。相反,它们表现出“系统依赖性 (System Dependence) ”——即根据生成翻译的 AI 系统不同,它们对翻译的处理方式也不同。这种偏差会导致不公平的排名,使得一个较差的翻译系统仅仅因为评估指标“偏爱”其特定的错误类型或输出风格而被判定为赢家。
在这篇文章中,我们将解读这项研究,探索“公平”评估背后的数学原理,并了解研究者提出的一种量化我们的量尺到底有多偏颇的方法。
相关性的问题
在深入解决方案之前,我们需要了解现状。评估机器翻译很难。黄金标准是人工评估 (特别是像多维质量指标 MQM 这样的框架) ,由专家费力地对翻译进行评分。然而,这种方法既缓慢又极其昂贵。
为了加快速度,该领域依赖于自动指标 (如 BLEU、COMET 或 BERTScore) 。这些算法在查看翻译后会吐出一个质量分数。我们通过检查这些指标与人工判断的相关性 (correlation) 来验证它们的有效性。如果一个指标给人类喜欢的句子打了高分,我们就说这个指标是好的。
通常,我们会关注:
- 句子级相关性 (Segment-level correlation) : 指标能否正确地对单个句子进行排名?
- 系统级相关性 (System-level correlation) : 指标能否像人类一样对系统 (例如 Google Translate 与 GPT-4) 进行同样的排名?
该论文的作者认为,仅有相关性是不够的。如果一个指标对不同的系统采用不同的标准,那么即使它的相关性很高,它也是不公平的。
可视化“量尺”
为了理解这一点,请看下面的图表 (论文中的图 1) 。X 轴代表 XCOMET (一种流行的高性能指标) 的分数。Y 轴代表预期的人工 MQM 分数 (越接近 0 越好) 。

我们看到了什么:
- 蓝线 (全局) 代表了所有系统中指标与人工分数之间的平均关系。
- 橙线 (Lan-BridgeMT) 代表了一个特定的高质量系统的关系。
- 绿线 (NLLB-Greedy) 代表了一个质量较低的系统的关系。
注意其中的差距。对于 0.8 的 XCOMET 分数,橙色系统 (Lan-BridgeMT) 获得的人工分数约为 -3 , 而绿色系统 (NLLB-Greedy) 获得的人工分数约为 -7 。
这意味着,对于橙色系统来说,获得 0.8 的 XCOMET 分数比绿色系统要付出更大的“代价”。该指标在虚高绿色系统质量的同时,低估了橙色系统的质量。这把“量尺”的长度正在发生变化。
核心方法: 形式化不公平性
研究人员提出了一个数学框架来衡量这种差异。目标是确定人工分数 (\(h\)) 和指标分数 (\(m\)) 之间的关系在所有系统中是否一致。
1. 条件期望
首先,我们需要定义指标与人工判断之间的关系。我们可以用指标分数为条件,来表示系统 \(k\) 的预期人工评分 (\(\mathbb{E}[h_k]\)) 。

简单来说,这个公式的意思是: 为了找到一个系统的真实质量,我们查看它获得的指标分数分布 (\(p_k(m)\)) ,并使用转换函数 \(\mathbb{E}[h|m]\) 将其映射到人工分数。
关键的见解在于,这个转换函数 \(\mathbb{E}[h|m]\) 充当了“校准曲线”。
- 如果指标是公平的 (独立于系统的) ,那么存在一个适用于所有人的全局函数 (\(f_G\)) 。
- 在现实中,每个系统都有自己的特定系统函数 (\(f_k\)) 。
2. 预期偏差 (Expected Deviation, ED)
为了量化特定系统的不公平程度,作者引入了预期偏差 (ED) 。 这衡量了“全局”假设与“特定系统”现实之间的差距。

这是该公式的详细解释:
- \(\frac{1}{N} \sum f_G(m_k^{(j)})\): 这是如果我们使用全局转换曲线 (图 1 中的蓝线) ,该系统本应获得的平均分数。
- \(\frac{1}{N} \sum f_k(m_k^{(j)})\): 这是该系统实际的平均人工分数 (特定的橙线或绿线) 。
- ED(k) 是两者的差值。
- 负 ED 意味着该系统被指标低估了 (它实际上比指标显示的要好) 。
- 正 ED 意味着该系统被高估了 (它实际上比指标显示的要差) 。
3. 系统依赖性得分 (SysDep)
最后,为了评价指标本身 (例如,“XCOMET 有多公平?”) ,我们计算 SysDep 得分。这仅仅是被最大程度高估的系统与被最大程度低估的系统之间的范围。

一个完美的指标 SysDep 应为 0,意味着它对每个系统一视同仁。SysDep 很高意味着该指标存在偏袒。
为了从真实数据中估计这些函数 (\(f_G\) 和 \(f_k\)) ,作者使用了一种称为保序回归 (Isotonic Regression) 的技术。这拟合出一条被约束为单调 (总是递增) 的曲线,这符合我们的直觉,即更高的指标分数应该总是意味着更高的人工分数。
实验与结果
研究人员利用 WMT23 Metrics 共享任务的数据测试了他们的方法,特别是关注中文到英文 (zh-en) 的翻译。他们分析了 XCOMET 如何对 15 个不同的翻译系统进行排名。
偏差导致的排名倒置
下表展示了结果。这是这篇论文的“铁证”。

让我们拆解各列:
- Human (\(\hat{\mu}_k^H\)): 真实质量。 Lan-BridgeMT 是赢家 (排名 1) 。
- Metric (\(\hat{\mu}_k^M\)): 原始 XCOMET 分数。它将 GPT4-5shot 排为第一 (排名 1) ,而 Lan-BridgeMT 为第二。
- Exp. Deviation (ED): 我们之前定义的偏差度量。
分析: Lan-BridgeMT 的 ED 为 -0.820 。 这是一个巨大的低估。该指标实际上是在对这个系统“征税”。相反,列表下方的其他系统具有正的 ED,意味着它们得到了指标的“补贴”。
由于 Lan-BridgeMT 受到指标系统依赖性的严厉惩罚,它失去了第一名的位置,输给了 GPT-4。这证明了高相关性是不够的;因为与 GPT-4 相比,该指标对 Lan-BridgeMT 并不公平,导致最终排名错误。
我们还在表格底部看到了巨大的偏差。 NLLB-Greedy 的 ED 为 1.996 。 这意味着该指标认为它比人类认为的要好得多。实际上,看排名,指标将 NLLB-Greedy 排在第 12 位,而人类将其排在倒数第一的第 15 位。该指标仅仅因为系统依赖性就将其提升了整整 3 个名次。
比较不同的指标
所有的指标都有同样的偏差吗?作者将分析扩展到了其他指标和语言对,以比较它们的 SysDep 分数。

这张表揭示了显著的差异:
- GEMBA-MQM (一种使用 GPT-4 的基于 LLM 的指标) 在中文-英文上的 SysDep 最低 (1.58) ,表明在这个语言对上它比 XCOMET (上一节中 SysDep 约为 2.8) 更“公平”。
- 无参考指标 (如 prismSrc) 通常表现更差,显示出非常高的系统依赖性 (zh-en 的 SysDep 为 4.61) 。
- MetricX-23 在各语言对上通常表现良好。
这种可变性意味着“公平性”是一个我们可以优化的属性。有些指标天生就比其他指标更擅长在不同类型的模型架构之间通用化其判断标准。
这只是噪音吗?
怀疑论者可能会问: “这真的是系统性偏差,还是仅仅是统计噪音?” 为了验证这一点,作者模拟了“系统内 (Intra-System) ”的可变性 (将一个系统的数据分成两半) 。

系统内得分 (表 9) 通常远低于系统间得分 (表 8) 。这证实了我们看到的偏差并非随机——它们是由不同翻译系统的特定特征驱动的。
结论与启示
这篇论文提出了一个令人信服的理由,要求我们转变评估 AI 的范式。我们不能简单地问: “这个指标与人类相关吗?”我们还必须问: “这个指标依赖于它所评估的系统吗?”
这对大型语言模型和机器翻译的发展具有重要意义:
- 隐性惩罚: 你可能正在开发一种更优越的架构,但仅仅因为你的评估指标对其有负面偏见而被抛弃 (就像 Lan-BridgeMT 那样) 。
- 基线虚高: 较旧或较简单的基线 (如贪婪解码) 可能看起来很有竞争力,但这仅仅是因为指标高估了它们。
- 更好的指标: 未来的指标竞赛应将 SysDep (或类似的公平性衡量标准) 作为成功的主要标准之一。
正如作者通俗地指出的那样: “量尺不应因测量对象的不同而改变长度。”通过采用 SysDep 分数,NLP 社区可以确保我们的量尺尽可能刚性和可靠,为 AI 系统之间更公平、更准确的比较铺平道路。
](https://deep-paper.org/en/paper/2412.03152/images/cover.png)