弥合差距：为何语法纠错自动评估需要向人类看齐

如果你曾经试过批改作文，你就知道这是很主观的。现在，想象一下教计算机瞬间批改数千个语法错误修正。这就是语法纠错 (Grammatical Error Correction, GEC) 评估所面临的挑战。

我们要依靠自动指标来告诉我们哪些 AI 模型最擅长修正语法。我们通常假设，如果某个指标给模型 A 的评分高于模型 B，那么模型 A 实际上就更好。但通常情况下，当人类检查输出结果时，往往会不同意该指标的判断。为什么会发生这种情况？

一篇引人入胜的研究论文 《Rethinking Evaluation Metrics for Grammatical Error Correction》 (重新思考语法纠错的评估指标) 指出，问题不仅在于指标本身，还在于我们聚合这些分数的过程。人类通过相互比较来对系统进行排名 (相对评估) ，而自动指标通常只是平均分数 (绝对评估) 。这种根本性的脱节导致了排名的不准确。

在这篇深度文章中，我们将探讨研究人员如何通过强迫机器遵守人类的规则来重新思考 GEC 评估，并揭示即使是较旧的评估指标也可能比我们要意识到的更强大。

核心问题: 两种流程的故事

要理解这篇论文的创新之处，我们首先需要了解现状。在人类如何评估 GEC 系统与计算机如何评估之间，存在着一个“差距”。

人类如何评估 (相对评估)

当研究人员想知道哪个 GEC 系统最好 (即“黄金标准”) 时，他们通常不会给每一个句子打出 0 到 100 的分数。让人类看着一个修正后的句子说“这正好是 87/100 分”，在认知上是很困难的。

相反，人类进行的是成对比较 (Pairwise Comparisons) 。他们并排查看系统 A 和系统 B 的输出，然后决定哪个更好，或者是打平。

一旦记录了数千次这样的对决，研究人员就会使用一种评级算法——最常见的是 TrueSkill (也就是《光环》(Halo) 等在线视频游戏中用于玩家排名的算法) ——来计算排行榜。这种方法基于胜、负和平局来创建相对排名。

机器如何评估 (绝对评估)

自动指标的运作方式则不同。无论是像 ERRANT 这样基于编辑的指标，还是像 BERTScore 这样的神经指标，标准流程通常是:

将系统的输出输入到指标中。
指标为该特定句子吐出一个分数 (例如 0.85) 。
计算所有句子分数的平均值，得到“语料库级别”的分数。
根据这些平均值对系统进行排名。

这看起来合乎逻辑，但它造成了方法上的差距。我们将一个源自相对技能评级的排行榜与一个源自绝对平均值的排行榜进行比较。

图 1: 当前人类评估与自动评估在基于包含两个句子的数据集对三个 GEC 系统进行排名时的概览。为简单起见，每个系统的输出仅代表编辑操作。

如图 1 所示，这种差异很重要。

左侧 (人类/相对) : 人类直接比较输出。在示例中，系统 3 赢得了它的对决，通过 TrueSkill 获得了第一名。
右侧 (自动/绝对) : 机器分配单独的分数。在这个简单的示例中，系统 3 获得了 0.85 的平均分，排在第一位。

然而，在现实场景中，这两种方法往往会分道扬镳。一个系统可能因为在简单句子上表现出色而获得很高的平均分，但在困难句子的直接比较中却输掉每一次对决。通过平均化，我们失去了“对决”的细微差别。论文作者假设，如果我们希望自动指标与人类判断相关联，我们就应该强迫指标使用完全相同的聚合方法: TrueSkill 。

提出的方法: 统一流程

研究人员提出了一个简单但深刻的转变: 停止平均自动分数。相反，使用自动分数来模拟成对的战斗，然后通过 TrueSkill 运行这些结果。

新的拟议聚合方法的工作原理如下:

句子级打分: 首先，计算每个系统生成的每个句子的指标分数，就像以前一样。
模拟成对比较: 对于特定的输入句子，查看系统 A 和系统 B 的分数。

如果 Score(A) > Score(B)，记录系统 A“获胜”。
如果 Score(A) < Score(B)，记录系统 B“获胜”。
如果分数相等，记录“平局”。

TrueSkill 聚合: 将成千上万次虚拟的胜负输入 TrueSkill 算法。
最终排名: 根据 TrueSkill 评级 (\(\mu\)) 生成排行榜。

通过这样做，研究人员消除了程序上的差距。人类的“基本真值”和自动预测现在都源自相同的数学框架。剩下的唯一变量就是指标本身的质量。

实验设置

为了测试这种方法是否真的改善了评估效果，作者使用 SEEDA 基准进行了元评估 (meta-evaluation) 。SEEDA 是一个旨在检查自动指标与人类评分一致程度的数据集。

他们测试了各种类型的指标:

基于编辑的指标 (ERRANT, PT-ERRANT): 检查系统是否做出了与参考一致的特定编辑 (如将 “play” 改为 “plays”) 。
基于 N-gram 的指标 (GLEU+, GREEN): 查看输出与参考之间重叠的词序列。
句子级指标 (SOME, IMPARA, Scribendi): 使用神经网络 (如 BERT) 来评估句子的语义质量和语法性，不一定需要严格的参考。

目标是什么？比较标准的“平均法”与新的“TrueSkill 法”产生的排名，看哪一个与实际人类排名的相关性更好。

结果: 显著的提升

结果令人信服。对于大多数评估指标来说，切换到 TrueSkill 聚合方法显著提高了它们与人类判断的相关性。

请看下面的 表 1 。上半部分显示的是传统方法 (平均) ，下半部分显示的是提出的方法 (TrueSkill) 。

表 1: 使用 SEEDA 数据集与人类评估的相关性。w/o TrueSkill 指的是传统评估程序，而 w/ TrueSkill 代表提出的评估程序。相对于传统程序的改进带有下划线，每列中的最高值以粗体突出显示。GPT-4 的结果参考了 Kobayashi 等人 (2024b) 的报告。

数据中的关键观察:

皮尔逊相关系数增加: 查看 SEEDA-S r (Pearson) 这一列。

ERRANT 的相关性从 0.545 跃升至 0.763 。
PT-ERRANT 从 0.700 提高到 0.870 。
IMPARA 从 0.916 提高到 0.939 。

击败 GPT-4: 这也许是最令人震惊的结果。最近，像 GPT-4 这样的大型语言模型被吹捧为评估其他模型的最佳方式。然而，查看 SEEDA-S 列，使用 TrueSkill 方法的指标 IMPARA 实现了 0.939 的皮尔逊相关系数，高于 GPT-4-S (fluency) 的 0.913 。

*启示: * 我们不一定需要庞大、昂贵的 LLM 来评估语法纠错。如果我们简单地使用正确的聚合方法，像 IMPARA 这样较小的专用指标也能达到最先进的水平。

N-gram 的例外情况: 你可能会注意到 GLEU+ 和 GREEN (N-gram 指标) 并没有改善；事实上，有些甚至略有下降。

原因？ 论文解释说，像 GLEU+ 这样的指标使用“简短惩罚 (brevity penalty) ”——它们严厉惩罚短句。在绝对平均系统中，这只是混入平均值中的一个低分。但在成对比较中，简短惩罚可能会导致系统输掉一场本该赢得的“对决”，仅仅是因为句子很短。当使用 TrueSkill 时，指标的这一缺陷被放大了。

分析稳健性: 窗口分析

整个数据集的相关性固然好，但该指标对最好的系统有效吗？有时一个指标擅长区分糟糕的系统和平庸的系统，但在区分两个优秀的系统时却失败了。

为了测试这一点，作者使用了窗口分析 (Window Analysis) 。他们查看了特定排名“窗口” (例如，仅前 8 名系统，或排名第 2 到第 9 的系统) 的相关性。

图 2: 显示了 N=8 的窗口分析结果。X 轴代表人类评估的起始排名。例如，x=2 显示了人类评估中排名第 2 到第 10 的系统的结果。

图 2 直观地展示了这种稳健性。

图表 (a) IMPARA: 线条保持相对较高且稳定。这表明 IMPARA 在各个方面都是可靠的。无论你是比较中层模型还是顶层模型，使用 TrueSkill (虚线) 通常都能产生与人类高度一致的结果。
图表 (b) ERRANT: 这张图讲述了一个不同的故事。虽然 TrueSkill (虚线) 帮助 ERRANT 表现得比基线 (实线) 更好，但随着向右移动 (更高的 \(x\) 值) ，相关性显著下降。这意味着 ERRANT 难以对最优秀的系统进行排名。
原因？ 顶级的 GEC 系统通常会为了使句子听起来更流畅而进行大量的重写。像 ERRANT 这样基于编辑的指标是死板的——它们寻找特定的单词更改。如果一个系统正确地重写了整个句子，ERRANT 可能会惩罚它，因为它不匹配参考中的特定“编辑”。

结论与未来启示

这项研究为数据科学和 NLP 强调了一个至关重要的教训: 你用来聚合数据的算法与数据本身一样重要。

通过简单地将评估程序从“平均”更改为“TrueSkill”，研究人员证明了:

现有的指标 (如 ERRANT 和 IMPARA) 被低估了。
如果有正确的统计框架，专用的基于 BERT 的指标可以说在评估方面胜过 GPT-4。
人类与机器评估之间的差距部分是人为的——是由不同的处理方法造成的，而不仅仅是因为模型缺乏理解。

这对未来意味着什么？

作者强烈建议未来的 GEC 基准采用 TrueSkill (或人类正在使用的任何评级算法) 作为自动指标。如果人类决定在未来切换到平均法，机器也应该切换到平均法。关键在于对齐。

此外，这鼓励了专门为成对比较设计的指标的开发。如果我们知道最终得分将由“系统 A 对战系统 B”决定，我们就应该训练评估模型来预测这种特定的偏好，而不是训练它们输出一个任意的绝对分数。

对于进入该领域的学生和研究人员来说，这是一个提醒: 永远要质疑标准操作程序。有时，获得更好结果的关键不是更大的模型，而是更聪明的流程。

核心问题: 两种流程的故事#

人类如何评估 (相对评估)#

机器如何评估 (绝对评估)#

提出的方法: 统一流程#

实验设置#

结果: 显著的提升#

数据中的关键观察:#

分析稳健性: 窗口分析#

结论与未来启示#

这对未来意味着什么？#