引言

在人工智能领域,我们见证了机器写作方式的巨大转变。从早期笨拙的聊天机器人,到 GPT-4 和 LLaMA 等模型流畅、富有创意的散文,自然语言生成 (NLG) 的发展速度惊人。但这带来了一个新的、令人困惑的问题: 我们如何知道 AI 写的东西到底“好不好”?

多年来,研究人员依赖于僵化的指标,计算 AI 输出与人类参考文本之间的词语重叠数量。如果 AI 使用了“happy”这个词,而人类使用了“joyful”,传统指标就会惩罚 AI。这种方法无法捕捉现代语言模型的细微差别、创造力和语义深度。

进入新范式: 基于 LLM 的评估 。 如果 AI 已经优秀到可以像人类一样写作,那么它是否也足够聪明,可以像人类一样进行评判?

在这篇深度文章中,我们将探讨一篇系统化整理这一新兴领域的研究论文。我们将通过该论文了解大语言模型 (LLMs) 是如何转变为裁判的,它们评估文本的不同方式,以及阻碍其发展的关键挑战——如偏见和成本。

展示大语言模型评估生成文本系统的图示。图中显示输入包括假设、参考和来源,它们馈入 LLM 模块,该模块输出解释和分数。

如图 1 所示,核心思想简单而强大: 我们将生成的文本 (假设) 、源材料以及可选的人类参考文本喂给 AI。然后,AI 充当评论家,不仅提供分数,通常还会提供为什么给出该分数的解释。

背景: 从词语匹配到语义理解

要理解为什么我们需要 LLM 作为评估者,我们首先需要看看评估指标的“老前辈”。

传统方法

几十年来,评估翻译或摘要等任务的标准是基于匹配的评估 。 诸如 BLEU (Bilingual Evaluation Understudy) 和 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 等指标基于一个简单的前提: N-gram (N元语法) 匹配。

想象一下 AI 翻译了一个句子。基于匹配的指标会查看 AI 的句子和人类译者的句子,并逐字计算匹配的词序列。

  • 优点: 快速、廉价且易于计算。
  • 缺点: 它们忽略了意义。“The cat sat on the mat” (猫坐在垫子上) 和“The feline rested on the rug” (猫科动物在毯子上休息) 虽然意思相同,但可能会得到很低的分数。

后来,像 BERTScore 这样的指标通过使用神经嵌入来检查语义相似性而不是精确的词匹配,对此进行了改进。然而,即使是这些指标也难以应对语言的复杂方面,如连贯性、流畅性和创造力。

新的形式化定义

研究论文使用一个广义函数对评估过程进行了形式化定义。无论我们使用的是旧指标还是最先进的 LLM,目标都是一样的:

方程 1: E 等于 f 关于 h、s 和 r 的函数。

在这个方程中:

  • \(E\) : 最终的评估分数或判断。
  • \(f\) : 评估函数 (裁判) 。
  • \(h\) : 假设 (Hypothesis) (即被测试 AI 生成的文本) 。
  • \(s\) : 来源 (Source) (输入文本,例如需要被摘要的文章) 。
  • \(r\) : 参考 (Reference) (人类撰写的基准真相文本,在某些现代方法中是可选的) 。

生成式 vs. 匹配式

从传统指标到基于 LLM 的评估的飞跃,代表了从匹配生成的转变。

图 2 展示了两种架构: (a) 基于生成的,LLM 生成解释和分数;(b) 基于匹配的,编码器比较表示以输出分数。

如图 2 所示:

  1. 基于匹配 (b): 将文本编码为数学向量并计算它们之间的距离。这纯粹是数学运算,且不透明。
  2. 基于生成 (a): 这是本文的重点。LLM 读取输入并生成响应。这个响应可能是一个数字、一个“是/否”,或者一段评论。这模仿了人类老师批改论文的方式。

核心方法: 生成式评估的分类体系

研究人员提出了一个结构化的分类体系来组织混乱的基于 LLM 的评估领域。这对于理解当今可用的不同“口味”的 AI 裁判至关重要。

图 3: NLG 评估研究的分类体系。树状图分为基于提示和基于微调的方法,并进一步细分为基于分数、基于概率、李克特式和成对比较等。

如图 3 所示,该领域分为两大类: 基于提示 (Prompt-based) (直接使用现有模型) 和 基于微调 (Tuning-based) (训练特定模型作为裁判) 。

1. 基于提示的评估

这种方法门槛最低。它涉及使用功能强大的现成模型 (如 GPT-4) ,并设计特定的提示来引导它充当裁判。不需要训练——只需要巧妙的工程设计。

有几种协议可以实现这一点:

A. 基于分数和基于概率

  • 基于分数: 你只需让模型输出一个数字。例如,“请按 1 到 100 分给这个摘要评分。”
  • 基于概率: 这更具技术性。我们不要求输出数字,而是查看模型的内部置信度。我们计算在给定来源的情况下生成文本的数学概率 (可能性) 。如果模型认为该文本“概率很高”,则通常质量较高。

B. 李克特量表式 (Likert-Style) 评估

受人类问卷调查的启发,这种方法要求 LLM 将文本分类为不同的质量等级。

  • 示例: “这个摘要是否与文章一致?回答‘是’或‘否’。”
  • 优点: 对于 LLM 来说,这通常比给出一个精确的数字 (如“87/100”) 更容易准确回答。

C. 成对比较 (Pairwise Comparison)

人类通常很难给出一个绝对分数 (“这篇论文是 7 分还是 8 分?”) ,但我们非常擅长比较 (“论文 A 比论文 B 好吗?”) 。 LLM 也有这个特点。在成对比较中,模型会收到同一提示的两个不同输出,并被要求选出胜者。这就建立了一个排名系统,通常比原始评分更稳健。

表 1: 不同类型提示的图示,展示了基于分数、李克特式和成对比较评估的示例。

表 1 提供了这些提示的具体示例。注意底部的“成对比较”——它明确要求模型比较“文本 1”和“文本 2”。

D. 集成评估 (Ensemble Evaluation)

既然可以拥有一个陪审团,为什么要依赖一个法官呢? 集成评估使用多个 LLM 实例来减少偏见和方差。

图 5: 集成评估的图示,其中具有不同角色的多个评估者在投票做出最终决定之前讨论文本的质量。

如图 5 所示,这可以变得相当复杂。你可以给 LLM 分配不同的“角色” (例如,一个充当事实核查员,一个充当语法警察,另一个充当创意总监) 。它们甚至可以在做出最终裁决之前循环“讨论”输出结果。这模仿了人类评审小组商议达成共识的过程。

E. 细粒度分析 (Fine-Grained Analysis)

有时候一个分数是不够的。我们需要知道错误在哪里

图 4: 展示细粒度分析的流程图。评估者识别具体错误、其严重程度和位置,然后计算最终得分。

图 4 展示了一个执行诊断的协议。它识别特定的错误类型 (如幻觉或语法错误) ,在文本中定位它们,评估其严重程度,然后根据该分析计算最终得分。与 BLEU 等不透明指标相比,这种可解释性是 LLM 评估的“杀手级功能”。

2. 基于微调的评估

虽然提示 GPT-4 很简单,但也昂贵且缓慢。 基于微调的评估涉及采用较小的开源模型 (如 LLaMA) 并对其进行专门微调以进行文本评分。

  • 目标: 创建一个专门的“裁判模型”,它体积小、速度快、运行成本低,但在特定评估领域的智能程度几乎与 GPT-4 相当。
  • 数据构建: 为了训练这些模型,研究人员通常使用 GPT-4 生成数千个评估 (分数和解释) 。然后,较小的模型学习模仿 GPT-4 的评分风格。
  • 整体评估 vs. 面向错误: 一些微调后的模型提供总体质量评分,而另一些则经过专门训练来寻找错误 (例如 RAG 系统中的归因错误) 。

实验与结果

那么,这真的有效吗?AI 裁判比数学公式更好吗?论文汇编了主要基准测试的结果来回答这个问题。

性能: LLM vs. 传统指标

研究人员在摘要、对话和翻译的标准数据集上,比较了基于 LLM 的指标 (如 G-EVAL 和 GPTScore) 与传统指标 (ROUGE, BLEU) 。

表 3: 性能比较表。显示了在 SummEval、Topical-Chat 和 WMT22 上的相关性。基于 LLM 的指标通常显示出比传统指标更高的相关性数值。

表 3 揭示了真相。这些数字代表与人类判断的相关性 。 数字越高,意味着该指标与人类对文本的评分越一致。

  • 传统指标 (上半部分) : 看看 SummEval 上的 ROUGE-L (0.128 - 0.165)。这些相关性相当低。
  • 基于 LLM 的指标 (下半部分) : 看看 G-Eval (0.582)。这是一个巨大的提升。
  • 结论: 基于 LLM 的评估者与人类偏好的契合度明显优于词重叠指标,尤其是在对话生成和摘要等创造性任务中。

智能的代价: 效率

然而,天下没有免费的午餐。LLM 的优越性能是有代价的: 速度。

表 4: 效率比较表,报告每秒评估的文本数量。BLEU 超过 900,而 ChatGPT 和 G-Eval 不足 2。

表 4 展示了效率上的鲜明对比。

  • BLEU 每秒可以评估近 1,000 个文本
  • G-Eval (使用 GPT-4) 每秒仅评估约 1.5 个文本

这使得基于 LLM 的评估比传统方法慢了大约 200 到 400 倍 。 虽然适用于离线测试,但在实时 (例如在用户交互期间) 使用 LLM 评估文本仍然是一个计算瓶颈。

挑战与开放性问题

尽管令人兴奋,但这篇论文也指出了几个“房间里的大象”——即在完全信任 AI 裁判之前必须解决的关键挑战。

1. “先有鸡还是先有蛋”的问题

我们经常使用最强的模型 (例如 GPT-4) 来评估其他模型。但是,当我们需要评估下一代“GPT-5”时会发生什么?如果评估者比生成者弱,评估结果值得信任吗?此外,模型往往存在自我中心偏差 (Egocentric Bias)——它们更喜欢由自己或具有相似架构的模型生成的文本。

2. 数字裁判的偏见

LLM 不是中立的。当充当裁判时,它们表现出特定的偏见:

  • 位置偏差 (Position Bias): 在成对比较 (文本 A vs. 文本 B) 中,无论质量如何,LLM 往往偏爱首先展示的文本。
  • 冗长偏差 (Verbosity Bias): LLM 倾向于给较长的答案更高的分数,即使它们啰嗦或重复。
  • 社会偏见: 它们可能会延续其训练数据中存在的社会刻板印象。

3. 鲁棒性与提示工程

LLM 评估者很敏感。稍微改变提示 (例如,“评分这个” vs. “请评分这个”) 有时会导致分数剧烈波动。这种鲁棒性的缺乏使得如果提示不完全相同,很难跨不同研究论文比较结果。

4. 领域特异性

大多数评估者是“多面手”。一个 LLM 可能擅长评分高中论文,但在评估法律合同或医疗诊断摘要时却很糟糕。开发特定领域的 AI 裁判是一个迫切需要的领域。

结论

从基于匹配的指标向生成式评估的转变标志着自然语言处理的一个转折点。我们正在从统计单词转向理解单词。

研究表明,基于 LLM 的评估者提供了:

  • 更好的人类一致性: 它们“懂”细微差别、讽刺和流畅度。
  • 可解释性: 它们能告诉我们文本为什么不好,而不仅仅是不好。
  • 通用性: 它们可以通过提示适应几乎任何任务。

然而,它们速度慢、成本高,并且容易产生其独特的心理偏见。随着我们改进这些方法——转向集成方法和专门微调的模型——我们正在接近一个 AI 可以有效监管自身输出的世界。对于进入该领域的学生和研究人员来说,掌握这些评估技术不再是可选项;它是构建下一代智能系统的基础。