大语言模型 (LMs) 有一个众所周知的倾向,那就是“产生幻觉”——即生成流畅但实际上不正确的信息。为了缓解这个问题,研究人员依赖于 不确定性量化 (Uncertainty Quantification, UQ) 。 UQ 的目标很简单: 我们希望模型在不确定时告诉我们,这样我们就可以标记这些回答进行人工审查或直接丢弃。

但是,我们要如何知道一种 UQ 方法是否真的有效呢?我们必须对其进行测试。通常,我们生成一个答案,要求 UQ 方法给出一个置信度分数,然后检查答案是否正确。如果 UQ 方法对错误答案分配低置信度,对正确答案分配高置信度,那么它就是有效的。

然而,一篇名为 “Revisiting Uncertainty Quantification Evaluation in Language Models” 的新论文揭示了这一过程中一个严重的缺陷。研究人员证明,我们用来判断“正确性”的工具本身就带有偏见——特别是关于回答长度的偏见。当这种偏见与 UQ 方法内部的偏见一致时,就会产生一种 伪交互 (spurious interaction) , 从而操纵评估结果,使某些方法看起来比实际情况好得多。

在这篇深入的文章中,我们将剖析这种“相互偏见”是如何运作的,为什么像 ROUGE 和 BERTScore 这样的标准指标可能会误导我们,以及我们如何利用 LLM 作为裁判来修正评估协议。

工具箱: 我们如何衡量不确定性

在分析缺陷之前,我们需要了解评估不确定性的标准设置。

1. UQ 方法

UQ 方法会根据输入 (\(x\)) 为 LLM 的输出 (\(\hat{y}\)) 分配一个分数。最基本的方法之一是 负序列概率 (Negative Sequence Probability) 。 这种方法查看模型为生成序列中每个 token 分配的概率,并将它们相乘。

展示负序列概率计算公式。

在这里,\(L\) 代表生成答案的长度。正如你在公式中看到的,因为概率总是小于 1,相乘的项越多 (序列越长) ,总概率自然就越低。这意味着这种特定的 UQ 方法具有固有的 长度偏见 : 它自然地对较长的答案分配更高的“不确定性” (更低的概率) 。

其他方法包括 熵 (Entropy) (测量概率分布的离散程度) 或 学习探针 (Learned Probes) (训练一个小型的分类器来预测模型是否正确) 。

2. 正确性函数

为了评估 UQ 方法,我们需要知道基本事实 (ground truth) : 模型的回答真的正确吗?由于我们无法手动为数百万个答案评分,我们使用自动化的 正确性函数 (Correctness Functions)

这些函数将模型生成的答案 (\(\hat{y}\)) 与参考的“标准”答案 (\(y\)) 进行比较。

表格列出了各种正确性函数,如 ROUGE, SQuAD, BERTScore 和 LM-as-a-judge。

如上表所示,这些函数分为三类:

  • 基于词汇 (例如 ROUGE) : 计算模型回答和参考答案之间重叠的单词数。
  • 基于嵌入 (例如 BERTScore) : 使用较小的模型 (如 BERT) 来检查两个答案是否具有相似的语义嵌入。
  • 以 LM 为裁判 (LM-as-a-judge) : 使用强大的 LLM (如 GPT-4 或 Qwen) 阅读两个答案并判断它们的意思是否相同。

3. 性能指标: AUROC

最后,为了给 UQ 方法打分,我们通常使用 AUROC (接收者操作特征曲线下面积) 。

定义 AUROC 的公式,即正确答案的不确定性分数低于错误答案的概率。

AUROC 指标提出了一个简单的概率问题: 如果我随机选择一个正确答案 (\(h_i=1\)) 和一个随机错误答案 (\(h_j=0\)) ,UQ 方法给正确答案分配更低不确定性分数的概率是多少?

一个完美的 UQ 方法其 AUROC 为 1.0。随机猜测的 AUROC 为 0.5。

核心问题: “代理”陷阱

问题在于我们没有真实的正确性标签 (\(h\)) 。我们要依赖由 ROUGE 或 BERTScore 等函数提供的估计正确性 (\(\hat{h}\)) 。

展示基于估计正确性标签的估计 AUROC 公式。

如果我们的正确性函数 (\(\hat{h}\)) 是完美的,那就没问题。但我们知道自动指标会犯错。研究人员从数学上证明,这些错误的性质决定了我们的评估是有效的还是崩溃的。

场景 A: 随机噪声 (好消息)

如果正确性函数产生随机错误——有时把对的标记为错,把错的标记为对,且没有规律——评估虽然有噪声但是 无偏的 。 AUROC 分数可能会下降接近 0.5 (随机) ,但不同 UQ 方法的 排名 仍然大体稳定。

场景 B: 相互偏见 (坏消息)

当正确性函数中的错误与 UQ 方法 相关 时,危险就出现了。

想象这样一个场景:

  1. UQ 方法 倾向于对长答案更加“不确定” (因为我们前面看到的概率相乘) 。
  2. 正确性函数 倾向于将长答案标记为“不正确” (可能是因为额外的单词降低了与简短参考答案的重叠百分比) 。

如果裁判 (正确性函数) 和学生 (UQ 方法) 都对长答案有偏见,他们就会彼此认同,即使答案实际上是正确的

在数学上,研究人员表明,当这些错误相关联时,区分正确与错误样本的估计概率会发生偏移:

不等式表明相关错误导致估计概率偏离真实概率。

这个不等式证明了 任何相互偏见 都会引入系统性扭曲。它可以人为地夸大 AUROC 分数,使一个有缺陷的 UQ 方法看起来处于最先进水平,仅仅是因为它与正确性指标有着共同的偏见。

实证证据: 排名不稳定

为了观察这种理论上的危险是否存在于现实世界中,作者在 4 个数据集、4 个模型和 8 种 UQ 方法上进行了广泛的实验。

如果正确性函数的选择无关紧要,那么无论我们使用 ROUGE、BERTScore 还是 LLM 裁判,UQ 方法的排名都应该大致相同。

柱状图显示 UQ 方法的排名如何根据所使用的正确性函数发生剧烈变化。

上面的 图 1 展示了结果,令人震惊。

  • 负序列概率 (Negative Sequence Probability) (橙色/棕褐色条) 。当用 ROUGE-L 评估时,它表现得很有竞争力。
  • 然而,当用 LM-as-a-judge (以 LM 为裁判) 评估时,其性能排名显著下降。
  • 同样,像 Token 长度 (Token Length) (蓝色条) 这样的简单基线——实际上只是计算答案有多长——在 ROUGE 和 SentenceBERT 的评估下表现得好得惊人。

这表明某些正确性函数奖励的是那些追踪长度的方法,而不是追踪语义不确定性的方法。

验证裁判: 人类 vs. 机器

为了确定我们应该真正信任哪个正确性函数,研究人员进行了人工评估。他们雇佣了标注员对 450 个样本进行评分,并将人类标签与自动指标进行比较。

热图显示人类试验与各种正确性函数之间的 Cohen Kappa 一致性率。

图 2 中的热图显示了人类与指标之间的一致性 (Cohen’s Kappa) 。

  • 红色/低分: ROUGE 和 SQuAD 在许多设置下与人类的一致性很差。
  • 蓝色/高分: LM-as-a-judge (Prompt)AlignScore 与人类标注员的一致性最高。

这证实了在这种背景下,词汇指标 (如 ROUGE) 甚至某些嵌入指标 (如 BERTScore) 是糟糕的真理代理。

标准指标表现不佳的一个原因是它们对 阈值 的敏感性。为了计算 AUROC,我们通常需要将连续分数 (如 0.6 的 ROUGE) 转换为二元的“正确/不正确”标签。

图表显示随着阈值的变化,ROUGE-L 等指标的人类一致性急剧下降。

图 8 表明找到正确的阈值是一场噩梦。对于 ROUGE-L (左上) ,一致性在特定阈值达到峰值,然后崩溃。如果研究人员选择了错误的阈值,他们的整个评估就是无效的。相比之下, AlignScore (底行) 无论阈值如何都非常稳定。

罪魁祸首: 响应长度偏见

研究人员假设 响应长度 是导致理论部分讨论的“相互偏见”的隐藏变量。

首先,他们检查了正确性函数。它们是否不公平地惩罚长答案?

散点图显示 ROUGE-L 分数随长度增加而下降,而 AlignScore 保持稳定。

图 5 证实了这种偏见。

  • 图 (a) ROUGE-L: 注意向下的趋势。随着响应长度 (x 轴) 的增加,ROUGE 分数 (y 轴) 自然下降。该指标难以处理“冗长”,惩罚了正确但较长的答案。
  • 图 (b) AlignScore: 分布要平坦得多。长答案仍然可以获得高正确性分数。

这证明了 正确性函数偏见 。 那么,UQ 方法呢?

相关性热图显示 UQ 方法与响应长度之间存在强关系。

图 4 显示了 UQ 方法与长度之间的相关性。

  • 负序列概率 与长度有很强的相关性 (正如数学推导预期的那样) 。
  • Token 长度 显然与长度完全相关。

伪交互作用: 因为 ROUGE 惩罚长答案 (标记它们为“不正确”) ,而负序列概率对长答案分配高不确定性,所以 UQ 方法成功地“预测”了长答案是“不正确”的。

这看起来像是 UQ 方法在检测幻觉。实际上,它只是在检测句子很长,而评分标准讨厌长句子。

更好的前进道路: 以 LM 为裁判

这篇论文的发现发出了严厉的警告: 我们不能盲目信任标准的 NLP 指标来评估不确定性量化。 使用 ROUGE 或 BERTScore 会创建一个长度偏见的反馈循环,掩盖模型的真实性能。

数据指向了一个明确的解决方案。

散点图比较各种指标与响应长度的关系。LM-as-a-judge 显示出高度稳定性。

图 7 (右下) 所示, LM-as-a-judge 在不同长度下保持稳健。它不会因为模型冗长而盲目惩罚它。因为它缺乏长度偏见,所以它打破了这种伪相关性。

结论

评估人工智能正变得与构建人工智能一样复杂。这项研究强调了一个“相互偏见”陷阱,即我们评估指标中的缺陷掩盖了我们方法中的缺陷。

学生和研究人员的关键要点是:

  1. 不信任用于 UQ 的词汇指标: ROUGE 和类似指标引入了系统性偏见,扭曲了 AUROC 排名。
  2. 警惕混淆变量: 长度在这里是明显的混淆变量,但其他隐藏变量 (如词汇复杂性) 可能会导致类似的伪相关性。
  3. 采用以 LM 为裁判: 虽然计算成本更高,但使用强大的 LLM 来评估正确性最符合人类的判断,并提供了对不确定性方法最公平的评估。

通过改进我们的评估协议,我们可以停止追逐伪相关性,并专注于构建真正理解模型何时产生幻觉的 UQ 方法。