大语言模型 (LMs) 有一个众所周知的倾向,那就是“产生幻觉”——即生成流畅但实际上不正确的信息。为了缓解这个问题,研究人员依赖于 不确定性量化 (Uncertainty Quantification, UQ) 。 UQ 的目标很简单: 我们希望模型在不确定时告诉我们,这样我们就可以标记这些回答进行人工审查或直接丢弃。
但是,我们要如何知道一种 UQ 方法是否真的有效呢?我们必须对其进行测试。通常,我们生成一个答案,要求 UQ 方法给出一个置信度分数,然后检查答案是否正确。如果 UQ 方法对错误答案分配低置信度,对正确答案分配高置信度,那么它就是有效的。
然而,一篇名为 “Revisiting Uncertainty Quantification Evaluation in Language Models” 的新论文揭示了这一过程中一个严重的缺陷。研究人员证明,我们用来判断“正确性”的工具本身就带有偏见——特别是关于回答长度的偏见。当这种偏见与 UQ 方法内部的偏见一致时,就会产生一种 伪交互 (spurious interaction) , 从而操纵评估结果,使某些方法看起来比实际情况好得多。
在这篇深入的文章中,我们将剖析这种“相互偏见”是如何运作的,为什么像 ROUGE 和 BERTScore 这样的标准指标可能会误导我们,以及我们如何利用 LLM 作为裁判来修正评估协议。
工具箱: 我们如何衡量不确定性
在分析缺陷之前,我们需要了解评估不确定性的标准设置。
1. UQ 方法
UQ 方法会根据输入 (\(x\)) 为 LLM 的输出 (\(\hat{y}\)) 分配一个分数。最基本的方法之一是 负序列概率 (Negative Sequence Probability) 。 这种方法查看模型为生成序列中每个 token 分配的概率,并将它们相乘。

在这里,\(L\) 代表生成答案的长度。正如你在公式中看到的,因为概率总是小于 1,相乘的项越多 (序列越长) ,总概率自然就越低。这意味着这种特定的 UQ 方法具有固有的 长度偏见 : 它自然地对较长的答案分配更高的“不确定性” (更低的概率) 。
其他方法包括 熵 (Entropy) (测量概率分布的离散程度) 或 学习探针 (Learned Probes) (训练一个小型的分类器来预测模型是否正确) 。
2. 正确性函数
为了评估 UQ 方法,我们需要知道基本事实 (ground truth) : 模型的回答真的正确吗?由于我们无法手动为数百万个答案评分,我们使用自动化的 正确性函数 (Correctness Functions) 。
这些函数将模型生成的答案 (\(\hat{y}\)) 与参考的“标准”答案 (\(y\)) 进行比较。

如上表所示,这些函数分为三类:
- 基于词汇 (例如 ROUGE) : 计算模型回答和参考答案之间重叠的单词数。
- 基于嵌入 (例如 BERTScore) : 使用较小的模型 (如 BERT) 来检查两个答案是否具有相似的语义嵌入。
- 以 LM 为裁判 (LM-as-a-judge) : 使用强大的 LLM (如 GPT-4 或 Qwen) 阅读两个答案并判断它们的意思是否相同。
3. 性能指标: AUROC
最后,为了给 UQ 方法打分,我们通常使用 AUROC (接收者操作特征曲线下面积) 。

AUROC 指标提出了一个简单的概率问题: 如果我随机选择一个正确答案 (\(h_i=1\)) 和一个随机错误答案 (\(h_j=0\)) ,UQ 方法给正确答案分配更低不确定性分数的概率是多少?
一个完美的 UQ 方法其 AUROC 为 1.0。随机猜测的 AUROC 为 0.5。
核心问题: “代理”陷阱
问题在于我们没有真实的正确性标签 (\(h\)) 。我们要依赖由 ROUGE 或 BERTScore 等函数提供的估计正确性 (\(\hat{h}\)) 。

如果我们的正确性函数 (\(\hat{h}\)) 是完美的,那就没问题。但我们知道自动指标会犯错。研究人员从数学上证明,这些错误的性质决定了我们的评估是有效的还是崩溃的。
场景 A: 随机噪声 (好消息)
如果正确性函数产生随机错误——有时把对的标记为错,把错的标记为对,且没有规律——评估虽然有噪声但是 无偏的 。 AUROC 分数可能会下降接近 0.5 (随机) ,但不同 UQ 方法的 排名 仍然大体稳定。
场景 B: 相互偏见 (坏消息)
当正确性函数中的错误与 UQ 方法 相关 时,危险就出现了。
想象这样一个场景:
- UQ 方法 倾向于对长答案更加“不确定” (因为我们前面看到的概率相乘) 。
- 正确性函数 倾向于将长答案标记为“不正确” (可能是因为额外的单词降低了与简短参考答案的重叠百分比) 。
如果裁判 (正确性函数) 和学生 (UQ 方法) 都对长答案有偏见,他们就会彼此认同,即使答案实际上是正确的。
在数学上,研究人员表明,当这些错误相关联时,区分正确与错误样本的估计概率会发生偏移:

这个不等式证明了 任何相互偏见 都会引入系统性扭曲。它可以人为地夸大 AUROC 分数,使一个有缺陷的 UQ 方法看起来处于最先进水平,仅仅是因为它与正确性指标有着共同的偏见。
实证证据: 排名不稳定
为了观察这种理论上的危险是否存在于现实世界中,作者在 4 个数据集、4 个模型和 8 种 UQ 方法上进行了广泛的实验。
如果正确性函数的选择无关紧要,那么无论我们使用 ROUGE、BERTScore 还是 LLM 裁判,UQ 方法的排名都应该大致相同。

上面的 图 1 展示了结果,令人震惊。
- 看 负序列概率 (Negative Sequence Probability) (橙色/棕褐色条) 。当用 ROUGE-L 评估时,它表现得很有竞争力。
- 然而,当用 LM-as-a-judge (以 LM 为裁判) 评估时,其性能排名显著下降。
- 同样,像 Token 长度 (Token Length) (蓝色条) 这样的简单基线——实际上只是计算答案有多长——在 ROUGE 和 SentenceBERT 的评估下表现得好得惊人。
这表明某些正确性函数奖励的是那些追踪长度的方法,而不是追踪语义不确定性的方法。
验证裁判: 人类 vs. 机器
为了确定我们应该真正信任哪个正确性函数,研究人员进行了人工评估。他们雇佣了标注员对 450 个样本进行评分,并将人类标签与自动指标进行比较。

图 2 中的热图显示了人类与指标之间的一致性 (Cohen’s Kappa) 。
- 红色/低分: ROUGE 和 SQuAD 在许多设置下与人类的一致性很差。
- 蓝色/高分: LM-as-a-judge (Prompt) 和 AlignScore 与人类标注员的一致性最高。
这证实了在这种背景下,词汇指标 (如 ROUGE) 甚至某些嵌入指标 (如 BERTScore) 是糟糕的真理代理。
标准指标表现不佳的一个原因是它们对 阈值 的敏感性。为了计算 AUROC,我们通常需要将连续分数 (如 0.6 的 ROUGE) 转换为二元的“正确/不正确”标签。

图 8 表明找到正确的阈值是一场噩梦。对于 ROUGE-L (左上) ,一致性在特定阈值达到峰值,然后崩溃。如果研究人员选择了错误的阈值,他们的整个评估就是无效的。相比之下, AlignScore (底行) 无论阈值如何都非常稳定。
罪魁祸首: 响应长度偏见
研究人员假设 响应长度 是导致理论部分讨论的“相互偏见”的隐藏变量。
首先,他们检查了正确性函数。它们是否不公平地惩罚长答案?

图 5 证实了这种偏见。
- 图 (a) ROUGE-L: 注意向下的趋势。随着响应长度 (x 轴) 的增加,ROUGE 分数 (y 轴) 自然下降。该指标难以处理“冗长”,惩罚了正确但较长的答案。
- 图 (b) AlignScore: 分布要平坦得多。长答案仍然可以获得高正确性分数。
这证明了 正确性函数偏见 。 那么,UQ 方法呢?

图 4 显示了 UQ 方法与长度之间的相关性。
- 负序列概率 与长度有很强的相关性 (正如数学推导预期的那样) 。
- Token 长度 显然与长度完全相关。
伪交互作用: 因为 ROUGE 惩罚长答案 (标记它们为“不正确”) ,而负序列概率对长答案分配高不确定性,所以 UQ 方法成功地“预测”了长答案是“不正确”的。
这看起来像是 UQ 方法在检测幻觉。实际上,它只是在检测句子很长,而评分标准讨厌长句子。
更好的前进道路: 以 LM 为裁判
这篇论文的发现发出了严厉的警告: 我们不能盲目信任标准的 NLP 指标来评估不确定性量化。 使用 ROUGE 或 BERTScore 会创建一个长度偏见的反馈循环,掩盖模型的真实性能。
数据指向了一个明确的解决方案。

如 图 7 (右下) 所示, LM-as-a-judge 在不同长度下保持稳健。它不会因为模型冗长而盲目惩罚它。因为它缺乏长度偏见,所以它打破了这种伪相关性。
结论
评估人工智能正变得与构建人工智能一样复杂。这项研究强调了一个“相互偏见”陷阱,即我们评估指标中的缺陷掩盖了我们方法中的缺陷。
学生和研究人员的关键要点是:
- 不信任用于 UQ 的词汇指标: ROUGE 和类似指标引入了系统性偏见,扭曲了 AUROC 排名。
- 警惕混淆变量: 长度在这里是明显的混淆变量,但其他隐藏变量 (如词汇复杂性) 可能会导致类似的伪相关性。
- 采用以 LM 为裁判: 虽然计算成本更高,但使用强大的 LLM 来评估正确性最符合人类的判断,并提供了对不确定性方法最公平的评估。
通过改进我们的评估协议,我们可以停止追逐伪相关性,并专注于构建真正理解模型何时产生幻觉的 UQ 方法。
](https://deep-paper.org/en/paper/2504.13677/images/cover.png)