当老师带有偏见：伪相关性如何破坏 LLM 的不确定性评估

大语言模型 (LMs) 有一个众所周知的倾向，那就是“产生幻觉”——即生成流畅但实际上不正确的信息。为了缓解这个问题，研究人员依赖于 不确定性量化 (Uncertainty Quantification, UQ) 。 UQ 的目标很简单: 我们希望模型在不确定时告诉我们，这样我们就可以标记这些回答进行人工审查或直接丢弃。

但是，我们要如何知道一种 UQ 方法是否真的有效呢？我们必须对其进行测试。通常，我们生成一个答案，要求 UQ 方法给出一个置信度分数，然后检查答案是否正确。如果 UQ 方法对错误答案分配低置信度，对正确答案分配高置信度，那么它就是有效的。

然而，一篇名为 “Revisiting Uncertainty Quantification Evaluation in Language Models” 的新论文揭示了这一过程中一个严重的缺陷。研究人员证明，我们用来判断“正确性”的工具本身就带有偏见——特别是关于回答长度的偏见。当这种偏见与 UQ 方法内部的偏见一致时，就会产生一种 伪交互 (spurious interaction) , 从而操纵评估结果，使某些方法看起来比实际情况好得多。

在这篇深入的文章中，我们将剖析这种“相互偏见”是如何运作的，为什么像 ROUGE 和 BERTScore 这样的标准指标可能会误导我们，以及我们如何利用 LLM 作为裁判来修正评估协议。

工具箱: 我们如何衡量不确定性

在分析缺陷之前，我们需要了解评估不确定性的标准设置。

1. UQ 方法

UQ 方法会根据输入 (\(x\)) 为 LLM 的输出 (\(\hat{y}\)) 分配一个分数。最基本的方法之一是 负序列概率 (Negative Sequence Probability) 。这种方法查看模型为生成序列中每个 token 分配的概率，并将它们相乘。

展示负序列概率计算公式。

在这里，\(L\) 代表生成答案的长度。正如你在公式中看到的，因为概率总是小于 1，相乘的项越多 (序列越长) ，总概率自然就越低。这意味着这种特定的 UQ 方法具有固有的 长度偏见 : 它自然地对较长的答案分配更高的“不确定性” (更低的概率) 。

其他方法包括 熵 (Entropy) (测量概率分布的离散程度) 或 学习探针 (Learned Probes) (训练一个小型的分类器来预测模型是否正确) 。

2. 正确性函数

为了评估 UQ 方法，我们需要知道基本事实 (ground truth) : 模型的回答真的正确吗？由于我们无法手动为数百万个答案评分，我们使用自动化的 正确性函数 (Correctness Functions) 。

这些函数将模型生成的答案 (\(\hat{y}\)) 与参考的“标准”答案 (\(y\)) 进行比较。

表格列出了各种正确性函数，如 ROUGE, SQuAD, BERTScore 和 LM-as-a-judge。

如上表所示，这些函数分为三类:

基于词汇 (例如 ROUGE) : 计算模型回答和参考答案之间重叠的单词数。
基于嵌入 (例如 BERTScore) : 使用较小的模型 (如 BERT) 来检查两个答案是否具有相似的语义嵌入。
以 LM 为裁判 (LM-as-a-judge) : 使用强大的 LLM (如 GPT-4 或 Qwen) 阅读两个答案并判断它们的意思是否相同。

3. 性能指标: AUROC

最后，为了给 UQ 方法打分，我们通常使用 AUROC (接收者操作特征曲线下面积) 。

定义 AUROC 的公式，即正确答案的不确定性分数低于错误答案的概率。

AUROC 指标提出了一个简单的概率问题: 如果我随机选择一个正确答案 (\(h_i=1\)) 和一个随机错误答案 (\(h_j=0\)) ，UQ 方法给正确答案分配更低不确定性分数的概率是多少？

一个完美的 UQ 方法其 AUROC 为 1.0。随机猜测的 AUROC 为 0.5。

核心问题: “代理”陷阱

问题在于我们没有真实的正确性标签 (\(h\)) 。我们要依赖由 ROUGE 或 BERTScore 等函数提供的估计正确性 (\(\hat{h}\)) 。

展示基于估计正确性标签的估计 AUROC 公式。

如果我们的正确性函数 (\(\hat{h}\)) 是完美的，那就没问题。但我们知道自动指标会犯错。研究人员从数学上证明，这些错误的性质决定了我们的评估是有效的还是崩溃的。

场景 A: 随机噪声 (好消息)

如果正确性函数产生随机错误——有时把对的标记为错，把错的标记为对，且没有规律——评估虽然有噪声但是 无偏的 。 AUROC 分数可能会下降接近 0.5 (随机) ，但不同 UQ 方法的排名仍然大体稳定。

场景 B: 相互偏见 (坏消息)

当正确性函数中的错误与 UQ 方法相关时，危险就出现了。

想象这样一个场景:

UQ 方法 倾向于对长答案更加“不确定” (因为我们前面看到的概率相乘) 。
正确性函数 倾向于将长答案标记为“不正确” (可能是因为额外的单词降低了与简短参考答案的重叠百分比) 。

如果裁判 (正确性函数) 和学生 (UQ 方法) 都对长答案有偏见，他们就会彼此认同，即使答案实际上是正确的。

在数学上，研究人员表明，当这些错误相关联时，区分正确与错误样本的估计概率会发生偏移:

不等式表明相关错误导致估计概率偏离真实概率。

这个不等式证明了 任何相互偏见 都会引入系统性扭曲。它可以人为地夸大 AUROC 分数，使一个有缺陷的 UQ 方法看起来处于最先进水平，仅仅是因为它与正确性指标有着共同的偏见。

实证证据: 排名不稳定

为了观察这种理论上的危险是否存在于现实世界中，作者在 4 个数据集、4 个模型和 8 种 UQ 方法上进行了广泛的实验。

如果正确性函数的选择无关紧要，那么无论我们使用 ROUGE、BERTScore 还是 LLM 裁判，UQ 方法的排名都应该大致相同。

柱状图显示 UQ 方法的排名如何根据所使用的正确性函数发生剧烈变化。

上面的 图 1 展示了结果，令人震惊。

看 负序列概率 (Negative Sequence Probability) (橙色/棕褐色条) 。当用 ROUGE-L 评估时，它表现得很有竞争力。
然而，当用 LM-as-a-judge (以 LM 为裁判) 评估时，其性能排名显著下降。
同样，像 Token 长度 (Token Length) (蓝色条) 这样的简单基线——实际上只是计算答案有多长——在 ROUGE 和 SentenceBERT 的评估下表现得好得惊人。

这表明某些正确性函数奖励的是那些追踪长度的方法，而不是追踪语义不确定性的方法。

验证裁判: 人类 vs. 机器

为了确定我们应该真正信任哪个正确性函数，研究人员进行了人工评估。他们雇佣了标注员对 450 个样本进行评分，并将人类标签与自动指标进行比较。

热图显示人类试验与各种正确性函数之间的 Cohen Kappa 一致性率。

图 2 中的热图显示了人类与指标之间的一致性 (Cohen’s Kappa) 。

红色/低分: ROUGE 和 SQuAD 在许多设置下与人类的一致性很差。
蓝色/高分: LM-as-a-judge (Prompt) 和 AlignScore 与人类标注员的一致性最高。

这证实了在这种背景下，词汇指标 (如 ROUGE) 甚至某些嵌入指标 (如 BERTScore) 是糟糕的真理代理。

标准指标表现不佳的一个原因是它们对阈值的敏感性。为了计算 AUROC，我们通常需要将连续分数 (如 0.6 的 ROUGE) 转换为二元的“正确/不正确”标签。

图表显示随着阈值的变化，ROUGE-L 等指标的人类一致性急剧下降。

图 8 表明找到正确的阈值是一场噩梦。对于 ROUGE-L (左上) ，一致性在特定阈值达到峰值，然后崩溃。如果研究人员选择了错误的阈值，他们的整个评估就是无效的。相比之下, AlignScore (底行) 无论阈值如何都非常稳定。

罪魁祸首: 响应长度偏见

研究人员假设 响应长度 是导致理论部分讨论的“相互偏见”的隐藏变量。

首先，他们检查了正确性函数。它们是否不公平地惩罚长答案？

散点图显示 ROUGE-L 分数随长度增加而下降，而 AlignScore 保持稳定。

图 5 证实了这种偏见。

图 (a) ROUGE-L: 注意向下的趋势。随着响应长度 (x 轴) 的增加，ROUGE 分数 (y 轴) 自然下降。该指标难以处理“冗长”，惩罚了正确但较长的答案。
图 (b) AlignScore: 分布要平坦得多。长答案仍然可以获得高正确性分数。

这证明了 正确性函数偏见 。那么，UQ 方法呢？

相关性热图显示 UQ 方法与响应长度之间存在强关系。

图 4 显示了 UQ 方法与长度之间的相关性。

负序列概率 与长度有很强的相关性 (正如数学推导预期的那样) 。
Token 长度 显然与长度完全相关。

伪交互作用: 因为 ROUGE 惩罚长答案 (标记它们为“不正确”) ，而负序列概率对长答案分配高不确定性，所以 UQ 方法成功地“预测”了长答案是“不正确”的。

这看起来像是 UQ 方法在检测幻觉。实际上，它只是在检测句子很长，而评分标准讨厌长句子。

更好的前进道路: 以 LM 为裁判

这篇论文的发现发出了严厉的警告: 我们不能盲目信任标准的 NLP 指标来评估不确定性量化。 使用 ROUGE 或 BERTScore 会创建一个长度偏见的反馈循环，掩盖模型的真实性能。

数据指向了一个明确的解决方案。

散点图比较各种指标与响应长度的关系。LM-as-a-judge 显示出高度稳定性。

如 图 7 (右下) 所示, LM-as-a-judge 在不同长度下保持稳健。它不会因为模型冗长而盲目惩罚它。因为它缺乏长度偏见，所以它打破了这种伪相关性。

结论

评估人工智能正变得与构建人工智能一样复杂。这项研究强调了一个“相互偏见”陷阱，即我们评估指标中的缺陷掩盖了我们方法中的缺陷。

学生和研究人员的关键要点是:

不信任用于 UQ 的词汇指标: ROUGE 和类似指标引入了系统性偏见，扭曲了 AUROC 排名。
警惕混淆变量: 长度在这里是明显的混淆变量，但其他隐藏变量 (如词汇复杂性) 可能会导致类似的伪相关性。
采用以 LM 为裁判: 虽然计算成本更高，但使用强大的 LLM 来评估正确性最符合人类的判断，并提供了对不确定性方法最公平的评估。

通过改进我们的评估协议，我们可以停止追逐伪相关性，并专注于构建真正理解模型何时产生幻觉的 UQ 方法。

工具箱: 我们如何衡量不确定性#

1. UQ 方法#

2. 正确性函数#

3. 性能指标: AUROC#

核心问题: “代理”陷阱#

场景 A: 随机噪声 (好消息)#

场景 B: 相互偏见 (坏消息)#

实证证据: 排名不稳定#

验证裁判: 人类 vs. 机器#

罪魁祸首: 响应长度偏见#

更好的前进道路: 以 LM 为裁判#

结论#