在自然语言生成 (NLG) 飞速发展的世界里,我们见证了大型语言模型 (LLM) 展现出了十年前被视为科幻小说的壮举。从总结复杂的财务报告到压缩医疗记录,生成式文本摘要正在重塑各个行业。

然而,这里有一个隐患。LLM 会产生幻觉。它们生成的摘要可能读起来通顺自信,但在事实层面上却是错误的。在高风险领域——如医疗保健或金融——依赖错误的摘要可能会带来灾难性的后果。

为了缓解这一问题,研究人员开发了不确定性估计 (Uncertainty Estimation, UE) 方法。可以将 UE 想象成 AI 模型的“检查引擎”指示灯。它提供一个分数,表明生成的摘要出错的可能性有多大。如果不确定性分数很高,人类就应该核实输出内容。

但是,弗吉尼亚理工大学和德克萨斯大学达拉斯分校最近的一篇研究论文提出了一个关键问题: 我们如何知道“检查引擎”指示灯是否正常工作?

要评估一种 UE 方法,我们需要将其不确定性分数与文本的实际质量进行比较。但在文本摘要中,我们要如何衡量“实际质量”呢?通常,我们会使用像 ROUGE、BERTScore 或 GPT-4 评估这样的 NLG 指标。研究人员发现了一个令人不安的依赖关系: 不确定性方法的性能排名会因为你用来评估它们的质量指标不同而发生剧烈变化。

在这篇深度文章中,我们将探索作者提出的综合基准测试,剖析文本摘要不确定性估计 (UE-TS) 的机制,并揭示为何目前的评估框架可能不像我们假设的那样可靠。


1. 核心问题: 指标依赖性

要理解这个问题的严重性,我们必须看看目前是如何验证 AI 模型的。

在传统的机器学习 (如分类) 中,评估是二元的。如果图片是一只猫,而模型预测是“狗”,那么模型就错了。这里的不确定性估计很容易测试: 如果模型在预测“狗”时伴随着高不确定性,那么 UE 方法就是有效的。

而在文本摘要中,并不存在唯一的“正确”摘要。一个句子可以用十几种方式重述且仍然准确。反之,它也可以流利但事实错误。由于这种模糊性,我们依赖一套 NLG 指标来为摘要打分。

研究人员指出了当前状况的两个主要问题:

  1. 单一指标依赖: 大多数研究仅使用一两个 NLG 指标 (通常是 ROUGE) 来评估其不确定性方法。
  2. 指标分歧: 不同的 NLG 指标衡量不同的东西。ROUGE 检查词语重叠。SummaC 检查事实一致性。如果这些指标对什么是“糟糕的摘要”意见不一,那么它们对于不确定性方法是否正确识别了糟糕摘要也会产生分歧。

如果我们的尺子都不一致,我们就无法准确测量任何东西。

图1: 评估过程中不确定性估计 (UE) 指标、NLG 指标和 UE 方法之间关系的示意图。

图1所示,评估过程是一个复杂的流水线。

  • 左侧: 我们有输入文本和模型生成的输出。
  • 中间: 我们将这些输入到两个并行的流程中。 UE 方法 (蓝色) 产生不确定性分数 (预测潜在的失败) 。同时, NLG 指标 (粉色) 产生质量分数 (衡量实际的成功) 。
  • 右侧: 这两股数据流汇入一个 UE 指标 (紫色) ,它计算不确定性分数在预测质量分数方面的表现如何。

这篇论文认为,如果你改变“粉色”方框 (NLG 指标) ,“紫色”方框中的最终结果也会发生不可预测的变化。


2. 基准测试: 一种综合方法

为了验证这一假设,作者构建了一个庞大的 UE-TS (文本摘要不确定性估计) 基准测试。这不是一个小规模的测试;它的设计旨在详尽无遗。

设置

基准测试评估了:

  • 模型: 两个大型语言模型 (LLM) ,包括 Llama 2,以及一个预训练语言模型 (BART) 。
  • 数据集: 三个不同的数据集,包括 AESLC (邮件) 、XSUM (BBC新闻) 和 TofuEval (人工标注的对话摘要) 。
  • 规模: 他们纳入了 31种 NLG 指标14种不确定性估计方法

这创建了一个评估矩阵,使我们能够看到衡量“信任”的不同方式之间的相关性 (或缺乏相关性) 。

“尺子”: NLG 指标

作者将31种 NLG 指标归类为先前研究定义的四个关键维度:

  1. 相关性 (Relevance) : 摘要是否包含重要信息? (例如 ROUGE-L) 。
  2. 一致性 (Consistency) : 摘要是否与源文在事实层面保持一致? (例如 SummaC, BERTScore) 。
  3. 连贯性 (Coherence) : 句子是否逻辑流畅?
  4. 流畅性 (Fluency) : 语法和句子结构质量是否高?

他们还使用了基于 LLM 的指标 (使用 GPT-3.5 为摘要打分) ,测试了包含具体维度定义和不包含定义的提示词。

表2: 我们基准测试中使用的31种 NLG 指标汇总。

表2列出了使用的多样化指标库。注意这里既包含了传统的重叠度指标 (ROUGE) ,也有现代的基于模型的指标 (UniEval, BERTScore) 。这种多样性是揭示评估差异的关键。

“被试对象”: 不确定性估计方法

模型如何知道它不确定?作者测试了14种方法,分为白盒 (可以访问模型内部/logits) 和黑盒 (只能访问文本输出) 。

表1: 我们基准测试中使用的14种不确定性方法汇总。

表1所示,这些方法使用不同的信号:

  • 基于信息的 (Information-based) : 查看特定 token 的概率 (例如,平均 token 熵) 。
  • 基于密度的 (Density-based) : 分析生成内容的潜在空间嵌入 (例如,马哈拉诺比斯距离) 。
  • 基于集成的 (Ensemble-based) : 运行模型多次并进行变化 (dropout) ,测量输出有多大差异。
  • 黑盒 (Black-box) : 询问模型“你确定吗?”或分析多个生成样本的相似性。

3. 核心方法: 用 PRR 衡量“信任”

我们如何在数学上确定一种不确定性方法是否有效?作者使用了一个称为预测拒绝率 (Prediction Rejection Ratio, PRR) 的指标。

PRR 背后的直觉很简单: 如果我们剔除那些模型最不确定的样本,剩余样本的平均质量应该会上升。

如果不确定性方法是完美的,它会给所有糟糕的摘要分配高不确定性分数。当你过滤掉这些摘要时,剩下的就只有好的摘要了。如果不确定性方法是随机的,过滤掉“不确定”的样本并不会提高剩余批次的平均质量。

PRR 的数学原理

计算涉及对样本进行排名。让我们看看使用的公式:

Equation 1

这里,\(PRR\) 将不确定性方法的风险与随机基准以及“预言机” (完美) 基准进行比较。

  • \(PR_{uncertainty}\) : 当我们按不确定性方法对样本进行排名时的累积风险。
  • \(PR_{random}\) : 如果我们只是随机打乱样本时的风险。
  • \(PR_{oracle}\) : 理论上的最佳性能 (完全按照真实错误对样本进行排名) 。

更高的 PRR 表明不确定性方法比随机猜测要好得多,并且更接近预言机。

但是什么是“风险”?作者基于 NLG 指标分数定义了风险 (\(r_{NLG}\)) 。

Equation 2

如果 NLG 分数 (归一化后) 是 1.0 (完美摘要) ,风险就是 0。如果分数是 0,风险就是 1。

计算累积风险的过程在图2中得到了清晰的可视化。

图2: PRR 计算示例图…

图2流程解析:

  1. 风险 (\(r_{NLG}\)): 我们从由 NLG 指标得出的实际风险值开始。
  2. 排名 (\(a_\phi\)): 我们根据不确定性方法的分数对这些样本进行排名。在完美的情况下,风险最高的项目 (值为1) 会排在第一位。
  3. 重排 (Rerank): 我们根据不确定性排名重新排列风险向量。
  4. 累积求和 (Cumulative Sum): 我们使用下面的公式创建一条累积风险曲线:

Equation 3

  1. 均值 (Mean): 这条累积曲线的平均值给了我们一个类似曲线下面积 (AUC) 的指标,它代表了性能。

这里的关键结论是, \(r_{NLG}\) (风险) 完全取决于所选的 NLG 指标。 如果 ROUGE 说一个摘要是好的 (低风险) ,但 BERTScore 说它是坏的 (高风险) ,整个 PRR 计算就会翻转,对不确定性方法的评估也会随之改变。


4. 实验与结果: 相关性的混乱

作者进行了广泛的实验,看看这些排名是如何相关的。他们使用斯皮尔曼相关系数 (Spearman Correlation) 来比较不同指标如何对 UE 方法进行排名。

如果评估框架是稳健的,我们应该在整个范围内看到高相关性 (红色方块) 。如果它是脆弱的,我们会看到低相关性或分歧。

4.1. NLG 指标之间是否一致?

首先,让我们看看“尺子”之间是否一致。作者相互比较了31种 NLG 指标。

图3: 从图6中使用的不确定性估计方法的角度看,AESLC 数据集上 NLG 指标之间的斯皮尔曼相关性示意图…

图3 (AESLC 数据集,BART 生成) 揭示了一个分裂的局面。

  • 一致性集群: 注意左上角的红色块?ROUGE-L、Spearman 和 Kendall-Tau 具有很好的相关性 (值接近 0.87-1.0) 。
  • 分歧: 看一下 UniEval (Relevance)ROUGE-L 。 相关性是 -0.63 。 这是一个巨大的矛盾。这意味着 ROUGE 认为相关的摘要,UniEval 认为不相关。
  • 一致性 vs. 流畅性: 旨在衡量流畅性的指标通常与旨在衡量一致性的指标呈负相关。

这意味着,如果你用 ROUGE 评估你的不确定性模型,你可能会得出它工作完美的结论。但如果你换成 UniEval,你可能会得出结论说同一个模型是垃圾。

4.2. 不确定性方法是否相关?

接下来,研究人员分析了不确定性方法本身之间的关系。如果“不确定性”是一个单一的概念,这些方法应该表现得都很相似。

图6: 从图3中使用的 NLG 指标的角度看,AESLC 数据集上不确定性估计方法之间的斯皮尔曼相关性示意图…

图6显示了 AESLC 数据集上不确定性方法之间的相关性。

  • 基于信息的一致性: MSP (最大序列概率) 和 MCSE (蒙特卡洛序列熵) 具有高度相关性 (0.97) 。它们测量的是相似的概率伪影。
  • 异常值: P(True),一种基于提示的方法,询问模型它是否正确,显示出与几乎所有其他方法呈负相关 (-0.14 到 -0.2) 。这表明模型的“口头”置信度与其数学概率置信度完全脱节。

4.3. 生成模型的影响

选择摘要器 (BART 对比 Llama 2) 会改变这些关系吗?

图12: 从图9中使用的 NLG 指标的角度看,XSUM 数据集上不确定性估计方法之间的斯皮尔曼相关性示意图…

图12 (XSUM 上的 BART) 显示了混合的相关性。现在将其与下面的图14 (XSUM 上的 Llama 2) 进行比较:

图14: 从图11中使用的 NLG 指标的角度看,XSUM 数据集上不确定性估计方法之间的斯皮尔曼相关性示意图…

图14中,我们可以看到白盒方法 (MSP, MTE, MD, RDE) 在 Llama 2 上有更强的正相关性块 (黄色块) 。这表明对于现代 LLM,不同的内部不确定性测量比在像 BART 这样的旧 PLM 上更加一致。然而,P(True) 仍然是一个顽固的异常值,与基于数学的方法呈负相关。

4.4. 一致性维度分析

论文深入研究了特定维度。让我们看看一致性 (Consistency) ——这可以说是防止幻觉最重要的维度。

图30: 从图12中使用的不确定性估计方法的角度看,XSUM 数据集上 NLG 指标在一致性方面的斯皮尔曼相关性示意图…

图30强调了一个迷人的分歧。

  • UniEval (Consistency)wo-GPT-3.5 (Consistency) 强烈相关 (0.9) 。
  • SummaCCTC , 这两个专门的一致性指标,彼此相关性很好。
  • 差距: 然而,UniEval 组与 SummaC 组之间的相关性要弱得多,甚至在其他数据集中呈负相关。

这证实了作者的担忧: “一致性”并不是一个单一的、公认的定义。 一个为了最大化 SummaC 表现而调整的不确定性方法,在根据 GPT-4 或 UniEval 进行评估时可能会惨败。


5. 人类评估: 终极真理?

鉴于自动化指标存在分歧,作者转向了“金标准”: 人类标注。他们使用了 TofuEval 数据集,其中人类对摘要的错误进行了标注,如矛盾、幻觉和格式问题。

他们测试了不确定性方法 (UE) 和 NLG 指标与人类判断 (HUM) 的一致性程度。

UE-HUM 结果

当直接将不确定性方法与人类标签进行比较时:

  1. LexSim (词汇相似度) 表现最好。该方法生成多个摘要并检查它们的相似程度。如果模型生成了5个非常不同的摘要,它很可能产生了幻觉。
  2. 没有任何一种单一方法在所有人类错误类型上都是完美的 (例如,一种擅长发现“矛盾”的方法可能不擅长发现“推理错误”) 。

NLG-HUM 结果

这是最发人深省的部分。研究人员使用 NLG 指标作为“不确定性分数” (假设较低的 NLG 分数 = 较高的不确定性) 计算 PRR,并将其与人类标签进行比较。

图41: 从人类标注的角度看,TofuEval 数据集上 NLG 指标之间的斯皮尔曼相关性示意图。

图41显示了基于人类标注的 NLG 指标之间的相关性。

  • 差异: 虽然有些指标相关 (深红色块) ,但也存在大片低相关或负相关区域。
  • 结论: NLG 指标并不能完美地代表人类判断。依赖它们来验证不确定性方法会引入一层噪声,从而掩盖模型的真实性能。

6. 关键要点与启示

这篇论文为 NLP 社区敲响了警钟。我们不能简单地运行一个使用 ROUGE 的基准测试,就声称我们的不确定性估计方法是“最先进的”。

以下是该研究的总结发现:

1. 指标至关重要

你的不确定性方法的排名在很大程度上取决于你选择的 NLG 指标。

  • 行动: 研究人员应该针对多种、互不相关的 NLG 指标评估 UE 方法。不要只使用 ROUGE 和 BLEU (它们高度相关) 。混合使用基于重叠的 (ROUGE) 、基于嵌入的 (BERTScore) 和基于模型的 (UniEval/GPT) 指标。

2. 方法选择

  • 集成方法: T-TU (总不确定性) 和 S-RMI (反向互信息) 是强有力的基线。
  • 白盒方法: MSP 和 MCSE 高度相关;你可能只需要计算其中一个。
  • 黑盒方法: LexSim (生成多个样本并进行比较) 通常最符合人类关于幻觉的判断。

3. “P(True)”陷阱

询问 LLM “你确定吗?” (即 P(True) 方法) 通常会产生与数学不确定性负相关的结果。模型的口头置信度是其实际概率不确定性的糟糕代理。

4. LLM 作为裁判

当使用 GPT-3.5 或类似模型作为评估者 (NLG 指标) 时,提示词很重要。有趣的是,作者发现提供维度的定义 (例如,解释“连贯性”是什么意思) 会显著影响评估,有时会使该指标的表现与不使用定义的指标区分开来。此外,使用基准摘要 (ground-truth summaries) 作为参考比使用输入文本对分数的影响更大。

结论

我们能信任文本摘要中不确定性估计方法的性能评估吗?答案是: 不能盲目信任。

信任是我们通过根据现实验证结果而构建的一种构念。在文本摘要中,“现实”很难用数学定义。这篇论文表明,我们目前对现实的定义 (NLG 指标) 是支离破碎的。

为了给关键领域构建真正可靠的 AI 系统,我们必须接受这种复杂性。我们需要多维度的评估框架,承认指标之间的分歧,而不是用单一的 F1 分数掩盖问题。只有根据多样化和严格的标准测试我们的“检查引擎”指示灯,我们才能确保它们在我们需要的时候真正亮起。