当大模型开始“胡扯”：测量长文本生成中的不确定性

像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 已经改变了我们与信息交互的方式。我们让它们写邮件、总结复杂的主题，甚至生成历史人物的传记。但这里有一个众所周知的隐患: 幻觉 (hallucinations) 。大模型可能会在完全捏造事实的同时表现出绝对的自信。

对于简单的“是/否”问题或多项选择分类，确定模型是否不确定相对简单。我们可以查看输出 token 的概率分数 (logits) 。但是，当模型生成一篇 300 字的传记时，我们要如何衡量其置信度？如果模型写了三段关于某种疾病的内容，我们要如何知道哪些句子是事实，哪些是创意虚构？

在这篇文章中，我们将深入探讨一篇最近的研究论文，题为 “LUQ: Long-text Uncertainty Quantification for LLMs” 。这篇论文解决了长文本生成中检测不确定性的难题——这是构建更可靠、更实事求是的 AI 系统的关键一步。

问题所在: “黑盒”时代的不确定性

要理解为什么需要 LUQ (长文本不确定性量化) ，我们首先需要了解为什么现有方法在现代用例中失效。

1. “长度”障碍

大多数关于不确定性量化 (UQ) 的现有研究都集中在短文本上。如果模型生成单个单词或短语，我们可以很容易地将其与其他潜在输出进行比较。然而，现实世界的应用往往需要长回复。当模型生成长序列时，可能的变体数量呈爆炸式增长。你不能简单地检查两篇 200 字的文章是否“完全相同”，因为它们永远不会完全相同。

2. “闭源”障碍

许多传统的 UQ 方法需要“白盒”访问权限——这意味着它们需要查看模型内部的概率分布 (logits) 。然而，像 GPT-4 或 Claude 这样的顶级模型通常是通过 API 访问的“黑盒”模型。我们能得到文本，但看不到内部的数学计算。

LUQ 背后的研究人员试图回答一个关键问题: 我们能否在不知道基本事实 (ground truth) 的情况下，仅通过分析模型的行为来预测长文本回复是否符合事实?

核心直觉: 一致性是关键

这篇论文的基本假设简单而有力: 不确定性表现为不一致性。

想象一下，让一位历史学家写一篇凯撒大帝的传记。如果你问他们三次，措辞可能会改变，但核心事实 (日期、战役、头衔) 将保持不变。现在，想象一下让某人写一篇关于一个虚构的、编造的国王的传记。如果他们被迫回答，他们可能每次都会编造不同的细节——一个版本说他在位 10 年，另一个版本说 5 年。

高一致性 = 高置信度 (低不确定性) 低一致性 = 低置信度 (高不确定性)

这就是基于采样的不确定性原理。通过用相同的问题多次提示 LLM 并比较输出结果，我们可以衡量模型有多“确定”。

LUQ 登场: 它是如何工作的

LUQ 是一个专门设计用于处理长文本复杂性的新颖框架。它不看词语重叠 (这可能会产生误导) ，而是看语义一致性 (含义) 。

图 1: LUQ 和 LUQ-ENSEMBLE 框架示意图。

如图 1 所示，该过程分为三个主要步骤:

采样: 给定一个查询 (例如，“讲讲拉美西斯四世的生平”) ，系统要求 LLM 生成多个回复 (\(n\) 个样本) 。
句子级分析: 长文本太混乱，无法作为一个整体进行比较。LUQ 将主要回复分解为单独的句子。
蕴含检查: 这是“神奇”的一步。系统使用一个自然语言推理 (NLI) 模型——具体来说是一个为此任务微调过的 DeBERTa 模型——来检查主要回复中的句子是否得到其他生成样本的支持。

蕴含的数学原理

传统方法可能会检查单词“法老”是否同时出现在两个文本中。LUQ 检查的是陈述是否得到支持。

对于回复中的特定句子 \(s_j\)，模型计算该句子被另一个样本回复 \(r'\) “蕴含” (逻辑上支持) 的概率。

蕴含概率和相似度得分公式。

在上面的公式中:

\(P(\text{entail} | s_j, r')\) 是参考回复支持特定句子的概率。
\(S(r_i, r')\) 平均了回复中所有句子的这些概率。

如果一个句子是“拉美西斯四世在位六年”，而其他样本说“他从公元前 1151 年统治到 1145 年”，NLI 模型会将其识别为支持 (蕴含) ，即使措辞不同。如果另一个样本说“他统治了 20 年”，那就是矛盾，会导致低分。

计算最终不确定性得分

一旦系统将一个回复与所有其他样本进行了比较，它就会计算一个置信度得分 \(C\)。最终的不确定性得分 \(U(x)\) 本质上是置信度的倒数——置信度越高，不确定性越低。

置信度和最终不确定性计算公式。

这种方法允许 LUQ 分配一个单一的标量值 (0 到 1) ，代表模型对其长文本输出的不确定程度。

变体: ATOMIC 和 PAIR

作者还引入了两个变体来优化这个过程:

LUQ-ATOMIC: 它不按句子拆分，而是使用 ChatGPT 将文本分解为“原子事实” (不可分割的信息片段) ，以获得更细的粒度。
LUQ-PAIR: 它不将句子与整段话进行比较，而是将句子与其他样本中匹配度最高的句子进行比较。

LUQ-PAIR 最大化公式。

虽然这些变体提供了轻微的性能提升，但在准确性和计算成本之间，标准 LUQ 方法被证明是一个稳健且高效的平衡点。

实验结果: 不确定性与真理相关吗？

为了测试他们的方法，研究人员使用了 FactScore , 这是一个评估生成的传记真实性的基准。他们还创建了一个新的数据集 FactScore-DIS (专注于疾病) ，以测试领域的泛化能力。

目标是看 LUQ 得分是否与实际事实性相关。理想情况下，我们希望看到强负相关 : 随着不确定性上升 , 事实性应该下降。

散点图

结果令人信服。下面的散点图显示了各种模型的事实性 (x 轴) 和不确定性 (y 轴) 之间的关系。

显示 6 个 LLM 的事实性与不确定性呈负相关的散点图。

注意红线的下降趋势。对于像 Gemini 1.0 Pro 和 Tulu-2-70B 这样的模型，相关性非常明显。当 LUQ 判定模型不确定 (y 轴数值高) 时，实际的事实性得分 (x 轴) 几乎总是很低。

击败基线方法

研究人员将 LUQ 与几种现有方法进行了比较，包括“白盒”方法 (如语义熵) 和“黑盒”方法 (如 SelfCheckNLI 和词汇相似度) 。

显示皮尔逊和斯皮尔曼相关性的表格。LUQ 优于基线。

如表 1 所示，LUQ 始终获得最高的负相关分数 (越接近 -100 越好) 。例如，在 Gemini 1.0 Pro 上，LUQ 达到了 -85.1 的皮尔逊相关系数，显著优于词汇相似度 (-67.2) 或特征值拉普拉斯 (-72.7) 等传统方法。

这证实了在长文本中，检查逻辑一致性 (蕴含) 是比检查词语重叠更好的真理代理指标。

实体频率的影响

一个有趣的发现是模型知识如何随流行度变化。研究人员分析了基于主题在训练数据中出现的“频率”或流行程度 (例如，“非常频繁”如 HIV/艾滋病 vs “非常罕见”的疾病) 的表现。

显示不同实体频率下的事实性和不确定性的条形图。

图 3 显示了一个清晰的趋势:

上图 (事实性) : 模型关于频繁实体 (深绿色条) 的事实性要比罕见实体高得多。
下图 (不确定性) : 相应地，LUQ 正确地给频繁实体分配了较低的不确定性，而给罕见实体分配了较高的不确定性。

这一验证表明，LUQ 正确地识别了 LLM 的“知识边界”——它知道模型何时进入了容易产生幻觉的模糊领域。

应用: 集成的力量

所以，我们可以测量不确定性了。但这有什么用呢？

论文中提出的最实用的应用之一是 LUQ-ENSEMBLE 。这种方法利用了“群体的智慧” (或者更确切地说，多个模型的智慧) 。

假设你可以访问三个不同的 LLM (例如，Tulu、Gemini 和 Vicuna) 。你让这三个模型都回答同一个问题。你相信哪个答案？

与其猜测，不如计算每个答案的 LUQ 得分。然后选择不确定性最低的回复。

显示集成策略结果的表格。LUQ-ENSEMBLE 提高了分数。

表 4 突出了这种方法的威力。

看第一组: 最好的单个模型 (Tulu-2-70B) 的惩罚事实性得分 (PFS) 为 47.2% 。
通过使用 LUQ 作为选择器将其与 Gemini 和 Vicuna 集成，得分跃升至 52.8% 。

这是一个巨大的提升，而且是在没有重新训练任何模型的情况下实现的——仅仅是通过使用不确定性来过滤掉“幻觉”并保留“自信的真理”。

选择性回答

另一个应用是选择性问答 。如果 LUQ 得分超过某个阈值，系统可以被编程为拒绝回答，而不是编造事实。实验表明，通过放弃回答最不确定的前 15% 的问题，剩余答案的整体事实性得到了显著提高。

结论

从短问答 AI 到长文本内容生成的转变，给信任度和可靠性带来了新的挑战。 LUQ 框架为量化这些复杂场景中的不确定性提供了一个稳健的解决方案，且无需访问模型的内部权重。

这项研究的关键要点:

一致性意味着事实性: 如果一个 LLM 在多个样本中讲述相同的故事 (语义上) ，它很可能是在说真话。
粒度很重要: 将长文本分解为句子并检查蕴含关系，比分析整块文本或检查简单的词语重叠要有效得多。
可操作的指标: LUQ 得分与基本事实高度相关，使其成为模型集成或拒绝机制的可靠触发器。

随着我们将 LLM 整合到医学、法律和教育等高风险领域，像 LUQ 这样的工具将成为必要的护栏，确保我们知道 AI 何时是专家——何时只是在瞎猜。

问题所在: “黑盒”时代的不确定性#

1. “长度”障碍#

2. “闭源”障碍#

核心直觉: 一致性是关键#

LUQ 登场: 它是如何工作的#

蕴含的数学原理#

计算最终不确定性得分#

变体: ATOMIC 和 PAIR#

实验结果: 不确定性与真理相关吗？#

散点图#

击败基线方法#

实体频率的影响#

应用: 集成的力量#

选择性回答#

结论#