像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 已经改变了我们与信息交互的方式。我们让它们写邮件、总结复杂的主题,甚至生成历史人物的传记。但这里有一个众所周知的隐患: 幻觉 (hallucinations) 。 大模型可能会在完全捏造事实的同时表现出绝对的自信。
对于简单的“是/否”问题或多项选择分类,确定模型是否不确定相对简单。我们可以查看输出 token 的概率分数 (logits) 。但是,当模型生成一篇 300 字的传记时,我们要如何衡量其置信度?如果模型写了三段关于某种疾病的内容,我们要如何知道哪些句子是事实,哪些是创意虚构?
在这篇文章中,我们将深入探讨一篇最近的研究论文,题为 “LUQ: Long-text Uncertainty Quantification for LLMs” 。 这篇论文解决了长文本生成中检测不确定性的难题——这是构建更可靠、更实事求是的 AI 系统的关键一步。
问题所在: “黑盒”时代的不确定性
要理解为什么需要 LUQ (长文本不确定性量化) ,我们首先需要了解为什么现有方法在现代用例中失效。
1. “长度”障碍
大多数关于不确定性量化 (UQ) 的现有研究都集中在短文本上。如果模型生成单个单词或短语,我们可以很容易地将其与其他潜在输出进行比较。然而,现实世界的应用往往需要长回复。当模型生成长序列时,可能的变体数量呈爆炸式增长。你不能简单地检查两篇 200 字的文章是否“完全相同”,因为它们永远不会完全相同。
2. “闭源”障碍
许多传统的 UQ 方法需要“白盒”访问权限——这意味着它们需要查看模型内部的概率分布 (logits) 。然而,像 GPT-4 或 Claude 这样的顶级模型通常是通过 API 访问的“黑盒”模型。我们能得到文本,但看不到内部的数学计算。
LUQ 背后的研究人员试图回答一个关键问题: 我们能否在不知道基本事实 (ground truth) 的情况下,仅通过分析模型的行为来预测长文本回复是否符合事实?
核心直觉: 一致性是关键
这篇论文的基本假设简单而有力: 不确定性表现为不一致性。
想象一下,让一位历史学家写一篇凯撒大帝的传记。如果你问他们三次,措辞可能会改变,但核心事实 (日期、战役、头衔) 将保持不变。现在,想象一下让某人写一篇关于一个虚构的、编造的国王的传记。如果他们被迫回答,他们可能每次都会编造不同的细节——一个版本说他在位 10 年,另一个版本说 5 年。
高一致性 = 高置信度 (低不确定性) 低一致性 = 低置信度 (高不确定性)
这就是基于采样的不确定性原理。通过用相同的问题多次提示 LLM 并比较输出结果,我们可以衡量模型有多“确定”。
LUQ 登场: 它是如何工作的
LUQ 是一个专门设计用于处理长文本复杂性的新颖框架。它不看词语重叠 (这可能会产生误导) ,而是看语义一致性 (含义) 。

如图 1 所示,该过程分为三个主要步骤:
- 采样: 给定一个查询 (例如,“讲讲拉美西斯四世的生平”) ,系统要求 LLM 生成多个回复 (\(n\) 个样本) 。
- 句子级分析: 长文本太混乱,无法作为一个整体进行比较。LUQ 将主要回复分解为单独的句子。
- 蕴含检查: 这是“神奇”的一步。系统使用一个自然语言推理 (NLI) 模型——具体来说是一个为此任务微调过的 DeBERTa 模型——来检查主要回复中的句子是否得到其他生成样本的支持。
蕴含的数学原理
传统方法可能会检查单词“法老”是否同时出现在两个文本中。LUQ 检查的是陈述是否得到支持。
对于回复中的特定句子 \(s_j\),模型计算该句子被另一个样本回复 \(r'\) “蕴含” (逻辑上支持) 的概率。

在上面的公式中:
- \(P(\text{entail} | s_j, r')\) 是参考回复支持特定句子的概率。
- \(S(r_i, r')\) 平均了回复中所有句子的这些概率。
如果一个句子是“拉美西斯四世在位六年”,而其他样本说“他从公元前 1151 年统治到 1145 年”,NLI 模型会将其识别为支持 (蕴含) ,即使措辞不同。如果另一个样本说“他统治了 20 年”,那就是矛盾,会导致低分。
计算最终不确定性得分
一旦系统将一个回复与所有其他样本进行了比较,它就会计算一个置信度得分 \(C\)。最终的不确定性得分 \(U(x)\) 本质上是置信度的倒数——置信度越高,不确定性越低。

这种方法允许 LUQ 分配一个单一的标量值 (0 到 1) ,代表模型对其长文本输出的不确定程度。
变体: ATOMIC 和 PAIR
作者还引入了两个变体来优化这个过程:
- LUQ-ATOMIC: 它不按句子拆分,而是使用 ChatGPT 将文本分解为“原子事实” (不可分割的信息片段) ,以获得更细的粒度。
- LUQ-PAIR: 它不将句子与整段话进行比较,而是将句子与其他样本中匹配度最高的句子进行比较。

虽然这些变体提供了轻微的性能提升,但在准确性和计算成本之间,标准 LUQ 方法被证明是一个稳健且高效的平衡点。
实验结果: 不确定性与真理相关吗?
为了测试他们的方法,研究人员使用了 FactScore , 这是一个评估生成的传记真实性的基准。他们还创建了一个新的数据集 FactScore-DIS (专注于疾病) ,以测试领域的泛化能力。
目标是看 LUQ 得分是否与实际事实性相关。理想情况下,我们希望看到强负相关 : 随着不确定性上升 , 事实性应该下降 。
散点图
结果令人信服。下面的散点图显示了各种模型的事实性 (x 轴) 和不确定性 (y 轴) 之间的关系。

注意红线的下降趋势。对于像 Gemini 1.0 Pro 和 Tulu-2-70B 这样的模型,相关性非常明显。当 LUQ 判定模型不确定 (y 轴数值高) 时,实际的事实性得分 (x 轴) 几乎总是很低。
击败基线方法
研究人员将 LUQ 与几种现有方法进行了比较,包括“白盒”方法 (如语义熵) 和“黑盒”方法 (如 SelfCheckNLI 和词汇相似度) 。

如表 1 所示,LUQ 始终获得最高的负相关分数 (越接近 -100 越好) 。例如,在 Gemini 1.0 Pro 上,LUQ 达到了 -85.1 的皮尔逊相关系数,显著优于词汇相似度 (-67.2) 或特征值拉普拉斯 (-72.7) 等传统方法。
这证实了在长文本中,检查逻辑一致性 (蕴含) 是比检查词语重叠更好的真理代理指标。
实体频率的影响
一个有趣的发现是模型知识如何随流行度变化。研究人员分析了基于主题在训练数据中出现的“频率”或流行程度 (例如,“非常频繁”如 HIV/艾滋病 vs “非常罕见”的疾病) 的表现。

图 3 显示了一个清晰的趋势:
- 上图 (事实性) : 模型关于频繁实体 (深绿色条) 的事实性要比罕见实体高得多。
- 下图 (不确定性) : 相应地,LUQ 正确地给频繁实体分配了较低的不确定性,而给罕见实体分配了较高的不确定性。
这一验证表明,LUQ 正确地识别了 LLM 的“知识边界”——它知道模型何时进入了容易产生幻觉的模糊领域。
应用: 集成的力量
所以,我们可以测量不确定性了。但这有什么用呢?
论文中提出的最实用的应用之一是 LUQ-ENSEMBLE 。 这种方法利用了“群体的智慧” (或者更确切地说,多个模型的智慧) 。
假设你可以访问三个不同的 LLM (例如,Tulu、Gemini 和 Vicuna) 。你让这三个模型都回答同一个问题。你相信哪个答案?
与其猜测,不如计算每个答案的 LUQ 得分。然后选择不确定性最低的回复。

表 4 突出了这种方法的威力。
- 看第一组: 最好的单个模型 (Tulu-2-70B) 的惩罚事实性得分 (PFS) 为 47.2% 。
- 通过使用 LUQ 作为选择器将其与 Gemini 和 Vicuna 集成,得分跃升至 52.8% 。
这是一个巨大的提升,而且是在没有重新训练任何模型的情况下实现的——仅仅是通过使用不确定性来过滤掉“幻觉”并保留“自信的真理”。
选择性回答
另一个应用是选择性问答 。 如果 LUQ 得分超过某个阈值,系统可以被编程为拒绝回答,而不是编造事实。实验表明,通过放弃回答最不确定的前 15% 的问题,剩余答案的整体事实性得到了显著提高。
结论
从短问答 AI 到长文本内容生成的转变,给信任度和可靠性带来了新的挑战。 LUQ 框架为量化这些复杂场景中的不确定性提供了一个稳健的解决方案,且无需访问模型的内部权重。
这项研究的关键要点:
- 一致性意味着事实性: 如果一个 LLM 在多个样本中讲述相同的故事 (语义上) ,它很可能是在说真话。
- 粒度很重要: 将长文本分解为句子并检查蕴含关系,比分析整块文本或检查简单的词语重叠要有效得多。
- 可操作的指标: LUQ 得分与基本事实高度相关,使其成为模型集成或拒绝机制的可靠触发器。
随着我们将 LLM 整合到医学、法律和教育等高风险领域,像 LUQ 这样的工具将成为必要的护栏,确保我们知道 AI 何时是专家——何时只是在瞎猜。
](https://deep-paper.org/en/paper/2403.20279/images/cover.png)