引言

我们都有过这样的经历: 你向大型语言模型 (LLM) 询问一个具体的事实性问题——也许是关于一个晦涩的历史人物，或者是一个特定的代码错误——它以绝对的信念做出了回答。语法完美，语气权威，传达得斩钉截铁。

只有一个问题: 答案是完全错误的。

这种现象凸显了现代人工智能的一个关键缺陷。LLM 被训练来生成流畅、有说服力的文本，但这往往是以牺牲准确性为代价的。虽然我们将这些称为“幻觉 (hallucinations) ”，但危险不仅仅在于模型错了；而在于模型令人信服地出错了。即使它本质上是在瞎猜，它模仿的也是专家的语调。

理想情况下，AI 助手应该像一个负责任的人类专家一样进行交流。如果它知道答案，它应该直接说出来。如果它在猜测，它应该使用“我认为”、“可能是”或“我不完全确定”等短语来为自己的语言留有余地 (hedge) 。

在研究论文 “Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?” (大型语言模型能用语言忠实地表达其内在不确定性吗？) 中，来自 Google Research 和特拉维夫大学的研究人员解决了这一确切问题。他们调查了我们是否能让 LLM 的“语言置信度” (它们所说的内容) 与其“内在置信度” (它们实际知道的内容) 保持一致。

图1: 我们将忠实的响应不确定性定义为响应的果断性 (蓝色) 与模型对其的内在置信度 (橙色阴影) 之间的差距。实证显示: (1) 使用标准解码时，即使存在不确定性，模型也会果断地回答 (左上) ； (2) 当被提示表达不确定性时，生成的模糊表达并不能忠实地反映模型的内在不确定性 (左下) 。

如上图 1 所示，目标简单但意义深远。如果模型不确定出生日期 (左上) ，它就不应该将其陈述为事实。它应该生成一个与其内部不确定性水平相匹配的、留有余地的回答 (左下) 。

这篇博客文章将详细拆解研究人员如何形式化这个问题、他们发明了什么指标来衡量它，以及在测试当今最强大的模型时发现的令人惊讶 (且有些令人担忧) 的结果。

背景: 两种类型的自信

要理解这篇论文的贡献，我们需要首先区分两个经常被混淆的概念:

内在不确定性 (Intrinsic Uncertainty) : 这是模型分配给其输出的数学概率。如果你用高“温度 (temperature) ”设置问 LLM 同一个问题 20 次，它是每次都给出相同的答案 (高置信度) ？还是给出 20 个不同的答案 (高不确定性) ？这是模型的内部状态。
语言果断性 (Linguistic Decisiveness) : 这是模型向用户展示信息的方式。它是否使用“绝对”、“是”和“事实”等词汇？还是使用“也许”、“可能”和“不清楚”？

这项研究的核心假设是，为了让 LLM 值得信赖，这两个概念必须相互忠实 (Faithful) 。高置信度的模型应该说话果断。低置信度的模型应该说话试探。

当出现不匹配时——具体来说，当内在置信度低但语言果断性高时——我们就会遇到“自信的幻觉”问题。

核心方法: 衡量忠实度

研究人员提出了一个新的框架来量化这种一致性，称为忠实响应不确定性 (Faithful Response Uncertainty) 。

从高层次来看，他们将针对查询 \(Q\) 的响应 \(R\) 视为一组断言 (assertions) 。然后，他们计算一个分数，如果回答的“感觉” (果断性) 与回答的“数学计算” (置信度) 不匹配，就会对模型进行惩罚。

忠实度指标

忠实度的数学定义简洁而优雅。对于模型 \(M\) 生成的响应，忠实度分数的定义为:

忠实度指标公式

让我们详细分解一下:

\(\operatorname{dec}(A; \mathbf{R}, \mathbf{Q})\): 果断性 (Decisiveness) 分数。一个介于 0 和 1 之间的值，代表文本听起来有多确定。
\(\operatorname{conf}_{M}(A)\): 内在置信度 (Intrinsic Confidence) 分数。一个介于 0 和 1 之间的值，代表模型实际上有多确定。
项 \(|\operatorname{dec} - \operatorname{conf}|\) 计算差距。如果模型听起来 100% 确定 (\(1.0\)) 但实际上只有 20% 的一致性 (\(0.2\)) ，差距就是 \(0.8\)。
我们从 1 中减去这个差距。满分 (\(1.0\)) 意味着果断性与置信度完美匹配。

为了使用这个公式，研究人员需要具体的方法来衡量果断性和置信度 。

第1步: 量化果断性

如何衡量一个句子的语气有多自信？“我相信是 1995 年”显然比“就是 1995 年”果断性低，但低多少呢？

研究人员选择不依赖简单的关键词列表。相反，他们使用了*感知果断性 (perceived decisiveness) *的概念。他们将果断性定义为第三方代理 (agent) 纯粹根据所使用的语言判断该陈述为真的概率。

果断性公式

为了实现这一点，他们使用了一个“裁判”LLM (Gemini Ultra) 。他们将模型的回答输入给裁判，并要求它以 0.0 到 1.0 的等级对果断性进行评分。

LLM 裁判与人类的感知一致吗？令人惊讶的是，是的。研究人员将裁判的分数与人类关于概率词汇 (例如，“极有可能”与“不太可能”的可能性有多大) 的调查进行了比较。

图2: 我们的平均果断性得分与人类对概率感知的四分位距 (IQR) 对比。

如图 2 所示，自动评分 (星号) 与人类直觉 (蓝色条) 非常吻合。“几乎确定 (Almost certain) ”得分接近 1.0，而“五五开 (About even) ”得分接近 0.5。

第2步: 量化内在置信度

接下来，他们需要衡量模型实际上在多大程度上“知道”答案。他们使用了一种称为自我一致性 (Self-Consistency) 的方法。

思路很简单: 如果你问模型“奥巴马是什么时候出生的？”，而它真的知道答案，即使你多次采样回答，它也应该始终如一地说“1961”。如果它真的不知道，它可能一次产生幻觉说“1962”，下一次说是“1960”。

他们将置信度量化为不与原始答案矛盾的采样答案的百分比。

内在置信度公式

这里，\(k\) 是额外样本的数量 (他们使用了 20 个) 。如果模型生成了 20 个新答案，且没有一个与主答案矛盾，则置信度得分为 1.0。如果有一半矛盾，则得分为 0.5。

实验与结果

建立指标后，研究人员评估了几个最先进的模型，包括 Gemini 系列 (Nano, Pro, Ultra) 和 GPT 系列 (GPT-3.5, GPT-4) 。

他们在两个数据集上测试了这些模型:

Natural Questions (NQ): Google 用户发出的真实查询。
PopQA: 一个具有挑战性的数据集，专注于“长尾实体”——LLM 经常难以处理的冷门事实，使其成为测试不确定性的完美试验台。

实验设置

他们不仅仅要求模型正常回答；他们试图通过“提示 (prompting) ”引导它们表现得更好。他们测试了四种具体方法:

Vanilla (原版) : 标准的“回答问题”提示。
Granularity (粒度) : 告诉模型如果不确定，就给出更宽泛的回答 (例如，用“1900 年代”代替“1905 年”) 。
Uncertainty (不确定性) : 明确指示模型如果不确定，要“在语言上表达不确定性” (使用模糊限制语) 。
Uncertainty+ (不确定性+) : 与上述相同，但提供了关于良好的模糊表达是什么样子的少样本 (few-shot) 示例。

表2: 我们在评估基线中使用的具体指令。

结果 1: 模型默认“过度自信”

第一个主要发现是，如果没有特殊的提示 (“Vanilla”设置) ，模型几乎无法表达怀疑。

请看下面的图 3。绿色条代表果断性 , 橙色条代表置信度 。

图3: 标准解码产生果断的答案，即使在不确定性下也是如此。

请注意，对于每一个模型，绿色条都在 1.0 处拉满。模型总是听起来对自己完全肯定。然而，橙色条 (实际置信度) 要低得多，对于较小的模型尤其如此。这种差距代表了“忠实性缺失”。实际上，这些模型是在开空头支票，其内部概率根本无法兑现。

结果 2: 提示有助于改善语气，但无助于提高准确性

我们能通过告诉模型要谦虚来解决这个问题吗？研究人员发现，提示 (使用“Uncertainty”和“Uncertainty+”方法) 确实成功降低了果断性。模型开始使用像“我认为”和“可能是”这样的词。

我们可以在表 3 中看到这种行为转变的例子。

表3: 来自 PopQA 和 NQ 的随机示例，对于这些问题，标准解码会果断回答，但不确定性提示会诱导产生模糊的回答。

在 Vanilla (原版) 一栏中，模型陈述“制片人……是 Carl Bessai。”在 Uncertainty+ (不确定性+) 一栏中，它转变为“我不确定，但我相信是……”

然而，这里有个陷阱。仅仅因为模型在说“我不确定”，并不意味着它是在正确的时机说这句话。

研究人员测量了模型新的模糊语气与其即使内部置信度之间的相关性。如果该方法有效，我们应该会在图表上看到一条强对角线: 低置信度应该等于低果断性，高置信度应该等于高果断性。

相反，他们发现了这个:

图4 & 5: 果断性和置信度之间的相关性较弱。

在图 4 (散点图) 中，看看蓝点是多么分散。模型实际上有多自信 (x轴) 与它听起来有多果断 (y轴) 之间的关系非常微弱。

Gemini Ultra (左) : 即使在低置信度 (0.2) 下，模型也经常输出高度果断的答案 (1.0) 。
GPT-4 (右) : 它倾向于聚集，但并不是沿着清晰的对角线。

这意味着，虽然我们可以强迫 LLM 使用模糊词汇，但它们经常在实际上正确的时候进行模糊处理，或者在实际上瞎猜的时候听起来很自信。它们模仿了不确定性的形式 , 却没有触及不确定性的实质。

结果 3: 忠实度得分仍然很低

由于这种不匹配，整体的“忠实度”得分 (cMFG) 仅比基线略有提高。

表1: 最先进的模型在忠实地传达不确定性方面表现挣扎。

在表 1 中，0.5 分本质上是基准线 (随机机会) 。大多数模型在 Vanilla 设置下徘徊在 0.52–0.54 左右。即使使用了最好的提示策略 (“Uncertainty”) ，它们也只能达到大约 0.59 到 0.70。虽然 Gemini Ultra 显示出最大的进步，但总体趋势表明，忠实的不确定性并不是一种仅仅通过要求就能自然涌现的能力。

讨论: 不确定性的复杂性

为什么这这么难？部分原因是“不确定性”不仅仅是一回事。论文简要触及了认知 (数据) 不确定性 (Epistemic/Data uncertainty) 和偶然 (模型) 不确定性 (Aleatoric/Model uncertainty) 之间的区别。

认知/数据不确定性: 问题本身是模糊的 (例如，“哈利波特是什么时候出来的？”——是指书还是电影？) 。
偶然/模型不确定性: 问题很清楚，但模型缺乏相关知识 (例如，“第一顿航空餐是什么时候供应的？”) 。

表4: 在语言上反映不确定性的适当方式取决于不确定性的来源。

如表 4 所示，一个真正先进的 AI 需要区分它为什么困惑，才能给出有用的答案。本文的实验主要集中在偶然不确定性 (模型根本不知道某个事实) ，即使是这样，对于当前的架构来说也已被证明是很困难的。

结论

这篇题为 “Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?” 的研究为 AI 在高风险领域的部署敲响了警钟 (Reality Check) 。

我们通常假设，随着模型变得更“聪明” (参数更大，训练数据更多) ，它们自然会更清楚自己不知道什么。这篇论文表明，这种假设是有缺陷的。目前的 LLM 被训练为乐于助人和语言流畅，这使得它们偏向于给出果断的答案，而不管其内部概率状态如何。

主要收获:

过度自信是默认状态: 如果不加干预，LLM 将以 100% 果断的语言陈述错误信息。
提示不是银弹: 你可以告诉模型要“谦虚”，它会使用谦虚的词汇，但它不一定会准确地使用它们。它可能会对一个它完全知道的事实说“我不确定”，或者将幻觉陈述为绝对真理。
需要对齐: 为了解决这个问题，我们可能需要新的训练方法 (RLHF) ，不仅奖励模型的正确性，还要奖励它根据其知识水平正确校准语气的能力。

在此之前，当 AI 对某个特定事实听起来绝对确定时，请记住“忠实度差距”。那可能只是一个非常果断的猜测。

引言#

背景: 两种类型的自信#

核心方法: 衡量忠实度#

忠实度指标#

第1步: 量化果断性#

第2步: 量化内在置信度#

实验与结果#

实验设置#

结果 1: 模型默认“过度自信”#

结果 2: 提示有助于改善语气，但无助于提高准确性#

结果 3: 忠实度得分仍然很低#

讨论: 不确定性的复杂性#

结论#

引言