当大语言模型说“我相当确定”时,我们能相信它吗?深入探讨认知标记

随着 GPT-4 和 Claude 等大语言模型 (LLMs) 日益深入医疗、法律和金融分析等高风险领域 , 可靠性问题变得至关重要。模型仅仅给出答案是不够的;我们需要知道它对这个答案有多大把握。

传统上,研究人员关注数值置信度分数 (如对数概率或明确的百分比输出) 。但说实话: 这并不是人类交流的方式。如果你向医生询问诊断结果,他们很少会说: “我有 87.5% 的置信度。”他们使用的是认知标记 (Epistemic Markers) ——诸如“我相当确定”、“很可能”或“我不确定”之类的短语。

最近一篇题为 “Revisiting Epistemic Markers in Confidence Estimation” (重访置信度估计中的认知标记) 的论文探讨了一个关键问题: 大语言模型是否可靠地使用了这些语言标记? 如果一个模型说“我确定”,这是否真的比它说“我想”时对应更高的正确率?

在这篇文章中,我们将剖析这项研究,探讨作者开发的用于量化这些语言标记的框架、他们提出的严格指标,以及关于大语言模型如何在不同领域处理自身不确定性的一些令人担忧的结果。

问题所在: 文字 vs. 数字

当大语言模型生成文本时,它会计算下一个 token 的概率。这是一个“白盒”数值。然而,人类通过自然语言与大语言模型交互。我们期望模型用文字来表达不确定性。

挑战在于“确定性”是主观的。“极有可能”意味着 80% 还是 95%?此外,当大语言模型从解决数学问题切换到回答医疗问题时,它是否保持了对“极有可能”的一致定义?

研究人员认为,之前的研究过于关注大语言模型是否像人类一样使用标记。但这篇论文采取了不同的方法: 它询问大语言模型是否内部一致 。 即使模型对“也许”的定义与我们不同,我们是否至少可以相信它的“也许”始终反映了特定的准确率水平?

框架: 定义“标记置信度”

为了研究这一点,作者摆脱了抽象的语义含义,将研究建立在实证数据之上。他们引入了标记置信度 (Marker Confidence) 的概念。

什么是标记置信度?

简单来说,标记置信度就是模型使用特定短语时观察到的准确率。

想象一个模型回答了 100 个问题。

  • 在其中 31 个回答中,它使用了“相当确定 (fairly certain) ”这个短语。
  • 在这 31 个“相当确定”的回答中,有 20 个是正确的,11 个是错误的。
  • 短语“相当确定”的标记置信度就是 \(20/31 \approx 64.5\%\)。

作者在下图中展示了这个框架:

图 1: 我们在 StrategyQA 数据集上计算 GPT-4o 对“相当确定”一词的标记置信度的框架示例。

这种方法将语言质量 (一个短语) 转化为可量化的指标。它让我们能够忽略字典上对“相当确定”的定义,而专注于模型在使用该短语时实际达到的效果。

数学形式化非常直观。设 \(W\) 为标记,\(D\) 为数据集,\(M\) 为模型。置信度是出现该标记的问题子集 \(Q_{W_i}\) 的平均准确率:

标记置信度公式

这里,\(\mathbb{I}(\cdot)\) 是一个指示函数,如果答案正确则等于 1,如果错误则等于 0。

研究设计与设置

为了彻底测试这一点,研究人员不只使用了一个模型或一个主题。他们建立了一个全面的环境:

  • 7 个模型: 范围从 Llama-3.1-8B 和 Mistral-7B 等开源模型到 GPT-4o 等专有巨头。
  • 7 个数据集: 涵盖不同领域,包括:
  • 常识: BoolQ, StrategyQA, CSQA
  • 数学: GSM8K
  • 医疗: MedMCQA
  • 法律: CaseHOLD
  • 通用知识: MMLU

有趣的是,研究人员发现指令微调 (Instruction-Tuned) 模型 (经过训练以遵循指令的模型) 比基座模型更适合此任务。如下图所示,指令微调模型生成了种类更丰富的认知标记,为分析提供了更丰富的数据集。

图 4: 六个不同模型在 BoolQ 和 CSQA 数据集中生成的认知标记数量。

提示策略

为了引出这些标记,他们使用了特定的提示结构。他们不仅仅要求给出答案;他们明确指示模型“仅包含一个认知标记来反映你的置信度水平”。

表 4: 我们要出认知标记和数值置信度的提示词。

指标: 衡量一致性

这篇论文的核心贡献在于他们如何评估这些标记的“好坏”。仅仅计算准确率是不够的。我们需要知道标记是否已校准 (它们反映现实吗?) 以及是否一致 (它们在任何地方都以相同方式工作吗?) 。

作者提出了七个具体指标,分为三类:

1. 校准指标 (“ECE” 系列)

期望校准误差 (ECE) 衡量置信度与准确率之间的差距。如果一个模型的置信度为 70%,那么它应该有 70% 的时间是正确的。

首先,他们使用数值输出 (要求模型给出一个 0-100 之间的数字) 建立了一个基线:

NumECE 公式

然后,他们观察了两种情况下的标记校准:

域内平均 ECE (I-AvgECE) : 这衡量了当训练和测试在同一类型的数据集上 (例如,在数学问题上训练并在数学问题上测试) 时,标记的表现如何。

I-AvgECE 公式

跨域平均 ECE (C-AvgECE) : 这是压力测试。它衡量标记置信度在不同数据集之间的迁移效果。如果模型学会了“我确定”意味着数学上的 99% 准确率,那么“我确定”是否也意味着医疗问题上的 99% 准确率?

C-AvgECE 公式

2. 离散度指标 (“CV” 系列)

我们希望模型能有区分度地使用标记。如果“也许”和“肯定”都映射到 60% 的准确率,那么标记就是无用的。 变异系数 (CV) 衡量置信度值的分散程度。

CV 公式

域内 CV (I-AvgCV) : 衡量数据集内的离散度。这里数值越高通常越好,这意味着模型正在区分高置信度和低置信度场景。

I-AvgCV 公式

跨域 CV (C-AvgCV) : 这衡量同一个标记的置信度在不同数据集之间的离散程度。在这里,我们希望得到一个值。无论是在谈论法律还是物理,我们希望标记“不太可能”意味着大致相同的概率。

C-AvgCV 公式

3. 相关性指标

最后,作者检查了排名是否有意义。

标记排名相关性 (MRC) : 基于斯皮尔曼 (Spearman) 相关系数。如果在这一数据集中“确定” > “可能” > “也许”,那么这个顺序在另一个数据集中也应该成立。

MRC 公式

标记准确率相关性 (MAC) : 基于皮尔逊 (Pearson) 相关系数。这检查了更高的标记置信度是否实际上与更高的整体模型准确率相关。

MAC 公式

实验结果: 可靠性差距

那么,模型的表现如何?结果描绘出了一幅模型虽有能力但十分脆弱的景象。

1. 分布内 vs. 分布外

最重要的发现是域内和跨域表现之间的差距。请看下面的汇总表:

表 1: 模型在七个指标上的表现。

注意 I-AvgECE (域内) 和 C-AvgECE (跨域) 之间的差异。对于几乎每个模型,跨域误差都明显更高。

  • 解读: 模型在特定上下文中校准语言的能力还不错。然而,它们无法泛化。像“相当确定”这样的标记可能在逻辑谜题中意味着 80% 的准确率,但在法律查询中仅意味着 50% 的准确率。这使得在现实世界的开放式应用中信任这些标记变得危险。

2. 排名问题

MRC (标记排名相关性) 分数在整体上低得惊人 (大多在 10% 到 37% 之间) 。

  • 解读: 这意味着置信度词语的层级在不同数据集之间会发生翻转。“极有可能”在一个领域可能比“大概”是指示性更强的指标,但在另一个领域却更弱。这种不一致性使得用户几乎不可能学会模型的“不确定性语言”。

3. 可视化不稳定性

作者提供了一个热力图来可视化特定标记的置信度水平如何在不同数据集之间变化。

图 2: 模型的标记置信度在不同数据集之间差异很大。

在图 2 中,观察 GPT-4o (左) 和 Qwen2.5 (右) ,你可以看到相同标记的颜色强度 (代表置信度/准确率) 随 x 轴 (数据集) 变化。如果标记是稳定的,我们会看到一致的水平色带。相反,我们看到了波动。

此外,排名的不稳定性在下面的散点图中得到了可视化。如果排名是一致的,形状 (代表不同的标记) 将水平聚集。相反,它们根据数据集在 y 轴 (归一化排名) 上下跳动。

图 3: 模型的标记置信度排名在不同数据集之间波动剧烈。

4. 发现的鲁棒性

有人可能会争辩说这些结果是噪音——可能是由仅出现几次的标记引起的。为了反驳这一点,作者进行了鲁棒性检查,过滤掉出现次数少于 10、50 或 100 次的标记。

表 6: 不同过滤阈值的确切置信区间。

即使经过严格过滤 (要求标记出现 100 次) ,结论依然成立: C-AvgCV 仍然很高 (表明不稳定) ,而 MRC 仍然很低 (表明排名一致性差) 。

为什么会发生这种情况?

作者认为,模型是根据其处理的数据分布来学习使用某些标记的“偏好”的。当分布发生变化时 (例如,从简单的数学问题转移到 StrategyQA 中的复杂多跳推理) ,模型的内部校准会发生变化,但其词汇选择并没有完美地适应这种变化。

他们发现多领域数据集 (如 MMLU) 比单领域数据集 (如 GSM8K) 导致了更高的校准误差。数据的复杂性和多样性使得模型更难将其内部状态映射到一致的语言标记上。

结论与启示

这项研究为在关键系统中部署大语言模型敲响了警钟。虽然通过解析大语言模型的回答中的“我确定”等短语来自动化决策很诱人,但这篇论文证明了认知标记目前在不同上下文中是不可靠的。

给学生和从业者的主要启示:

  1. 上下文很重要: 你不能假设一个置信度标记在医学领域的含义与在数学领域相同。
  2. 越大越好 (主要地) : 像 GPT-4o 和 Qwen2.5-32B 这样较大的模型通常表现出比小模型更好的稳定性 (更低的 C-AvgCV) ,但它们并不完美。
  3. 没有标准的“不确定性语言”: 模型目前在其内部概率和人类语言之间不具备通用的、稳定的映射。

论文的结论是,虽然大语言模型越来越聪明,但它们传达自身局限性的能力仍然存在缺陷。要实现值得信赖的 AI,需要新的对齐技术,专门针对这些认知标记的一致性,确保当 AI 说“我知道”时,它是真的知道。