自信陷阱

想象一下你问一位朋友: “谁赢得了冠军?”

如果你的朋友是个网球狂热粉,他们可能会立刻说: “诺瓦克·德约科维奇。”如果他们喜欢高尔夫,可能会说: “斯科蒂·舍夫勒。”但如果他们对所有领域都略知一二,他们会停顿一下,然后问你: “你指的是哪项运动,哪一年的冠军?”

这种停顿就是智慧,是对歧义性的识别。

大型语言模型 (LLMs) 在这一点上是出了名的糟糕。由于被训练来预测下一个最可能的 token,它们往往将流畅性置于准确性之上。当面对像“谁赢得了冠军?”这样模糊的查询时,LLM 在统计上倾向于选择训练数据中最热门的实体,并将其作为绝对事实呈现出来。它掉入了一个“自信陷阱”,针对一个笼统的问题“幻觉”出了一个具体的答案。

对于闲聊来说,这只是个怪癖。但对于法律、医疗或助理代理来说,这是一种故障模式。

在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 “Aligning Language Models to Explicitly Handle Ambiguity” (将语言模型对齐以显式处理歧义) 。研究人员提出了一种名为 APA (Alignment with Perceived Ambiguity,感知歧义性对齐) 的新颖管道。与其强迫模型死记硬背人类标记的歧义问题,他们教导模型根据自身的内部知识识别何时感到困惑,然后要求用户进行澄清。

歧义的主观性

要理解为什么这个问题很难解决,我们必须认识到,歧义不仅关乎句子中的词语;它关乎这些词语与听者知识之间的关系。

这就是作者所说的 感知歧义性 (Perceived Ambiguity)

以此为例。查询是“UGA 上一次赢得全国冠军是什么时候?”

图 1: 两个模型内在知识的比较。模型 A 拥有多样化的知识 (网球、高尔夫、棒球) 并感知到了歧义。模型 B 知识有限 (只有网球) ,认为该查询没有歧义。

如上方的 图 1 所示,对歧义的感知完全取决于模型知道什么 (即它的“模型内在知识”) :

  • 模型 A (左) : 知道 UGA 的网球、高尔夫和棒球队。对模型 A 来说,这个问题有歧义,因为它对应多个有效答案。正确的行为是要求澄清。
  • 模型 B (右) : 只知道网球队。对模型 B 来说,这是一个有着单一答案的直截了当的问题。它实际上“不知道自己不知道什么”。

解决这个问题的标准方法通常涉及使用数据集进行“有监督微调” (SFT) ,在这些数据集中,人类将问题标记为“有歧义”。然而,这种方法未能考虑到模型的视角。如果我们因为模型 B 回答“2019 (网球) ”而惩罚它——尽管它诚实地不知道还有其他运动存在——我们可能会破坏它的自信心或破坏其推理能力。

这篇论文的核心洞察是: 我们应该根据模型感知的歧义来进行对齐,而不仅仅是根据人类感知的歧义。

APA 方法论

研究人员提出了 感知歧义性对齐 (APA) 。 这是一个四阶段的管道,旨在检测模型的内部知识何时与查询发生冲突,然后训练模型处理这些特定情况。

让我们看看这个高层流程:

图 2: APA 的整体流程。阶段 1 识别不正确的样本。阶段 2 进行去歧义并测量信息增益。阶段 3 生成澄清请求。阶段 4 执行有监督微调。

阶段 1: 初始预测评估

首先,研究人员在标准的问答 (QA) 数据集上运行模型。他们寻找“不正确”的样本。

为什么要关注不正确的样本?如果模型已经能够正确且清晰地回答一个问题,我们就不应该去干扰它。我们要保留模型现有的能力。对齐的目标候选者是模型目前回答失败的问题——通常是因为它在对模糊的查询进行猜测。

阶段 2: 感知歧义性检测

这是论文中技术上最新颖的部分。我们如何在一个模型无法直接告诉我们的情况下,测量它是否“感知”到了歧义?

作者使用了一个名为 自我去歧义 (Self-Disambiguation) 的代理任务。他们要求模型利用其自身的知识将模糊的查询重写为具体的查询。

例如:

  • 输入 (\(x\)): “How many pages in a brave new world?” (《美丽新世界》有多少页?)
  • 去歧义 (\(\hat{x}_{\text{disambig}}\)): “How many pages in the 1932 edition of the book brave new world by Aldous Huxley?”( 奥尔德斯·赫胥黎所著的《美丽新世界》 1932 年版有多少页?)

如果模型添加了大量具体细节 (如年份和作者) ,这暗示模型知道需要缩小范围。为了量化这一点,研究人员使用了源自熵的 信息增益 (INFOGAIN)

直觉背后的数学

首先,他们计算模型输出分布的 熵 (Entropy, \(\mathcal{H}\)) 。 熵本质上衡量的是模型用词的不确定性或“随机性”。

公式 1: 特定 token 位置的输出分布熵。

他们将整个句子的熵取平均值,得到查询 (\(x\)) 的熵:

公式 2: 句子 x 的平均熵。

最后,他们计算 INFOGAIN 。 这是原始模糊问题的熵与新的、自我去歧义问题的熵之间的差值。

公式 3: INFOGAIN 是原始查询的熵与去歧义查询的熵之差。

逻辑如下:

  1. 如果一个查询对模型来说有歧义,模型就是“不确定”的,所以 \(x\) 的熵很高。
  2. 当模型强迫自己具体化 (去歧义) 时,新的查询 \(\hat{x}_{\text{disambig}}\) 变得非常精确,因此其熵会下降。
  3. 因此, 高 INFOGAIN 表明模型将原始输入感知为有歧义。

阶段 3: 响应构建

一旦系统识别出一个模糊查询 (即 INFOGAIN > 阈值) ,就需要教导模型该说什么,而不是产生幻觉。

作者探索了两种标签 (\(y_{\text{clarify}}\)) 策略:

  1. 固定响应: 训练模型说一句套话,如“The question is ambiguous. Please clarify.” (问题有歧义,请澄清。)
  2. 生成式响应: 提示模型解释为什么有歧义。例如: “Your question is ambiguous. Which edition of the book are you interested in?” (你的问题有歧义。你对该书的哪个版本感兴趣?)

阶段 4: 有监督微调 (SFT)

最后,对模型进行微调。训练数据包括:

  1. 正确数据集 (\(D_{\text{correct}}\)): 模型已经能答对的问题 (以防止遗忘) 。
  2. 歧义数据集 (\(D_{\text{ambig}}\)): 在阶段 2 中识别出的样本,配对阶段 3 中的澄清响应。

训练目标是标准的语言建模 (最小化负对数似然) :

公式 4: 有监督微调的损失函数。

定义成功: 预测的象限

在查看结果之前,我们需要理解作者如何评估成功。标准的准确率在这里不适用,因为“我不知道”有时是正确答案,有时则是错误的。

他们在 图 3 中可视化了可能的结果:

图 3: 展示 5 种可能结果的矩阵。左上角 (1) 是针对歧义查询的正确澄清请求。左下角 (3) 是针对无歧义查询的正确预测。所有其他象限均为错误。

APA 方法的目标是最大化:

  • 象限 ①: 当查询确实有歧义时,要求澄清。
  • 象限 ③: 当查询清晰时,正确回答。

至关重要的是,我们要避免 象限 ⑤ , 即模型变得过于胆小,以至于对非常清晰的问题也要求澄清。

有效吗?实验结果

研究人员在多个数据集上测试了 APA,包括 AmbigQASituatedQA (专注于时间/地点歧义) 以及他们构建的三个新数据集 (AmbigTriviaQA 等) 。他们将 APA 与直接提示 (直接要求模型回答) 和“Self-Ask” (提示模型自问是否有歧义) 等基准方法进行了比较。

1. APA 优于基准方法

结果表明,APA 在针对歧义和无歧义查询的 F1 分数上均一致取得了更高的成绩。它能够“唤醒”模型去注意标准提示所忽略的歧义。

2. 跨阈值的鲁棒性

人们可能会担心性能是否严重依赖于用于判定 INFOGAIN 是否足够高以算作歧义的“阈值” (\(\epsilon\)) 。

图 5: 显示不同阈值下歧义检测 F1 分数的折线图。APA (红线和绿线) 始终优于基准方法 (橙线和蓝线) 。

正如 图 5 所示,无论阈值如何,APA (由红线和绿线表示) 始终优于其他数据选择方法 (如基于原始熵选择样本,以橙色显示) 。这表明 INFOGAIN 是一个非常稳定且可靠的信号,用于检测感知到的歧义。

3. 防止“错位的澄清请求”

教导 AI 提问的一个主要风险是它变得令人讨厌。当你问“埃菲尔铁塔在哪里?”时,它可能会问“哪个巴黎?”,尽管 99.9% 的人都指的是法国巴黎。

这种错误通过 MCR (Misaligned Clarification Request,错位澄清请求) 率 来衡量。

图 4: 显示 MCR 率的柱状图。APA (红色和紫色柱) 在各数据集中具有最低的 MCR,表明它没有丧失回答清晰问题的能力。

图 4 突显了 APA 的一个关键胜利。红色和紫色柱 (APA 方法) 显著低于绿色柱 (全集训练) 。

  • 全集 (Full-Set) 训练意味着使用所有人类标记的歧义数据进行训练。这会混淆模型,迫使它针对自己实际上非常了解的话题提问,导致高 MCR。
  • APA 过滤了数据,使得模型只学习在需要的时候提问,从而保持低 MCR。

为什么数据选择是关键

这篇论文中最有趣的发现可能在于 以数据为中心的 AI (Data-Centric AI) 。 事实证明,简单地给模型投喂更多数据 (真实标签) 比根据其自身的困惑投喂筛选后的数据效果更差。

图 6: 数据选择策略的图示。高 INFOGAIN (右侧) 与歧义相关。APA 选择 INFOGAIN 最高的样本,而不管真实标签如何。

图 6 展示了选择策略。

  • 蓝色条柱 是真实标签为有歧义的样本。
  • 绿色条柱 是真实标签为无歧义的样本。
  • X 轴 是 INFOGAIN (模型的困惑度) 。

大多数基准方法 (如 RAND 或 MAX) 尝试仅从蓝色条柱中进行选择。然而, APA 选择的是具有最高 INFOGAIN 的样本 (图的最右侧) ,无论它们是蓝色还是绿色。

如果一个样本是“绿色”的 (技术上对人类来说无歧义) ,但具有高 INFOGAIN,这意味着模型对此感到困惑。APA 将其包含在训练中。这有助于将模型的行为与其真实的内部状态对齐,而不是强加一个与模型知识能力不匹配的外部人类标准。

结论与启示

这篇关于“感知歧义性对齐” (APA) 的论文为使 LLM 成为可靠的代理迈出了重要一步。通过承认歧义是主观的——即问题与认知者之间的关系——研究人员创造了一种让模型更加诚实的方法。

给学生和从业者的主要收获:

  1. 不要相信模型的自信: 如果没有对齐,模型会自信地通过猜测来回答歧义问题。
  2. 主观性很重要: 知识较少的模型感知到的歧义也较少。你不能用与“大”模型相同的歧义标签来训练“小”模型。
  3. 自知之明很强大: 利用模型自身的熵和自我去歧义作为信号 (INFOGAIN) ,比仅依赖外部标签更有效。

当我们迈向能够预订航班、提供法律建议或诊断医疗问题的代理时,能够说出“我不确定,你能澄清一下吗?”这可能是我们能构建的最重要的功能。APA 为如何实现这一目标提供了一个稳健的蓝图。