言之有物：利用感知歧义性教导 LLM 提出澄清性问题

自信陷阱

想象一下你问一位朋友: “谁赢得了冠军？”

如果你的朋友是个网球狂热粉，他们可能会立刻说: “诺瓦克·德约科维奇。”如果他们喜欢高尔夫，可能会说: “斯科蒂·舍夫勒。”但如果他们对所有领域都略知一二，他们会停顿一下，然后问你: “你指的是哪项运动，哪一年的冠军？”

这种停顿就是智慧，是对歧义性的识别。

大型语言模型 (LLMs) 在这一点上是出了名的糟糕。由于被训练来预测下一个最可能的 token，它们往往将流畅性置于准确性之上。当面对像“谁赢得了冠军？”这样模糊的查询时，LLM 在统计上倾向于选择训练数据中最热门的实体，并将其作为绝对事实呈现出来。它掉入了一个“自信陷阱”，针对一个笼统的问题“幻觉”出了一个具体的答案。

对于闲聊来说，这只是个怪癖。但对于法律、医疗或助理代理来说，这是一种故障模式。

在这篇文章中，我们将深入探讨一篇引人入胜的论文，题为 “Aligning Language Models to Explicitly Handle Ambiguity” (将语言模型对齐以显式处理歧义) 。研究人员提出了一种名为 APA (Alignment with Perceived Ambiguity，感知歧义性对齐) 的新颖管道。与其强迫模型死记硬背人类标记的歧义问题，他们教导模型根据自身的内部知识识别它何时感到困惑，然后要求用户进行澄清。

歧义的主观性

要理解为什么这个问题很难解决，我们必须认识到，歧义不仅关乎句子中的词语；它关乎这些词语与听者知识之间的关系。

这就是作者所说的 感知歧义性 (Perceived Ambiguity) 。

以此为例。查询是“UGA 上一次赢得全国冠军是什么时候？”

图 1: 两个模型内在知识的比较。模型 A 拥有多样化的知识 (网球、高尔夫、棒球) 并感知到了歧义。模型 B 知识有限 (只有网球) ，认为该查询没有歧义。

如上方的 图 1 所示，对歧义的感知完全取决于模型知道什么 (即它的“模型内在知识”) :

模型 A (左) : 知道 UGA 的网球、高尔夫和棒球队。对模型 A 来说，这个问题有歧义，因为它对应多个有效答案。正确的行为是要求澄清。
模型 B (右) : 只知道网球队。对模型 B 来说，这是一个有着单一答案的直截了当的问题。它实际上“不知道自己不知道什么”。

解决这个问题的标准方法通常涉及使用数据集进行“有监督微调” (SFT) ，在这些数据集中，人类将问题标记为“有歧义”。然而，这种方法未能考虑到模型的视角。如果我们因为模型 B 回答“2019 (网球) ”而惩罚它——尽管它诚实地不知道还有其他运动存在——我们可能会破坏它的自信心或破坏其推理能力。

这篇论文的核心洞察是: 我们应该根据模型感知的歧义来进行对齐，而不仅仅是根据人类感知的歧义。

APA 方法论

研究人员提出了 感知歧义性对齐 (APA) 。这是一个四阶段的管道，旨在检测模型的内部知识何时与查询发生冲突，然后训练模型处理这些特定情况。

让我们看看这个高层流程:

图 2: APA 的整体流程。阶段 1 识别不正确的样本。阶段 2 进行去歧义并测量信息增益。阶段 3 生成澄清请求。阶段 4 执行有监督微调。

阶段 1: 初始预测评估

首先，研究人员在标准的问答 (QA) 数据集上运行模型。他们寻找“不正确”的样本。

为什么要关注不正确的样本？如果模型已经能够正确且清晰地回答一个问题，我们就不应该去干扰它。我们要保留模型现有的能力。对齐的目标候选者是模型目前回答失败的问题——通常是因为它在对模糊的查询进行猜测。

阶段 2: 感知歧义性检测

这是论文中技术上最新颖的部分。我们如何在一个模型无法直接告诉我们的情况下，测量它是否“感知”到了歧义？

作者使用了一个名为 自我去歧义 (Self-Disambiguation) 的代理任务。他们要求模型利用其自身的知识将模糊的查询重写为具体的查询。

例如:

输入 (\(x\)): “How many pages in a brave new world?” (《美丽新世界》有多少页？)
去歧义 (\(\hat{x}_{\text{disambig}}\)): “How many pages in the 1932 edition of the book brave new world by Aldous Huxley?”( 奥尔德斯·赫胥黎所著的《美丽新世界》 1932 年版有多少页？)

如果模型添加了大量具体细节 (如年份和作者) ，这暗示模型知道需要缩小范围。为了量化这一点，研究人员使用了源自熵的 信息增益 (INFOGAIN) 。

直觉背后的数学

首先，他们计算模型输出分布的 熵 (Entropy, \(\mathcal{H}\)) 。熵本质上衡量的是模型用词的不确定性或“随机性”。

公式 1: 特定 token 位置的输出分布熵。

他们将整个句子的熵取平均值，得到查询 (\(x\)) 的熵:

公式 2: 句子 x 的平均熵。

最后，他们计算 INFOGAIN 。这是原始模糊问题的熵与新的、自我去歧义问题的熵之间的差值。

公式 3: INFOGAIN 是原始查询的熵与去歧义查询的熵之差。

逻辑如下:

如果一个查询对模型来说有歧义，模型就是“不确定”的，所以 \(x\) 的熵很高。
当模型强迫自己具体化 (去歧义) 时，新的查询 \(\hat{x}_{\text{disambig}}\) 变得非常精确，因此其熵会下降。
因此, 高 INFOGAIN 表明模型将原始输入感知为有歧义。

阶段 3: 响应构建

一旦系统识别出一个模糊查询 (即 INFOGAIN > 阈值) ，就需要教导模型该说什么，而不是产生幻觉。

作者探索了两种标签 (\(y_{\text{clarify}}\)) 策略:

固定响应: 训练模型说一句套话，如“The question is ambiguous. Please clarify.” (问题有歧义，请澄清。)
生成式响应: 提示模型解释为什么有歧义。例如: “Your question is ambiguous. Which edition of the book are you interested in?” (你的问题有歧义。你对该书的哪个版本感兴趣？)

阶段 4: 有监督微调 (SFT)

最后，对模型进行微调。训练数据包括:

正确数据集 (\(D_{\text{correct}}\)): 模型已经能答对的问题 (以防止遗忘) 。
歧义数据集 (\(D_{\text{ambig}}\)): 在阶段 2 中识别出的样本，配对阶段 3 中的澄清响应。

训练目标是标准的语言建模 (最小化负对数似然) :

公式 4: 有监督微调的损失函数。

定义成功: 预测的象限

在查看结果之前，我们需要理解作者如何评估成功。标准的准确率在这里不适用，因为“我不知道”有时是正确答案，有时则是错误的。

他们在 图 3 中可视化了可能的结果:

图 3: 展示 5 种可能结果的矩阵。左上角 (1) 是针对歧义查询的正确澄清请求。左下角 (3) 是针对无歧义查询的正确预测。所有其他象限均为错误。

APA 方法的目标是最大化:

象限 ①: 当查询确实有歧义时，要求澄清。
象限 ③: 当查询清晰时，正确回答。

至关重要的是，我们要避免 象限 ⑤ , 即模型变得过于胆小，以至于对非常清晰的问题也要求澄清。

有效吗？实验结果

研究人员在多个数据集上测试了 APA，包括 AmbigQA、SituatedQA (专注于时间/地点歧义) 以及他们构建的三个新数据集 (AmbigTriviaQA 等) 。他们将 APA 与直接提示 (直接要求模型回答) 和“Self-Ask” (提示模型自问是否有歧义) 等基准方法进行了比较。

1. APA 优于基准方法

结果表明，APA 在针对歧义和无歧义查询的 F1 分数上均一致取得了更高的成绩。它能够“唤醒”模型去注意标准提示所忽略的歧义。

2. 跨阈值的鲁棒性

人们可能会担心性能是否严重依赖于用于判定 INFOGAIN 是否足够高以算作歧义的“阈值” (\(\epsilon\)) 。

图 5: 显示不同阈值下歧义检测 F1 分数的折线图。APA (红线和绿线) 始终优于基准方法 (橙线和蓝线) 。

正如 图 5 所示，无论阈值如何，APA (由红线和绿线表示) 始终优于其他数据选择方法 (如基于原始熵选择样本，以橙色显示) 。这表明 INFOGAIN 是一个非常稳定且可靠的信号，用于检测感知到的歧义。

3. 防止“错位的澄清请求”

教导 AI 提问的一个主要风险是它变得令人讨厌。当你问“埃菲尔铁塔在哪里？”时，它可能会问“哪个巴黎？”，尽管 99.9% 的人都指的是法国巴黎。

这种错误通过 MCR (Misaligned Clarification Request，错位澄清请求) 率 来衡量。

图 4: 显示 MCR 率的柱状图。APA (红色和紫色柱) 在各数据集中具有最低的 MCR，表明它没有丧失回答清晰问题的能力。

图 4 突显了 APA 的一个关键胜利。红色和紫色柱 (APA 方法) 显著低于绿色柱 (全集训练) 。

全集 (Full-Set) 训练意味着使用所有人类标记的歧义数据进行训练。这会混淆模型，迫使它针对自己实际上非常了解的话题提问，导致高 MCR。
APA 过滤了数据，使得模型只学习在需要的时候提问，从而保持低 MCR。

为什么数据选择是关键

这篇论文中最有趣的发现可能在于 以数据为中心的 AI (Data-Centric AI) 。事实证明，简单地给模型投喂更多数据 (真实标签) 比根据其自身的困惑投喂筛选后的数据效果更差。

图 6: 数据选择策略的图示。高 INFOGAIN (右侧) 与歧义相关。APA 选择 INFOGAIN 最高的样本，而不管真实标签如何。

图 6 展示了选择策略。

蓝色条柱 是真实标签为有歧义的样本。
绿色条柱 是真实标签为无歧义的样本。
X 轴 是 INFOGAIN (模型的困惑度) 。

大多数基准方法 (如 RAND 或 MAX) 尝试仅从蓝色条柱中进行选择。然而, APA 选择的是具有最高 INFOGAIN 的样本 (图的最右侧) ，无论它们是蓝色还是绿色。

如果一个样本是“绿色”的 (技术上对人类来说无歧义) ，但具有高 INFOGAIN，这意味着模型对此感到困惑。APA 将其包含在训练中。这有助于将模型的行为与其真实的内部状态对齐，而不是强加一个与模型知识能力不匹配的外部人类标准。

结论与启示

这篇关于“感知歧义性对齐” (APA) 的论文为使 LLM 成为可靠的代理迈出了重要一步。通过承认歧义是主观的——即问题与认知者之间的关系——研究人员创造了一种让模型更加诚实的方法。

给学生和从业者的主要收获:

不要相信模型的自信: 如果没有对齐，模型会自信地通过猜测来回答歧义问题。
主观性很重要: 知识较少的模型感知到的歧义也较少。你不能用与“大”模型相同的歧义标签来训练“小”模型。
自知之明很强大: 利用模型自身的熵和自我去歧义作为信号 (INFOGAIN) ，比仅依赖外部标签更有效。

当我们迈向能够预订航班、提供法律建议或诊断医疗问题的代理时，能够说出“我不确定，你能澄清一下吗？”这可能是我们能构建的最重要的功能。APA 为如何实现这一目标提供了一个稳健的蓝图。

自信陷阱#

歧义的主观性#

APA 方法论#

阶段 1: 初始预测评估#

阶段 2: 感知歧义性检测#

直觉背后的数学#

阶段 3: 响应构建#

阶段 4: 有监督微调 (SFT)#

定义成功: 预测的象限#

有效吗？实验结果#

1. APA 优于基准方法#

2. 跨阈值的鲁棒性#

3. 防止“错位的澄清请求”#

为什么数据选择是关键#

结论与启示#