这一代的大语言模型 (LLM) 令人印象深刻。它们可以写诗、调试代码,还能总结复杂的历史事件。然而,任何深度使用过 ChatGPT 或 Claude 等工具的人都知道,它们存在一个特定且顽固的缺陷: 过度自信 。
当 LLM 面对模棱两可的指令或缺乏解决问题所需的必要上下文时,它很少会停下来问: “我不确定,你能澄清一下吗?”相反,它通常会进行猜测,给出一个自信但错误的答案——这种现象通常被称为“幻觉”。
这种行为在高精度的任务中尤其成问题,比如 Text-to-SQL (文本转 SQL) ,业务用户可能会用自然语言向数据库提问。如果模型误解了数据库架构或用户的意图,它可能会生成一个看起来有效但返回错误数据的 SQL 查询。信任 AI 的用户可能会基于错误的数据做出关键的业务决策。
那么,我们该如何解决这个问题?一种方法是简单地让模型变得更聪明。但最近一篇题为 “I Need Help! Evaluating LLM’s Ability to Ask for Users’ Support” (《我需要帮助!评估 LLM 寻求用户支持的能力》) 的研究论文提出了一种更具代理 (agentic) 特性的方法: 如果我们教模型识别自己的不确定性并向用户寻求帮助,会怎么样?
本文将探讨研究人员如何评估 LLM 的“主动寻求支持”能力,用于衡量成功的指标,以及关于哪些模型真正具备足够的自我意识来承认自己不知道答案的惊人发现。
核心问题: 准确性与打扰度之间的权衡
研究人员围绕一个基本的权衡问题构建了他们的研究。
- 性能提升 (Performance Improvement): 如果模型寻求帮助 (例如,“你指的是第一季度还是第二季度的收入?”) ,它更有可能生成正确的答案。
- 用户负担 (User Burden): 如果模型寻求帮助过于频繁,它就会变得烦人且低效。一个对每个提示都提出质疑的系统是毫无用处的。
目标是找到“金发姑娘区域” (Goldilocks zone,即恰到好处的状态) : 模型只应在它很可能出错,并且这种帮助确实能解决问题时才寻求帮助。
案例研究: Text-to-SQL
研究人员选择 Text-to-SQL 生成作为他们的测试领域。这是一个理想的领域,原因有三:
- 现实世界的实用性: 非技术用户经常需要查询数据库。
- 歧义性: 自然语言查询通常是模糊的 (例如,“显示顶级客户”可能意味着按销售额、销量或频率排名的客户) 。
- 基准真相 (Ground Truth): 使用 BIRD 数据集,研究人员可以获得“黄金标准”的外部知识 (人工标注) ,这充当了模型请求的“支持”。
寻求帮助的三种策略
LLM 如何决定何时打断用户?该论文调查了三种截然不同的策略,区别在于模型在做出决定之前处理了多少信息。

如 Figure 1 所示,这三种方法是:
- 直接询问 (Direct Ask, DA): 模型查看数据库架构和用户的问题 (\(x\))。仅根据这些输入,它试图预测是否需要帮助。
- 先写后问 (Write then Ask, WA): 模型首先尝试编写 SQL 查询 (\(\hat{y}\))。然后,它回顾问题、架构以及自己生成的代码,以决定是否自信。
- 先执行后问 (Execute then Ask, EA): 这是最全面的方法。模型生成 SQL 查询并在数据库中执行它。然后,它审查执行结果 (\(\hat{r}\))——这可能是一条错误消息或一个可疑的空表——连同原始输入一起,以确定是否需要协助。
衡量权衡: Delta-负担曲线
为了科学地评估这些策略,作者开发了一个严谨的数学框架。他们需要衡量模型寻求帮助的频率与获得帮助后性能提升幅度之间的关系。
1. 衡量用户负担 (\(B\))
首先,他们定义了用户负担。这仅仅是模型停下来寻求帮助的查询占总查询的百分比。

这里,\(N_{ask}\) 是模型请求支持的次数,\(N\) 是测试实例的总数。1.0 的负担意味着模型对每个问题都寻求帮助。
2. 衡量性能提升 (\(\Delta\))
接下来,他们定义了性能增益,用 Delta (\(\Delta\)) 表示。这衡量了通过寻求帮助实现的净准确率增长。

在这个公式中:
- \(h\) 是评估函数 (SQL 是否正确执行了?) 。
- \(\hat{y}_{i,z}\) 是模型在获得帮助 (\(z\)) 后 的输出。
- \(\hat{y}_i\) 是模型在 没有 帮助时的输出。
本质上,这计算的是: (有帮助时的准确率) - (无帮助时的准确率) 。
3. Delta-负担曲线 (The Delta-Burden Curve, DBC)
通过改变“置信度阈值” (模型在寻求帮助前需要达到多不确定的程度) ,研究人员绘制了一条 Delta-负担曲线 。
这条曲线类似于机器学习中的 ROC 曲线。
- X 轴: 用户负担 (成本) 。
- Y 轴: Delta (收益) 。
一个完美的模型会拥有一条陡峭的曲线: 它能以极低的用户负担实现最大的性能提升,这意味着它只在那些原本会失败的特定难题上寻求帮助。
实验结果: 谁知道自己需要帮助?
研究人员使用这个框架测试了各种开源模型 (如 Llama-3, WizardCoder) 和闭源模型 (GPT-3.5, GPT-4) 。结果发人深省。
下方是 Delta-负担曲线下面积 (AUDBC) 表。数字越高表示权衡策略越好。

关键发现 1: 没有执行结果,大多数 LLM 都是盲目的
查看 WizardCoder、Llama3 和 DeepSeek 的列。在“直接询问 (Direct Ask)”和“先写后问 (Write then Ask)”行中,它们的分数通常 低于 0.5000 。
由于 0.5000 代表随机基准 (随机寻求帮助) ,这意味着 大多数 LLM 仅凭文本预测自身失败的能力比随机猜测还差 。 它们自信地犯错。它们写了一段 SQL,看着它,心想: “是的,这看起来很完美”,即使它是错的。
关键发现 2: “先执行后问”改变了游戏规则
先执行后问 (EA) 的行在几乎所有模型中都显示出最高分。
为什么?因为执行结果 (\(\hat{r}\)) 充当了现实检验。如果生成的 SQL 导致数据库崩溃或返回 NULL,模型会收到一个强烈的信号表明出了问题。这种外部反馈让模型“意识”到它需要帮助。
关键发现 3: GPT-4 更有自知之明
较大的闭源模型 (GPT-4 Turbo, GPT-4o) 表现明显更好。值得注意的是,即使使用“直接询问”或“先写后问”方法,它们也能取得优于随机的结果。这表明随着模型规模的扩大,它们对自己局限性有了更好的内部表征——这是一种初级的“不确定性校准”。
分析行为: 精确率、召回率和翻转率
为了理解 为什么 某些方法比其他方法更好,研究人员将这一过程分解为两种截然不同的能力:
- 识别 (Identification): 知道自己错了。
- 利用 (Utilization): 利用帮助来修正错误。
他们提出了三个额外的指标来分析这些能力。
询问的精确率 (\(P_{ask}\))
当模型寻求帮助时,它真的错了吗?如果模型在一个它本可以正确回答的问题上寻求帮助,那就是在浪费用户的时间。

询问的召回率 (\(R_{ask}\))
当模型 确实 错的时候,它记得寻求帮助吗?高召回率意味着模型捕捉到了大多数潜在的错误。

翻转率 (\(FR\))
这是一个关键指标。它衡量帮助的效率。如果模型寻求帮助,得到了帮助,但 仍然 答错了,那么这个请求就是徒劳的。翻转率衡量了模型在获得支持后成功将错误答案“翻转”为正确答案的频率。

可视化行为
让我们看看 GPT-3.5-Turbo 的性能曲线,以观察这些动态变化。

- 左图 (DBC): 绿线 (先执行后问) 远高于其他线。在任何给定的用户负担水平下,它都能提供最高的准确率增益。
- 中图 (Precision-Recall): “先写后问” (橙色) 和“直接询问” (蓝色) 方法表现挣扎。它们的精确率下降得很快。然而,“先执行后问”方法保持了较高的精确率。
- 右图 (Flip Rate): 这很有趣。“随机”基准 (虚线) 实际上有不错的翻转率——意味着如果你随机给模型提供帮助,它通常会改进。然而,“直接询问”方法 (蓝线) 的翻转率非常低。这表明,当模型困惑到使用 DA 寻求帮助时,它通常 非常 困惑,以至于即使有了帮助也解决不了问题。
关于“黑盒”模型呢?
这项研究的一个技术挑战是,计算这些曲线需要访问模型的“对数概率 (log probabilities)”——即模型分配给其 token 的原始数学置信度分数。
开源模型提供了这些数据。但是像 Claude (Anthropic) 或 Gemini (Google) 这样通常只能通过 API 访问且不提供对数概率的模型呢?
研究人员测试了一种 “语言化 (Verbalized)” 方法。他们简单地要求模型输出一个 0 到 1 之间的数字来表示其置信度 (例如,“Confidence: 0.85”) 。
结果 (论文中的 Table 3) 表明, 语言化置信度通常比使用内部对数概率更差 。 模型并不擅长明确陈述它们有多自信。然而,对于黑盒模型来说,这仍然是唯一可行的策略,而且对于像 Gemini 这样的模型,它的表现仍然优于随机猜测。
结论: 代理式 AI 的未来
这项研究凸显了 AI 代理进化的关键一步。对于一个 LLM 来说,要成为真正可靠的助手,它不能只是一个“万事通”。它必须谦逊。
研究证明:
- 上下文为王: 模型很难仅凭文本自我诊断错误。它们需要外部信号——比如看到代码执行失败——来触发寻求支持的行为。
- 执行很重要: “先执行后问”策略更优,因为它将模型的置信度建立在现实基础上,而不仅仅是语言概率。
- 成本与收益: 我们可以用数学模型来模拟 AI 的“打扰度”。未来的系统可以使用 Delta-负担曲线进行微调,以匹配特定用户对打扰的容忍度。
随着我们将 LLM 集成到更复杂的工作流中,像“先执行后问”这样的机制可能会成为标准。我们将不再盲目信任 AI 的输出,而是转向那些能够验证自己的工作、识别失败,并确切知道何时举手说 “我需要帮助” 的系统。
](https://deep-paper.org/en/paper/2407.14767/images/cover.png)