如何在没有标准答案的情况下为 LLM 提示词打分: GLaPE 介绍
在大型语言模型 (LLM) 快速发展的世界里,寻找完美的提示词 (Prompt) 就像施展魔法一样。措辞上的细微变化——从“让我们一步步思考 (Let’s think step by step) ”变为“深呼吸,然后解决这个问题”——可能会极大地改变模型输出的准确性。
这种现象催生了提示词优化 (Prompt Optimization) , 即研究人员将 LLM 本身视为优化器,去寻找最佳指令。然而,这一过程中存在一个巨大的瓶颈: 金标 (Gold Labels,即标准答案) 。
传统上,要判断一个提示词是否“好”,你需要在已有答案 (金标) 的数据集上运行它。通过将 LLM 的输出与正确答案进行对比,计算准确率,并为提示词打分。但是,如果你想针对一个全新的任务优化提示词,而你手头并没有答案怎么办?如果你处理的是从未被标记过的私有数据呢?
这正是 《GLaPE: Gold Label-agnostic Prompt Evaluation for Large Language Models》 这篇引人入胜的新论文所解决的问题。研究人员提出了一种方法,可以在不需要任何标准答案的情况下评估和优化提示词。
问题所在: “金标”瓶颈
当前最先进的提示词优化方法,例如 OPRO (Optimization by PROmpting,通过提示进行优化) , 通常在一个循环中工作。它们生成一个提示词,在有已知答案的数据集上进行测试,计算准确率得分,然后要求 LLM 根据该得分生成更好的提示词。

如上图 Figure 1 所示,标准路径 (a) 严重依赖于将模型的输出与“金标答案 (Gold Label Answer) ”进行比较。如果模型回答“31”,而金标是“31”,提示词得分为 100。如果它回答“36”,则得分为 0。
但请看路径 (b)。这就是 GLaPE 方法。它尝试在不看答案的情况下为提示词分配质量分数 (例如 87.9 或 45.7) 。如果我们能可靠地计算这个分数,我们就可以针对数据未标记且混乱的现实场景优化提示词。
背景知识: 一致性的直觉
要理解 GLaPE 的工作原理,我们首先需要理解自洽性 (Self-Consistency, SC) 的概念。
在之前的研究 (Wang et al., 2022) 中提出的自洽性依赖于一个简单的直觉: 正确答案通常比错误答案更具一致性。
如果你问 LLM 一个复杂的数学问题一次,它可能会产生幻觉 (胡说八道) 。但如果你用同一个提示词问它同样的问题 10 次:
- 如果它回答“42”八次,“43”一次,“12”一次,那么答案很可能是 42。
- 这里的“一致性”就是 80% (或 0.8) 。
我们可以用数学公式将自洽性 (\(SC\)) 定义为最常见的答案 (\(a\)) 在多组采样回答 (\(r\)) 中出现的频率:

自洽性的缺陷
研究人员最初考虑直接使用这个 SC 分数作为准确率的代理指标。假设很简单: 产生高一致性答案的提示词就是更好的提示词。
然而,他们遇到了一个问题。 LLM 可能会自信地犯错。

Figure 3 展示了“SC-准确率图”。如果自洽性是准确率的完美代理,我们会看到一条笔直的对角线。相反,我们看到的是锯齿状、波动的混乱线条。
某些提示词 (如下文示例中的 Prompt 3) 可能会导致 LLM 一次又一次地输出错误的答案。SC 分数很高,但准确率为零。仅依靠 SC 会产生一个“盲区”,让我们高估了糟糕提示词的质量。
核心方法: GLaPE
为了解决这个问题,研究人员开发了 GLaPE (Gold Label-agnostic Prompt Evaluation,金标无关的提示词评估) 。 该方法结合了两个关键策略:
- 自洽性 (SC) 评估: 衡量单个提示词的稳定性。
- 互洽性 (Mutual-Consistency, MC) 修正: 检查不同的提示词是否彼此一致。
这就好比同行评审过程。如果一个学生 (Prompt A) 一直大喊错误的答案,他们可能看起来很自信 (高 SC) 。但如果其他五个学生 (Prompts B, C, D, E, F) 都一致同意一个不同的答案,我们就应该降低对 Prompt A 的信任度。
算法可视化
让我们用下面的示意图来拆解 GLaPE 的架构。

在 Figure 2 中,我们看到五个不同的提示词试图回答同一个关于“Oscar 的棒棒糖”的问题。
- Prompt 1 & 2 都得出了答案“31” (这是正确答案) 。Prompt 1 非常一致 (100%) ,而 Prompt 2 稍微有些波动 (70%) 。
- Prompt 3 得出了答案“36” (错误) 。但是,注意那个红色标记。它的 SC 高达 70% 。 如果我们只看 SC,我们会认为 Prompt 3 和 Prompt 2 一样好。
- Prompt 4 & 5 也得出了答案“36”,但一致性低得多 (40% 和 30%) 。
GLaPE 的目标是生成一个度量标准——一个最终分数——能识别出 Prompt 3 实际上很糟糕,尽管它的一致性很高。
修正的数学原理
GLaPE 通过最小化一个“损失函数” (\(L_{total}\)) 来计算每个提示词的最终得分 (\(f_i\)) 。这个损失函数由两部分组成。
第 1 部分: 自洽性损失 (\(L_{self}\))
首先,该方法试图保持最终得分接近原始的自洽性得分 (\(c_i\)) 。

这个公式简单来说就是: “最终得分 (\(f\)) 不应偏离原始一致性 (\(c\)) 太远。”
第 2 部分: 互洽性修正 (\(L_{refine}\))
这是“同行评审”机制。如果共享相同答案的提示词得分差异巨大,它就会惩罚该得分。

这里的逻辑微妙但强大。如果多个提示词产生相同的答案 (例如答案“36”) ,它们理想情况下应该具有相似的质量得分。
- 对于答案“36”,Prompt 3 的 SC 很高 (70%) ,但 Prompts 4 和 5 的 SC 很低 (40%,30%) 。该答案组的平均置信度较低。
- 因此,算法会将 Prompt 3 的分数拉低,以与其同伴 (Prompt 4 和 5) 保持一致。
- 相反,对于答案“31”,提示词的 SC 分别为 100% 和 70%。群体置信度高,所以分数保持在高位。
总计算
最终计算使用权重参数 (\(\alpha\),通常设为 0.5) 来平衡这两个目标。

一个计算示例
让我们看看 Figure 2 场景中的实际数字,看看数学是如何运作的。
首先,我们有原始的自洽性 (\(c\)) 值:

我们建立自洽性损失 , 以最小化我们的最终得分 (\(f\)) 与这些原始值之间的距离:

接下来,我们应用修正损失 。 这将根据提示词的答案对它们进行分组。
- Prompts 1 和 2 意见一致 (答案: 31) 。
- Prompts 3、4 和 5 意见一致 (答案: 36) 。
数学运算试图最小化这些组内分数之间的差异:

当我们结合这些并求解最小损失 (使用梯度下降) 时,我们得到最终的 GLaPE 得分 :

结果: 看看 \(f_3\) 。 它的原始一致性是 70.0,但它的 GLaPE 得分降到了 50.0 。 算法成功识别出 Prompt 3 是“盲目自信”的,因为它的同伴 (Prompt 4 和 5) 很难一致地得出同样的答案。与此同时,Prompt 1 保持在 87.9 的高分。
实验与结果
这种复杂的数学运算真的能产生更好的提示词吗?研究人员在 8 个广泛认可的推理任务上测试了 GLaPE,包括 GSM8K (数学) 、StrategyQA (常识) 和 Big-Bench Date。
性能对比
研究人员对比了使用 GLaPE (无金标) 优化的提示词与使用 OPRO (使用金标) 优化的提示词。

Table 3 显示了结果。“基于 GLaPE”的提示词获得的准确率得分非常接近,有时甚至超过了基线方法。
- 在 GSM8K 上,GLaPE 提示词达到了 77.7% 的准确率,击败了基线 (74.8%) 并超过了 OPRO 金标方法 (76.6%) 。
- 在 MultiArith 上,它达到了 99.3% , 实际上匹配了理论最大值。
这证实了即使不知道正确答案,我们也能有效地优化提示词。
与准确率更好的相关性
评估指标的终极测试是它与真实准确率的相关性有多好。

Table 4 对比了纯 SC 与 GLaPE 找到的最佳提示词。GLaPE 选择的提示词 (“After careful analysis, the conclusion is evident”) 产生了 77.7% 的准确率,而 SC 选择的提示词仅达到 75.1%。
此外,让我们再次看看相关性图表。

Figure 4 是这篇论文的“高光时刻”。
- Graph (a) 显示了原始 SC 与准确率的关系。它是充满噪声且不稳定的。
- Graph (b) 显示了 GLaPE 与准确率的关系。这是一种更紧密、线性的相关性。随着 GLaPE 得分的上升,实际准确率也可靠地上升。
跨模型的通用性
研究人员不仅局限于 GPT-3.5。他们还验证了 GLaPE 在 Mistral-7B、Llama3-8B 和 Gemma2-9B 等开源模型上的效果。

如 Table 5 所示,GLaPE 在这些模型上持续优于基线提示词,证明了该方法不仅仅适用于特定的某种架构。
结论与启示
GLaPE 论文为 LLM 的实际应用迈出了重要一步。通过消除对金标的依赖,提示工程从实验室环境 (我们拥有完美的测试数据) 走向了现实世界 (数据混乱且无标签) 。
该方法的核心创新——互洽性修正 (Mutual-Consistency Refinement) ——提供了一种强有力的方法来对 LLM 的自信度进行“事实核查”。它提醒我们,在没有标准答案的情况下, (不同提示词之间的) 共识往往是我们判断真理的最佳代理。
关于局限性的注记
作者诚实地指出,GLaPE 并非魔法。它依赖于一个假设: 正确答案通常比错误答案更一致。
- 在像 StrategyQA 这样的数据集中,存在 LLM 因固有的知识缺陷而在几乎所有提示词下都持续犯错的情况。
- 在这些“集体幻觉”场景中,GLaPE (甚至人类共识) 仍然可能被误导。
然而,对于绝大多数推理任务而言,GLaPE 为工程师和研究人员提供了一个强大的新工具: 能够在从未看过标准答案的情况下为考试打分的能力。
](https://deep-paper.org/en/paper/file-3126/images/cover.png)