引言

如果你花过时间研究大型语言模型 (LLM) ,你可能遇到过“提示词脆弱性” (prompt brittleness) 带来的挫败感。你花了几个小时打磨出完美的指令,结果发现只是改了一个形容词或调整了示例的顺序,输出结果就发生了翻天覆地的变化。这种敏感性通常被视为一种缺陷,迫使工程师们为了解决特定任务而苦苦寻觅那唯一的“魔法提示词”。

但是,如果我们停止寻找那一个完美的提示词呢?如果 LLM 对不同指令的敏感性实际上是一个我们可以利用的特性呢?

这就是论文 “Improving Minimum Bayes Risk Decoding with Multi-Prompt” (通过多提示词改进最小贝叶斯风险解码) 背后的核心问题。研究人员提出了一种方法,不再依赖单一的“最佳”提示词,而是拥抱可能指令的多样性。通过从许多不同的提示词生成输出,并使用一种称为 最小贝叶斯风险 (Minimum Bayes Risk, MBR) 解码的统计共识方法,他们在代码生成、文本简化和机器翻译方面均取得了最先进的结果。

在这篇文章中,我们将剖析为什么标准解码方法无法捕捉 LLM 的全部潜力,多提示词 MBR (Multi-Prompt MBR) 的底层工作原理,以及为什么“提示词集成”可能是稳健文本生成的未来。

背景: 一味追求“最可能”的问题

要理解为什么这种新方法是必要的,我们需要先看看 LLM 通常是如何生成文本的。

最大似然 vs. 质量

当你向 LLM 提问时,标准的解码策略 (如贪婪搜索或集束搜索) 会试图找到概率最高的单词序列。其假设很简单: 高概率 = 高质量

然而,研究一再表明这一假设是有缺陷的。“最可能”的序列往往是通用的、重复的或简短的。它倾向于打安全牌。相反,类似人类的高质量文本通常包含令人惊讶的 (较低概率的) 词汇。

引入最小贝叶斯风险 (MBR) 解码

为了解决概率与质量之间的脱节,研究人员使用了 最小贝叶斯风险 (MBR) 解码

MBR 不是要求模型提供唯一最可能的句子,而是像一个民主过程一样运作:

  1. 采样 (Sample) : 模型生成大量的候选句子列表 (假设) 。
  2. 比较 (Compare) : 使用特定的效用指标 (如 BERTScore 或 COMET) 将每个候选句与其他所有候选句进行比较。
  3. 选择 (Select) : 选择与所有其他候选句最“相似”的那个——即出错风险最小的那个——作为赢家。

在数学上,MBR 选择针对候选分布最大化预期效用的输出 \(\hat{y}\):

Equation for MBR Decoding.

这里,\(\mathcal{H}\) 是假设集 (候选集) ,\(U(y, \mathcal{R})\) 代表将候选 \(y\) 与参考集 \(\mathcal{R}\) (通常就是假设集本身) 进行比较的效用函数。

简单来说: 标准解码寻找概率分布的众数。MBR 寻找语义分布的共识。

单提示词 MBR 的局限性

标准 MBR 虽然强大,但有一个瓶颈: 候选集 。 通常,要从单个提示词获得多样化的候选集,你必须增加采样的“温度” (随机性) 。

然而,高温会引入噪声。当你调高温度时,模型为了追求“多样性”开始犯错或产生幻觉。你实际上是在用质量换取多样性。这正是作者的贡献改变游戏规则的地方。

核心方法: 多提示词 MBR

研究人员提出了 多提示词 MBR (Multi-Prompt MBR) 。 与其通过在单个提示词上进行高温随机采样来强行获取多样性,他们通过要求模型使用许多不同的提示词来完成任务,从而生成多样性。

直觉

这里的直觉非常迷人: 不同的提示词引导模型进入输出空间的不同“模式” (区域) 。

  • 提示词 A 可能鼓励模型简洁。
  • 提示词 B 可能鼓励模型使用正式语言。
  • 提示词 C 可能侧重于结构简化。

每个提示词都会产生一个有效且高质量的答案分布。通过将它们结合起来,你会得到一个“超分布”,它比任何单一提示词覆盖的范围都要广。

Figure 2: Multi-prompt MBR generates candidates using a human- or model-written prompt bank and selects the highest pairwise score with a trained value metric.

图 2 所示,该过程非常直观:

  1. 提示词库: 为同一任务创建不同提示词的集合。
  2. 生成: 将所有提示词输入 LLM,生成海量的候选集 (\(\{y_1, y_2, ..., y_n\}\))。
  3. 打分: 使用效用指标 (如 COMET 或 LENS) 计算所有候选之间的相似度矩阵。
  4. 排名: 选择平均相似度得分最高的候选。

这产生了一个假设集,它是所有单个提示词输出的并集:

Equation for the union of hypothesis sets.

为什么“提示词多样性”优于“采样噪声”

作者证明,改变提示词是一种比单纯增加随机性更安全的获取多样化答案的方法。

请看下面的 图 3

Figure 3: Comparisons of LENS score and sequence probability for text simplification. Comparison of single vs multi-prompt distributions.

图表 (a) 中,观察顶行 (单提示词) 和底行 (多提示词) 的区别。

  • 单提示词 (顶行) : 当你增加温度 (\(\tau\)) 时,候选虽然分散开来 (多样性增加) ,但许多候选漂移到了低质量区域 (黄色/绿色点) 。
  • 多提示词 (底行) : 即使在低温度 (\(\tau=0\)) 下,使用不同的提示词也能自然地找到高质量输出的不同聚类。

图表 (c) 特别能说明问题。它显示虽然单个提示词的质量参差不齐 (有些很好,有些平庸) ,但 多提示词 集成 (蓝色条) 的表现优于甚至最好的单一提示词。

这证实了假设: 多样化视角的共识比单一最聪明视角更明智。

构建提示词库

你可能会问: “我去哪里找 100 个针对同一任务的不同提示词?”作者使用了一种半自动化的方法。

  1. 种子提示词: 人类编写一小组指令 (例如 10 个提示词) 。
  2. 改写: 使用强大的模型 (如 GPT-4) 将这些指令改写成许多变体。

提示词选择策略

一旦你有了一个提示词库,你不一定非要盲目地使用所有提示词。论文研究了在推理时选择使用哪些提示词的两种主要方法:

  1. 提示词选择 (启发式) : 根据语义距离 (以确保多样性) 或测试集上的准确率等属性,选择一个固定的子集。
  2. 提示词采样 (概率式) : 基于提示词在训练集上产生获胜候选的频率,学习提示词的概率分布。

作者提出了一种 Top-p 提示词采样 方法。他们计算提示词有用的概率 \(p(\rho)\),并截断分布以移除那些从不起作用的“坏”提示词:

Equation for Top-p Prompt Sampling. Equation for renormalizing prompt probabilities.

这确保了系统将计算资源集中在统计上可能产生高质量候选的提示词上。

实验与结果

作者使用各种开源 LLM (Llama 2, ALMA, CodeLlama) 在三个不同的任务上测试了这种方法:

  1. 代码生成 (HumanEval)
  2. 文本简化 (SimpEval)
  3. 机器翻译 (WMT ‘22)

1. 多提示词是否优于单提示词?

毫无疑问,是的。

Figure 1: Multi-prompt and single prompt MBR results for code generation, text simplification, and translation.

图 1 显示了随着候选数量增加的表现。

  • 蓝线 (多提示词) : 始终高于红线。
  • 收益递减: 注意对于代码生成 (左图) ,差距保持很大。对于翻译 (右图) ,差距较窄,这可能是因为翻译模型已经非常强大,改进空间较小。

2. 候选多样性重要吗?

作者调查了改进是否真的归功于多样性。

Figure 4: Candidate set diversity and LENS scores on SIMPEVAL.

图 4 绘制了“新颖二元组 (Novel Bigrams) ” (多样性的代理指标) 与温度的关系。

  • 左图: 在相同温度下,多提示词 (蓝色) 产生的新颖二元组明显多于单提示词 (红色) 。
  • 右图: 这种多样性与更高的 LENS 分数 (质量) 直接相关。

这证明了多提示词允许我们在 低温度下保持高多样性 , 避免了通常与高温采样相关的质量下降。

3. 提示词采样策略的影响

我们 如何 挑选提示词重要吗?数据表明确实重要。

Table 1: Results for prompt sampling and selection strategies.

表 1 比较了不同的策略。关键结论是 Top-p 提示词采样 (上部分最后一行) 始终产生最好的结果。它击败了随机选择,证明并非所有提示词都是平等的——我们应该偏向那些历史上表现良好的提示词,同时保持足够的多样性以使 MBR 共识发挥作用。

4. 跨模型扩展

人们可能会假设这种技术只是小型、较弱模型的拐杖。然而,实验显示即使模型规模增加,收益依然持续。

Figure 5: Delta metric improvement from single prompt to multi-prompt across model sizes.

图 5 显示了切换到多提示词获得的 改进 (\(\Delta\))。

  • 代码生成 (上图) : 所有模型规模都有巨大收益。
  • 交叉效应: 一个迷人的发现 (详见论文完整结果) 是, 使用多提示词的小型模型往往优于使用单提示词的大型模型 。 例如,使用多提示词的 13B 模型可以击败使用标准解码的 70B 模型。这对部署效率具有巨大的意义——如果你能智能地解码,你也许可以使用更便宜的模型。

以下是针对不同特定模型的绝对性能的详细观察:

Figure 10: Results of multi-prompt MBR compared to single prompt MBR across model sizes and architectures.

图 10 进一步证实,对于测试的几乎每种模型架构,从 Llama 2 到专门的 CodeLlama 模型,蓝线 (多提示词) 都位于单提示词基线之上。

5. 高效的替代方案

MBR 房间里的“大象” (显而易见的问题) 是成本。将每个候选与所有其他候选进行比较在计算上是昂贵的 (\(O(n^2)\) 复杂度) 。

作者探索了“无参考重排序” (Reference-Free Reranking) 作为一种更便宜的替代方案 (\(O(n)\)) 。在这种设置中,单独的模型为每个候选打分,而不是让它们相互比较。

Figure 6: Alternative MBR formulations for multi-prompt across candidate set sizes.

图 6 显示了混合的结果:

  • 翻译 (右图) : 简单的重排序器 (绿线) 几乎和全量 MBR 一样好。
  • 代码生成 (左图) : 全量 MBR (蓝线) 明显更好。
  • 简化 (中图) : 混合方法 (“多轮 MBR”) 效果最好。

这表明虽然多提示词很强大,但最佳的选择机制取决于具体任务。

与集束搜索和 Oracle 的比较

为了严格验证该方法,作者将多提示词 MBR 与集束搜索 (Beam Search) 基线和“Oracle” (如果我们能完美地从集合中选出最佳候选的理论上限) 进行了比较。

Figure 7: Multi-prompt, single prompt and beam search MBR decoding performance.

图 7 很有启发性:

  • 集束搜索 (黑色菱形) : 与 MBR 方法相比表现不佳,这加强了行业在开放式生成任务中远离集束搜索的趋势。
  • Oracle (灰色圆形) : 注意对于代码生成 (左图) 和翻译 (右图) ,多提示词方法 (蓝色) 实际上比单提示词方法更接近 Oracle 的表现。这表明多提示词不仅仅是生成 更多 选项;它正在生成 更好 的选项,只需要被选出来。

结论与启示

“Improving Minimum Bayes Risk Decoding with Multi-Prompt” 这篇论文提出的研究为从“提示工程”迈向 “提示集成” 提供了令人信服的论据。

关键要点:

  1. 不要把赌注押在一个提示词上: 即使是最好的人类编写的提示词也不太可能捕捉到正确答案的完整分布。
  2. 多样性即质量: 通过改变指令,我们利用了模型的不同能力,创造了更丰富的候选池。
  3. MBR 是过滤器: 多提示词生成是大海捞针中的“大海”;MBR 是找到针的磁铁。
  4. 以小博大: 这种技术允许较小的开源模型与更大的模型 (甚至在某些指标上与 GPT-4 这样的闭源巨头) 相抗衡。

随着 LLM 继续整合到关键工作流中,像多提示词 MBR 这样的技术对于用少量推理时间换取显著更高的可靠性和质量将至关重要。也许我们不应该寻找控制 AI 的完美咒语,而应该要求它以多种不同的方式解决问题——并相信共识的力量。