在自然语言处理 (NLP) 飞速发展的今天,我们已经到了用人工智能来评估人工智能的阶段。大型语言模型 (LLM) 的能力已经非常强大,研究人员现在使用它们作为“裁判”来对机器翻译 (MT) 和文本摘要的质量进行评分。这就是所谓的基于 LLM 的评估。

然而,使用 LLM 作为裁判引入了一个新的变量: 提示词 (Prompt) 。 如果你让 ChatGPT “给这个翻译打分”,你得到的分数可能与你让它“作为一个专业翻译并评论这段文本”时得到的分数完全不同。这种可变性给科学严谨性带来了问题。哪种提示词才是“正确”的?不同的模型是否需要不同的提示策略?

在这篇文章中,我们将深入探讨 PrExMe (Metrics Prompt Exploration,指标提示探索) ,这是一项大规模的研究论文,系统地评估了超过 660 万个提示词,以了解开源 LLM 作为评估指标时的表现。我们将探索提示词的架构、模型之间的“性格”差异,以及提示工程令人惊讶的脆弱性。

问题所在: 提示词的“黑盒”

PrExMe 解决的核心问题是我们在为评估任务提示 LLM 时缺乏标准化。虽然像 GPT-4 这样的闭源模型已被广泛研究,但在易于获取和可复现研究中至关重要的开源模型,我们对它们的了解却知之甚少。

以前的基准测试通常只选择一个或少数几个提示词,并假设它们适用于所有模型。PrExMe 通过提出以下问题挑战了这一假设:

  1. 开源 LLM 真的能有效地评估文本生成吗?
  2. 是否存在适用于所有模型的通用“提示模式”?
  3. 这些评估有多稳定? 如果我们将输出从 1-100 的评分改为“好/坏”的标签,模型的判断会崩溃吗?

为了回答这些问题,研究人员设计了一个庞大的提示模板网格搜索。

方法论: 像搭乐高一样构建提示词

研究人员并没有单纯地编写 600 万个独特的句子。相反,他们开发了一个分层模板系统。可以把它想象成用乐高积木搭建提示词。通过交换不同的积木 (组件) ,他们可以生成成千上万种变体来进行系统测试。

图 1 所示,该方法围绕四个关键组件展开,这些组件循环组合形成一个完整的提示词:

  1. 数据 (Data) : 源文本和生成的假设 (即待评分的文本) 。
  2. 任务描述 (Task Description) : 给模型的指令。
  3. 基础提示词 (Base Prompt) : 结构框架 (例如,零样本或思维链) 。
  4. 格式提示词 (Format Prompt) : 模型应如何输出分数。

图 1: 我们的提示词探索方法示意图,展示了跨数据集、任务描述、输出格式和基础提示词的网格搜索。

让我们拆解这些“积木”,以理解实验的规模。

1. 基础提示词 (Base Prompt)

基础提示词充当骨架。研究人员测试了三种主要类型:

  • 朴素零样本 (PZS) : 直接要求对文本进行评分。
  • 零样本思维链 (ZS-CoT) : 要求模型在评分前“一步一步地思考”。这通常能提高复杂任务的推理能力。
  • 带情感的零样本思维链 (ZS-CoT-Emotion) : 一种新颖的方法,要求模型在一步一步思考之前“描述你的情绪”。

你可以在下方看到用于这些基础提示词的具体模板:

表 3: 零样本基础提示词模板

2. 任务描述与情感操纵 (The Task Description and Emotional Manipulation)

任务描述就是指令。在这里,研究人员尝试了一些有趣的东西: 情感提示 (Emotional Prompting)

最近的研究表明,当提示词包含情感刺激 (模仿人类的社会压力) 时,LLM 的表现会更好。除了中性的指令外,该研究还包括了以下“风味”:

  • 礼貌: “请判断质量……”
  • 威胁: “判断质量……否则我会删除你的程序代码。”
  • 绝望: “请帮帮我!我的老板需要我通过判断质量快速找到答案。否则,他可能会解雇我……”
  • 怀疑: “我对这个不太确定……”

这些变体使我们能够观察 LLM “裁判”是否容易受到可能影响人类的社会框架的影响。

表 5: 任务描述模板 (1/2)

3. 格式要求 (Format Requirement)

最后,模型需要知道如何对文本进行评分。这是提示工程中最关键但也最常被忽视的方面之一。该研究测试了 10 种不同的格式,从连续的量表 (0-100) 到离散的标签 (坏/中立/好) 。

表 4: 格式要求模板

通过混合搭配这些基础提示词、任务描述和格式要求,研究人员创建了爆炸式组合的提示词,并在 7 个不同的开源 LLM (包括基于 Llama-2 的模型、Platypus 和 Orca) 上进行了测试。

实验与表现

这项研究分两个阶段进行。第一阶段涉及在训练集上对所有 720 种模板组合进行大规模扫描。第二阶段选取表现最好的提示词,并在未见过的测试集 (WMT22、WMT23 和 SummEval) 上进行测试,以检查其泛化能力。

成功的主要衡量指标是 Kendall 相关系数 。 这衡量了 LLM 的排名与人类排名的匹配程度。如果 LLM 给人类也喜欢的翻译打了高分,相关性就很高。

哪个模型赢了?

在测试的开源模型中, PLATYPUS2-70B 表现最强。在机器翻译和摘要任务中,它始终与人类判断保持着最高的相关性。

然而,一个重要的发现是,专用指标 (如专门为评估训练的 XCOMET) 在机器翻译方面通常仍优于通用的 LLM。但在 摘要 方面,基于提示词的 LLM 往往优于基线。这表明,虽然 LLM 是很好的“全能”裁判,但专用工具在其特定领域仍具有优势。

LLM 的“性格”: 特有的偏好

PrExMe 最深刻的结论之一是,不同的模型有着截然不同的偏好。你不能简单地拿一个对 Llama-2 有效的提示词,就期望它对 Mistral 也有效。

文本 vs. 数字

有些模型喜欢像数学家一样行事,而另一些则更喜欢像语言学家一样。

  • OpenOrca-13B 强烈偏好 数值得分 (例如,-100 到 100) 。
  • Tower-13BLlama-3-70B 偏好输出 文本标签 (例如,“灾难性的”、“极好的”) 。

如果你看一下 OpenOrca 与 Tower 的最佳表现提示词的分布,差异是显而易见的:

图 3: OpenOrca 和 Tower 在所有数据集、格式要求、任务描述和任务中表现最好的 (每个唯一任务的前 2%) 格式要求的分布。

在上面的图表中,看一看 OpenOrca (左图) 。它的最佳提示词主要由数字量表 (绿色部分: -100 到 100) 主导。再看 Tower (右图) 。它主要由“复杂标签” (橙色部分) 主导。这意味着如果你强迫 Tower 给你一个 0-100 的分数,你的评估效果可能会比要求它给出一个文本标签差得多。

基础提示词偏好

模型在提示词的结构上也存在分歧。

  • OpenOrca 偏好 朴素零样本 (PZS) 方法 (简单的指令) 。
  • Tower 偏好 思维链 (ZS-CoT) 方法 (在回答前进行推理) 。

图 2: ORCA 和 TOWER 在所有数据集、格式要求、任务描述和任务中表现最好的 (每个唯一任务的前 2%) 基础提示词的分布。

图 2 所示,OpenOrca 的图表几乎全是蓝色 (PZS) ,而 Tower 的图表则由橙色 (ZS-CoT) 主导。这凸显了“思维链”并非万能魔杖——它对某些模型有显著帮助,而其他模型 (可能是那些针对直接指令进行微调的模型) 在没有它的情况下表现更好。

蝴蝶效应: 提示词的稳定性

该研究还分析了 稳定性 。 如果我们改变提示词的一个小部分,模型的排名能力会崩溃吗?

研究人员使用热力图来可视化更改特定组件时排名的相关性。高值 (浅色/白色) 意味着排名保持稳定。低值 (深色/黑色) 意味着排名发生了剧烈变化。

格式极其不稳定

结果表明,改变 格式要求 (例如,从“0-5”切换到“-1 到 +1”) 具有高度的不稳定性。

图 6: 改变格式要求时模型排名的相关性。

图 6 中,你可以看到许多深色方块。这表明对于许多格式变化,相关性很低。这意味着模型的排名 容易受到 输出格式的影响。一个模型可能在 0-100 量表上是“最佳”评估者,但在 0-5 量表上却是“最差”的。这对研究人员是一个警告: 仅使用一种输出格式对 LLM 进行基准测试可能会导致关于哪个模型更优越的错误结论。

任务描述与基础提示词

有趣的是,研究发现 任务描述 (礼貌/威胁/中性文本) 比预期的更不稳定。然而,在 零样本思维链 (ZSC) 和 带情感的零样本思维链 (ZSCE) 之间切换相对稳定。

图 15: 左侧热力图显示了改变基础提示词时模型排名的相关性。右侧热力图显示了改变基础提示词时任务排名的相关性。

在上面的热力图中,注意 ZSC 和 ZSCE 之间的高相关性 (白色方块) 。这表明在思维链中加入“情感”成分并没有像标准思维链那样彻底改变排名逻辑。然而,从朴素零样本 (PZS) 切换到思维链 (ZSC) 会导致巨大的转变 (由深色方块显示) ,这意味着推理过程从根本上改变了模型评估文本的方式。

如何设计你自己的提示词 (建议)

基于 660 万次评估,作者为任何希望使用开源 LLM 进行评估的人提供了具体建议:

  1. 别瞎猜,去测试: 不存在“通用提示词”。如果你使用新模型,必须测试几种变体。
  2. 了解你的模型:
  • 如果使用 PLATYPUS2ORCA , 倾向于 数字 输出格式。
  • 如果使用 TOWERLLAMA-3 , 倾向于 文本 质量标签。
  1. 使用中位数: 由于单个提示词可能存在噪音或不稳定,研究人员建议提示模式的 中位数表现 是其未来成功的一个很好的预测指标。不要依赖单一的“幸运”提示词;寻找平均表现良好的模式。
  2. 开源是可行的: 虽然它们可能无法在每个场景中击败像 XCOMET 这样的专用指标,但像 PLATYPUS2-70B 这样的模型是强大的、无需参考文本的评估器,并且可以在你自己的硬件上运行。

结论

PrExMe 论文为 NLP 社区敲响了警钟。它证明了提示工程不仅仅是一门措辞巧妙的艺术,而是一个需要严格优化的参数。

研究证明,开源 LLM 是有能力的评估者,但它们也是敏感的仪器。一个要求数值得分的“礼貌”请求可能会产生垃圾结果,而一个要求文本标签的“中性”请求却能产生黄金般的数据。通过了解这些特有的偏好以及不同提示组件的稳定性,研究人员可以构建更可靠、可复现且准确的评估流程。

随着我们的前行,像这样的论文为使用 LLM 的标准化方法奠定了基础,确保当我们说一个 AI “好”时,我们确实知道我们在说什么。