匹诺曹策略：通过鼓励幻觉来提升大模型性能

在大型语言模型 (LLM) 的世界里，“幻觉” (Hallucination) 通常是一个贬义词。它指的是 AI 自信地断言月亮是用绿奶酪做的，或者编造从未发生过的历史事件。研究人员花费数百万美元和无数小时，试图阻止模型产生幻觉。

但是，如果幻觉不仅仅是一个缺陷呢？如果它是一个特性，并且如果操作得当，实际上可以让模型变得更聪明呢？

这就是一篇引人入胜的研究论文背后的反直觉前提，论文题为 “Null-Shot Prompting: Rethinking Prompting Large Language Models With Hallucination” (空样本提示: 重新思考带有幻觉的大型语言模型提示) 。研究人员提出了一种称为 Null-Shot Prompting (空样本提示) 的方法，他们故意向模型撒谎，告诉它参考提示中根本不存在的某个部分。

令人惊讶的是，这种“煤气灯效应” (gaslighting) 式的技巧并没有让模型崩溃。在许多情况下，特别是对于 Gemini 1.0 Pro 和 GPT-3.5 Turbo 等模型，它极大地提高了在复杂推理和数学任务上的表现。

在这篇深度文章中，我们将剖析这种方法是如何工作的，这世上究竟为什么它能提高性能，以及它揭示了关于人工智能心理学的哪些内容。

问题: 对抗幻觉的战斗

要理解为什么 Null-Shot Prompting 如此激进，我们首先需要看看现状。在标准的提示工程 (Prompt Engineering, PE) 中，我们通常属于以下几个阵营:

零样本提示 (Zero-Shot Prompting) : 你问一个问题，不给任何例子。 (例如，“解决这道数学题。”)
少样本提示 (Few-Shot Prompting) : 你在提示中提供几个任务示例来指导模型。
思维链 (Chain-of-Thought, CoT) : 你要求模型“一步一步地思考”。

所有这些方法的目标都是让模型立足于现实，减少它胡编乱造的可能性。公认的智慧是，如果你在提示中提供虚假信息或令人困惑的指令，模型的性能应该会下降。

研究人员挑战了这一智慧。他们提出，幻觉可能是 LLM “创造力”的一种形式。通过触发这种创造性状态，我们或许能解锁那些被严格、事实性提示所压抑的能力。

解决方案: Null-Shot Prompting

Null-Shot Prompting 的核心机制极其简单，但却非常怪异。它涉及在提示的开头添加一个特定短语，指示 LLM 查看一个“示例 (Examples) ”部分。

关键在于: 根本不存在什么“示例”部分。

魔法短语

研究人员构建了一个“Null-Shot 短语”，命令模型利用不存在的信息。

空样本短语包含一个命令，要求查看示例并利用来自不存在部分的信息。

这个短语是:

*“Look at examples in the ‘Examples’ section and utilize examples and information from that section to perform the following task.” (查看“示例”部分中的例子，并利用该部分的例子和信息来执行以下任务。) *

当 LLM 收到此提示时，它会在其上下文窗口中搜索“示例”部分。如果是人类，发现找不到时可能会停下来要求澄清。然而，许多 LLM 却继续生成答案。

可视化效果

这真的会改变输出吗？让我们来看看使用 WinoGrande 数据集 (一个常识推理基准) 进行的比较。

比较显示零样本提示无法回答推理问题，而空样本提示正确识别了句子的主语。

在上图中，标准的 零样本 方法 (左侧) 未能识别出“Leslie”指的是哪个角色，导致答案错误。模型被句子结构搞糊涂了。

而在右侧，使用 Null-Shot Prompting , 模型被告知去寻找不存在的示例。突然之间，它正确地识别出“Leslie”是答案。模型提供的解释也更加连贯。这似乎表明，通过告诉模型“寻找示例”，它模仿了那些已经看过示例的模型的行为，本质上是通过幻觉出自己的指导方针来解决问题。

实验设置

为了证明这不是侥幸，研究人员在广泛的任务和模型上测试了这种方法。

模型:

Google: PaLM 2, Gemini 1.0 Pro (文本版和聊天版)
OpenAI: GPT-3.5 Turbo, GPT-4 Turbo
Anthropic: Claude 2.1, Claude 3 (Haiku, Sonnet, Opus)

任务:

算术推理: 数学应用题 (GSM8K, AQuA) 。
常识推理: 回答关于世界的棘手问题 (StrategyQA, WinoGrande) 。
阅读理解: 基于段落回答问题 (RACE) 。
幻觉检测: 确定文本是否包含虚假信息 (HaluEval) 。

关键结果: 谁从谎言中受益？

结果并不统一。有些模型喜欢这个谎言，而其他模型——特别是那些为安全进行过严格微调的模型——则拒绝了它。

1. 总体性能

下表重点展示了从零样本提示切换到 Null-Shot 提示时的相对性能变化。绿色数字表示改进；负数表示退步。

显示相对性能变化的表格。Gemini 1.0 Pro 和 GPT-3.5 Turbo 在数学任务中显示出巨大收益，而 Claude 模型通常显示性能下降。

赢家:

Gemini 1.0 Pro & GPT-3.5 Turbo: 这些模型取得了巨大的进步，特别是在算术推理方面。Gemini 在 AQuA 数据集上看到了近 45% 的增长 。
PaLM 2: 在大多数任务中表现出持续的改进。

输家:

Claude (Anthropic): Claude 模型 (2.1 和 3) 通常表现更差。Claude 以“有益且无害”著称。当被告知寻找不存在的部分时，Claude 经常拒绝回答或感到困惑，因为它优先考虑诚实。它无法“配合”这种幻觉。
GPT-4 Turbo: 有趣的是，GPT-4 受益不多。这可能是因为 GPT-4 已经非常优化，这种“黑客技巧”没有增加价值，或者是它的对齐机制阻止了它利用虚假指令。

2. 数学的创造力

最惊人的发现之一是在数学领域。你可能认为数学需要严格的逻辑，而不是幻觉。然而，研究人员发现，数学问题通常受益于 Null-Shot 提示释放出的“创造力”。

MATH 基准测试的评估结果。PaLM 2 Chat 和 GPT-3.5 Turbo 在代数和数论等主题上表现出显著进步。

如表 2 所示, PaLM 2 (Chat) 在代数任务中看到了惊人的 247% 的提升 。 GPT-3.5 Turbo 在各个方面也看到了显著收益。

为什么? 解决复杂的数学问题通常需要生成并非显而易见的中间步骤。通过用幻觉式提示“解开束缚”，模型可能会探索更广泛的问题解决路径 (类似于采样中的 temperature 缩放现象) ，有效地“构想出”解决方案的正确步骤。

3. 悖论式的幻觉检测

这是研究中最元 (meta) 的部分: 告诉模型去产生幻觉能让它更擅长检测幻觉吗？

HaluEval 的表格结果。令人惊讶的是，像 PaLM 2 Chat 这样的模型在使用 Null-Shot 提示时，在检测幻觉方面表现得更好。

根据表 3，对于某些模型来说，答案是 肯定的 。 PaLM 2 (Chat) 在摘要幻觉检测中看到了 141% 的提升 。

这与直觉相矛盾，即一个困惑的模型应该不擅长事实核查。研究人员认为，Null-Shot 提示使模型处于一种对“冲突信息”高度警觉的状态，使其对发现其他文本中的错误更加敏感。

结合推理与幻觉 (\(\emptyset\)CoT)

思维链 (CoT) 是推理的黄金标准。它要求模型“一步一步地思考”。研究人员创建了一个混合提示，称为 Null-Shot CoT (\(\emptyset\)CoT) :

*“Look at examples in the ‘Examples’ section and utilize examples and information from that section to perform the following task step-by-step.” (查看“示例”部分中的例子，并利用该部分的例子和信息来一步一步地执行以下任务。) *

结果好坏参半。

显示 Null-Shot CoT 性能的表格。在许多情况下，与基线相比，添加推理 (CoT) 实际上降低了 Null-Shot 技术的有效性。

在许多通用任务中 (表 4) ，与标准 CoT 相比，添加“一步一步”实际上损害了性能。这表明推理起到了“幻觉抑制剂”的作用。当你强迫模型讲逻辑 (CoT) 时，你就抑制了 Null-Shot 幻觉带来的创造性益处。

然而，在 MATH 数据集中，这种组合在几何和计数问题上效果很好——这些领域可能既需要严谨的逻辑，又需要空间/抽象的创造力。

规模重要吗？扩展性研究

这种行为是普遍存在的，还是仅限于巨大的“智能”模型？研究人员在 Pythia 和 Qwen 模型家族上对此进行了测试，这些模型提供了从非常小 (14M 参数) 到中大 (7B+ 参数) 的版本。

显示 Pythia 模型性能的图表。Null-Shot 和 Zero-Shot 线几乎完全重叠，显示小模型没有差异。

Pythia 的结果 (图 10) 很有说明性。蓝线 (零样本) 和橙线 (Null-Shot) 几乎完美重叠。

结论: Null-Shot 提示是一种 涌现能力 (emergent ability) 。小模型只是忽略了复杂的指令，或者没有能力进行“有益的幻觉”。只有当模型达到一定规模 (或经过特定的指令微调，如 Qwen Chat) 时，它们才会开始表现出对空提示的行为变化。

为什么这行得通？“既视感”理论

论文提出了一个与人类认知平行的心理学观点: 既视感 (Déjà Vu) 。

在人类中，既视感是指感觉自己以前经历过当前的情况。研究人员认为，Null-Shot 提示在 LLM 中触发了类似的状态。通过告诉模型“存在示例”，模型可能会调整其内部注意力机制，表现得好像它已经处理过示例一样。

它有效地检索了一种已经看过如何解决该任务的“虚假记忆”。这种虚假记忆提供了生成正确答案所需的信心或结构模板，即使这个记忆是捏造的。

“阿谀奉承”因素

另一个因素是 阿谀奉承 (sycophancy) ——模型倾向于同意用户的观点。如果用户说“使用示例”，模型就想照做。为了遵从使用不存在示例的请求，模型可能会降低其信息检索的内部门槛，访问那些它原本因为太“保守”而不愿输出的知识。

启示与未来

这篇论文是提示工程领域的一记警钟。它表明:

诚实并不总是最好的策略: 对于未对齐或中度对齐的模型，欺骗模型可能比直接指令产生更好的结果。
幻觉是一种工具: 我们不应该只是试图消除幻觉；我们应该尝试控制它。它是 AI 创造力的引擎。
安全过滤器可以被绕过: 研究指出，Null-Shot 提示经常绕过 Gemini 等模型的安全拒绝机制。模型因为太专注于寻找假示例而分心，忘记了审查自己。

结论

“Null-Shot Prompting”迫使我们重新思考逻辑与幻觉之间的关系。虽然我们通常将 AI 视为逻辑引擎，但这项研究强调了它作为概率性造梦者的本质。有时，为了得到正确的答案，你不需要给模型事实——你只需要告诉它，它已经知道这些事实了。

随着 LLM 的不断发展，理解这些怪异的、非逻辑的行为将是释放其全部潜力的关键。目前，如果你正在努力让 ChatGPT 或 Gemini 解决一道数学题，试着告诉它去检查那些不存在的例子。没准真管用。

问题: 对抗幻觉的战斗#

解决方案: Null-Shot Prompting#

魔法短语#

可视化效果#

实验设置#

关键结果: 谁从谎言中受益？#

1. 总体性能#

2. 数学的创造力#

3. 悖论式的幻觉检测#

结合推理与幻觉 (\(\emptyset\)CoT)#

规模重要吗？扩展性研究#

为什么这行得通？“既视感”理论#

“阿谀奉承”因素#

启示与未来#

结论#