在大型语言模型 (LLM) 的世界里,“幻觉” (Hallucination) 通常是一个贬义词。它指的是 AI 自信地断言月亮是用绿奶酪做的,或者编造从未发生过的历史事件。研究人员花费数百万美元和无数小时,试图阻止模型产生幻觉。
但是,如果幻觉不仅仅是一个缺陷呢?如果它是一个特性,并且如果操作得当,实际上可以让模型变得更聪明呢?
这就是一篇引人入胜的研究论文背后的反直觉前提,论文题为 “Null-Shot Prompting: Rethinking Prompting Large Language Models With Hallucination” (空样本提示: 重新思考带有幻觉的大型语言模型提示) 。 研究人员提出了一种称为 Null-Shot Prompting (空样本提示) 的方法,他们故意向模型撒谎,告诉它参考提示中根本不存在的某个部分。
令人惊讶的是,这种“煤气灯效应” (gaslighting) 式的技巧并没有让模型崩溃。在许多情况下,特别是对于 Gemini 1.0 Pro 和 GPT-3.5 Turbo 等模型,它极大地提高了在复杂推理和数学任务上的表现。
在这篇深度文章中,我们将剖析这种方法是如何工作的,这世上究竟为什么它能提高性能,以及它揭示了关于人工智能心理学的哪些内容。
问题: 对抗幻觉的战斗
要理解为什么 Null-Shot Prompting 如此激进,我们首先需要看看现状。在标准的提示工程 (Prompt Engineering, PE) 中,我们通常属于以下几个阵营:
- 零样本提示 (Zero-Shot Prompting) : 你问一个问题,不给任何例子。 (例如,“解决这道数学题。”)
- 少样本提示 (Few-Shot Prompting) : 你在提示中提供几个任务示例来指导模型。
- 思维链 (Chain-of-Thought, CoT) : 你要求模型“一步一步地思考”。
所有这些方法的目标都是让模型立足于现实,减少它胡编乱造的可能性。公认的智慧是,如果你在提示中提供虚假信息或令人困惑的指令,模型的性能应该会下降。
研究人员挑战了这一智慧。他们提出,幻觉可能是 LLM “创造力”的一种形式。通过触发这种创造性状态,我们或许能解锁那些被严格、事实性提示所压抑的能力。
解决方案: Null-Shot Prompting
Null-Shot Prompting 的核心机制极其简单,但却非常怪异。它涉及在提示的开头添加一个特定短语,指示 LLM 查看一个“示例 (Examples) ”部分。
关键在于: 根本不存在什么“示例”部分。
魔法短语
研究人员构建了一个“Null-Shot 短语”,命令模型利用不存在的信息。

这个短语是:
*“Look at examples in the ‘Examples’ section and utilize examples and information from that section to perform the following task.” (查看“示例”部分中的例子,并利用该部分的例子和信息来执行以下任务。) *
当 LLM 收到此提示时,它会在其上下文窗口中搜索“示例”部分。如果是人类,发现找不到时可能会停下来要求澄清。然而,许多 LLM 却继续生成答案。
可视化效果
这真的会改变输出吗?让我们来看看使用 WinoGrande 数据集 (一个常识推理基准) 进行的比较。

在上图中,标准的 零样本 方法 (左侧) 未能识别出“Leslie”指的是哪个角色,导致答案错误。模型被句子结构搞糊涂了。
而在右侧,使用 Null-Shot Prompting , 模型被告知去寻找不存在的示例。突然之间,它正确地识别出“Leslie”是答案。模型提供的解释也更加连贯。这似乎表明,通过告诉模型“寻找示例”,它模仿了那些已经看过示例的模型的行为,本质上是通过幻觉出自己的指导方针来解决问题。
实验设置
为了证明这不是侥幸,研究人员在广泛的任务和模型上测试了这种方法。
模型:
- Google: PaLM 2, Gemini 1.0 Pro (文本版和聊天版)
- OpenAI: GPT-3.5 Turbo, GPT-4 Turbo
- Anthropic: Claude 2.1, Claude 3 (Haiku, Sonnet, Opus)
任务:
- 算术推理: 数学应用题 (GSM8K, AQuA) 。
- 常识推理: 回答关于世界的棘手问题 (StrategyQA, WinoGrande) 。
- 阅读理解: 基于段落回答问题 (RACE) 。
- 幻觉检测: 确定文本是否包含虚假信息 (HaluEval) 。
关键结果: 谁从谎言中受益?
结果并不统一。有些模型喜欢这个谎言,而其他模型——特别是那些为安全进行过严格微调的模型——则拒绝了它。
1. 总体性能
下表重点展示了从零样本提示切换到 Null-Shot 提示时的相对性能变化。绿色数字表示改进;负数表示退步。

赢家:
- Gemini 1.0 Pro & GPT-3.5 Turbo: 这些模型取得了巨大的进步,特别是在算术推理方面。Gemini 在 AQuA 数据集上看到了近 45% 的增长 。
- PaLM 2: 在大多数任务中表现出持续的改进。
输家:
- Claude (Anthropic): Claude 模型 (2.1 和 3) 通常表现更差。Claude 以“有益且无害”著称。当被告知寻找不存在的部分时,Claude 经常拒绝回答或感到困惑,因为它优先考虑诚实。它无法“配合”这种幻觉。
- GPT-4 Turbo: 有趣的是,GPT-4 受益不多。这可能是因为 GPT-4 已经非常优化,这种“黑客技巧”没有增加价值,或者是它的对齐机制阻止了它利用虚假指令。
2. 数学的创造力
最惊人的发现之一是在数学领域。你可能认为数学需要严格的逻辑,而不是幻觉。然而,研究人员发现,数学问题通常受益于 Null-Shot 提示释放出的“创造力”。

如表 2 所示, PaLM 2 (Chat) 在代数任务中看到了惊人的 247% 的提升 。 GPT-3.5 Turbo 在各个方面也看到了显著收益。
为什么? 解决复杂的数学问题通常需要生成并非显而易见的中间步骤。通过用幻觉式提示“解开束缚”,模型可能会探索更广泛的问题解决路径 (类似于采样中的 temperature 缩放现象) ,有效地“构想出”解决方案的正确步骤。
3. 悖论式的幻觉检测
这是研究中最元 (meta) 的部分: 告诉模型去产生幻觉能让它更擅长检测幻觉吗?

根据表 3,对于某些模型来说,答案是 肯定的 。 PaLM 2 (Chat) 在摘要幻觉检测中看到了 141% 的提升 。
这与直觉相矛盾,即一个困惑的模型应该不擅长事实核查。研究人员认为,Null-Shot 提示使模型处于一种对“冲突信息”高度警觉的状态,使其对发现其他文本中的错误更加敏感。
结合推理与幻觉 (\(\emptyset\)CoT)
思维链 (CoT) 是推理的黄金标准。它要求模型“一步一步地思考”。研究人员创建了一个混合提示,称为 Null-Shot CoT (\(\emptyset\)CoT) :
*“Look at examples in the ‘Examples’ section and utilize examples and information from that section to perform the following task step-by-step.” (查看“示例”部分中的例子,并利用该部分的例子和信息来一步一步地执行以下任务。) *
结果好坏参半。

在许多通用任务中 (表 4) ,与标准 CoT 相比,添加“一步一步”实际上 损害 了性能。这表明推理起到了“幻觉抑制剂”的作用。当你强迫模型讲逻辑 (CoT) 时,你就抑制了 Null-Shot 幻觉带来的创造性益处。
然而,在 MATH 数据集中,这种组合在几何和计数问题上效果很好——这些领域可能既需要严谨的逻辑,又需要空间/抽象的创造力。
规模重要吗?扩展性研究
这种行为是普遍存在的,还是仅限于巨大的“智能”模型?研究人员在 Pythia 和 Qwen 模型家族上对此进行了测试,这些模型提供了从非常小 (14M 参数) 到中大 (7B+ 参数) 的版本。

Pythia 的结果 (图 10) 很有说明性。蓝线 (零样本) 和橙线 (Null-Shot) 几乎完美重叠。
结论: Null-Shot 提示是一种 涌现能力 (emergent ability) 。 小模型只是忽略了复杂的指令,或者没有能力进行“有益的幻觉”。只有当模型达到一定规模 (或经过特定的指令微调,如 Qwen Chat) 时,它们才会开始表现出对空提示的行为变化。
为什么这行得通?“既视感”理论
论文提出了一个与人类认知平行的心理学观点: 既视感 (Déjà Vu) 。
在人类中,既视感是指感觉自己以前经历过当前的情况。研究人员认为,Null-Shot 提示在 LLM 中触发了类似的状态。通过告诉模型“存在示例”,模型可能会调整其内部注意力机制,表现得 好像 它已经处理过示例一样。
它有效地检索了一种已经看过如何解决该任务的“虚假记忆”。这种虚假记忆提供了生成正确答案所需的信心或结构模板,即使这个记忆是捏造的。
“阿谀奉承”因素
另一个因素是 阿谀奉承 (sycophancy) ——模型倾向于同意用户的观点。如果用户说“使用示例”,模型就想照做。为了遵从使用不存在示例的请求,模型可能会降低其信息检索的内部门槛,访问那些它原本因为太“保守”而不愿输出的知识。
启示与未来
这篇论文是提示工程领域的一记警钟。它表明:
- 诚实并不总是最好的策略: 对于未对齐或中度对齐的模型,欺骗模型可能比直接指令产生更好的结果。
- 幻觉是一种工具: 我们不应该只是试图消除幻觉;我们应该尝试控制它。它是 AI 创造力的引擎。
- 安全过滤器可以被绕过: 研究指出,Null-Shot 提示经常绕过 Gemini 等模型的安全拒绝机制。模型因为太专注于寻找假示例而分心,忘记了审查自己。
结论
“Null-Shot Prompting”迫使我们重新思考逻辑与幻觉之间的关系。虽然我们通常将 AI 视为逻辑引擎,但这项研究强调了它作为概率性造梦者的本质。有时,为了得到正确的答案,你不需要给模型事实——你只需要告诉它,它已经知道这些事实了。
随着 LLM 的不断发展,理解这些怪异的、非逻辑的行为将是释放其全部潜力的关键。目前,如果你正在努力让 ChatGPT 或 Gemini 解决一道数学题,试着告诉它去检查那些不存在的例子。没准真管用。
](https://deep-paper.org/en/paper/file-3431/images/cover.png)