Promptbreeder：大型语言模型如何自我教学，成为更优秀的问题解决者

大型语言模型 (LLMs) 的能力极其强大，但要完全释放它们的潜力，往往依赖于一门神秘的艺术:** 提示词工程 (prompt engineering)**。措辞的微小改变、一条不同的指令或一个新的示例，都可能将一个语无伦次的回答变成杰作。像 思维链 (Chain-of-Thought, CoT) 提示这类技术——即要求模型“一步一步地思考”——表明，正确的提示策略可以极大地提升 LLM 的推理能力。

但这引出了一个更深层的问题: 如果 LLM 如此智能，为什么人类仍然需要为它们精心编写提示词？难道模型不应该自己找出如何有效地进行提示吗？

这正是 Google DeepMind 的研究论文 Promptbreeder 背后的激进设想。它提出了一个系统，让 LLM 利用生物进化的原理，能够自动生成并优化其自身的提示词，以适应任意任务。更令人惊讶的是，Promptbreeder 不仅进化提示词，它还进化那些用于进化提示词的方法。换句话说，它不仅仅在学习，更是在学习如何学习。

在本文中，我们将深入解析 Promptbreeder 的工作机制，探讨其自指式架构，并看看它为什么能超越人类设计的提示策略。最后，我们将讨论这对自我改进型人工智能的未来可能意味着什么。

为什么手动提示会遇到瓶颈

在深入解决方案之前，让我们先理解问题所在。

提示策略已经发展成为一个完整的研究领域。其中最具影响力的方法包括:

思维链 (Chain-of-Thought, CoT): 鼓励逐步推理。
规划与解决 (Plan-and-Solve, PS): 要求模型先制定计划再执行。
思维树 (Tree of Thoughts, ToT): 让模型像搜索树一样探索多种推理路径。

这些方法虽然强大，但都有一个共同缺陷: 它们是手工设计且领域无关的。它们未能针对特定任务 (无论是基础数学还是仇恨言论分类) 的细微差异进行定制。

一些研究者尝试将这一过程自动化。例如，自动提示工程师 (Automatic Prompt Engineer, APE) 使用一个 LLM 来生成并变异一组候选提示词。但 APE 很快遇到了收益递减的瓶颈——仅仅几轮之后，改进就停滞，其创造力也随之枯竭。

那么: 如何设计一个能够持续进化、保持多样性和创造力的系统？DeepMind 团队认为，答案在于进化算法。

核心思想: 提示词的进化

Promptbreeder 的本质是一个进化系统。可以将其视为提示词的自然选择。

初始化种群: 从一组多样化的任务提示词开始。
评估适应度: 在一批训练样本上测试每个提示词，并根据表现赋予适应度分数。
选择最优个体: 随机配对提示词，取表现更好的作为优胜者。
变异: 使用 LLM 修改优胜者的提示词，生成新的后代提示词。
替换并重复: 新一代替代低表现个体，循环持续多轮迭代。

随着时间推移，这个过程会孕育出越来越有效、且适应特定问题领域的提示词。

Promptbreeder 进化循环概览。它从初始的思维风格和变异提示词开始，生成一个任务提示词种群，评估其适应度，并使用变异算子创造新一代。

图 1: Promptbreeder 架构。由任务提示词和变异提示词组成的种群在连续几代中不断进化，并由 LLM 自身引导。

值得注意的是，每个进化单元不仅包含一个提示词，还包括:

一个或多个 任务提示词 (task-prompts): 给模型的实际指令；
一个 变异提示词 (mutation-prompt): 描述如何变异任务提示词的指令；
(可选) 少量正确推理示例，用于少样本评估。

自指式的关键机制

传统的进化算法通常依赖于固定的变异规则——例如“使指令更简洁”。而 Promptbreeder 做了更有趣的事情: 它让 LLM 自己进化这些规则。

这个过程称为 超变异 (hypermutation)，即变异提示词的变异。

因此，在 Promptbreeder 中，系统不仅会进化像:

“让我们一步一步地思考。”

这样的任务提示词，还会进化如下的变异提示词:

“用完全不同的词重新表述这条指令。”
“简化这条指令，就像在向孩子解释一样。”

这种递归设置意味着系统在提升它提升自己的方式。它既进化提示词的内容，也进化这些提示词变化的过程——这就是一个真正的自指式自我改进循环。

一张图表，展示了从简单变异到完整 Promptbreeder 的不同层次的自指式提示词进化。

图 2: 从直接变异到超变异。Promptbreeder (d) 同时进化任务提示词和生成它们的变异提示词。

创造力的引擎: 变异算子

进化离不开多样性。为避免停滞，Promptbreeder 使用了跨越五大类的 九种变异算子，每次复制事件随机选择其中一种。

1. 直接变异

零阶 (Zero-order): 仅使用问题描述 (例如，“解决这个数学应用题”) 从零生成新任务提示词，注入随机性并重置多样性。
一阶 (First-order): 将一个变异提示词与父任务提示词结合，生成新的变体。例如:
用另一种方式再说那条指令。 → 应用于 解决这个数学应用题。

2. 分布估计算法变异 (EDA)

这些算子不依赖单个父代，而是考察整个种群。系统会向 LLM 展示一个经过筛选的多样化提示词列表，并让它“续写这个列表”，生成符合成功模式的新提示词。
一个巧妙的变体是按适应度对提示词排序，但告诉 LLM 它们是降序排列。这种故意的矛盾能促使模型生成多样且高质量的后代。

3. 超变异: 自我改进循环

零阶超变异 (Zero-order Hyper-Mutation): 用问题描述和思维风格生成一个新的变异提示词。
一阶超变异 (First-order Hyper-Mutation): 对现有变异提示词应用一个元变异指令，例如“请总结并改进以下指令”，生成新的变异提示词，并立即通过进化一个任务提示词进行测试。

4. 拉马克式变异

借鉴拉马克“后天习得性状可遗传”的理念，Promptbreeder 会重用成功的推理轨迹。
它要求 LLM 根据正确的“解题过程”示例反推出新的提示词。例如:

“我给朋友一条指令和一些建议。以下是他正确的解题示例……那条指令是: ”

这种逆向工程将解决方案转化为新的通用提示模板。

5. 提示词交叉与上下文重排

经典的遗传技术也在此出现:

提示词交叉 (Prompt Crossover): 偶尔用来自其他高表现个体的提示词替换当前提示词。
上下文重排 (Context Shuffling): 随机更新或重新排序少样本上下文中的示例，以保持新颖性，防止过拟合。

这些算子共同作用，让 Promptbreeder 能够探索庞大的语言策略空间，引导 LLM 产生更高效的提示启发式。

Promptbreeder 的表现如何？

DeepMind 团队在多个基准测试中评估了 Promptbreeder: 算术推理数据集 GSM8K、MultiArith，常识任务 StrategyQA，以及仇恨言论检测等复杂问题。

Promptbreeder 与其他顶尖方法在常见基准测试上的性能对比。

表 1: Promptbreeder 在多个数据集上的表现持续优于思维链、规划与解决、OPRO 和 APE 方法。

Promptbreeder 几乎在所有基准中都优于 规划与解决 Plus (PS+) 和 OPRO (Optimization by Prompting)。例如，在 GSM8K 数据集上，它的准确率达到 83.9%，超越 OPRO 的 80.2%。

Promptbreeder 发现的意外提示词

一些进化的提示词异常复杂，而另一些则令人惊叹地简洁。

在不同数据集上进化出的零样本任务提示词示例。

表 6: 进化出的提示词示例。请注意其多样性以及某些意料之外的简洁性。

在 GSM8K 和 MultiArith 数据集上，最成功的提示词仅仅是 “SOLUTION” ——一个人类几乎不会想到的极简指令，却表现出色。对于 SVAMP 数据集，进化出的提示词是简短的 “visualise solve number”。

这些例子凸显了自动化搜索的重要性: 机器驱动的探索可发现超越人类直觉的有效策略。

观察进化过程

为展示进化过程，研究者绘制了一次典型的训练运行图。

超过 2000 次评估的适应度进化过程，显示持续改进。

图 3: 一次典型的进化运行。蓝点表示单次评估结果；红线表示种群平均适应度。适应度稳定提升，避免了停滞。

与那些很快达到瓶颈的旧系统不同，Promptbreeder 在成千上万次评估中持续改进——这证明了提示词进化的可持续性。

进一步分析显示哪些变异算子贡献最大:

变异算子	改进率
零阶超变异	42%
基于谱系的变异	26%
一阶超变异	23%
EDA 变异	10%

表 8 (节选) : 在 GSM8K 数据集上最有效的算子。自指式超变异占据主导地位。

为什么自指机制至关重要

为验证各组件的重要性，研究人员进行了消融实验——逐一移除算子并测量性能下降。

热力图显示移除自指式组件带来的负面影响。

图 4: 跨数据集的消融分析。每个单元格显示移除关键自指算子 (如超变异或拉马克式变异) 后性能下降的幅度。负值表示适应度降低。

结果非常明确: 去除自指机制会持续降低性能，证明学习如何自我改进是 Promptbreeder 成功的核心。

超越算术: 进化特定领域智能

Promptbreeder 不局限于数学问题。在 ETHOS 仇恨言论分类基准上，它进化出一个细致的两阶段提示，结合复杂的语言标准和上下文评估，将准确率从 80% 提升至 89%。这一适应能力展示了进化式提示在不同语言领域的可扩展性。

迈向自我改进型人工智能的未来

Promptbreeder 展示了真正自我改进 AI 的雏形。系统不通过更新数十亿神经参数，而是优化自己的思维语言，通过提示词的进化纯粹学习如何更好地引导自身。

关键要点:

自动化进化胜过手工设计: 进化式搜索能够发现特定领域的提示词，性能超越人工工程。
自指机制实现持续改进: 通过进化变异提示词，系统学会如何改进，避免停滞。
语言成为学习媒介: Promptbreeder 以自然语言——而非权重更新——作为自我优化的载体。

当然仍有局限性。Promptbreeder 在固定的程序框架内进化提示内容；而人类可以完全重新定义推理过程。但随着 LLM 的能力提升，这类语言层面的自我改进可能会成为通向开放、自主智能的重要桥梁。

Promptbreeder 描绘了一个未来: 模型与自身对话——不仅是为了回答问题，更是为了改善它们的思维方式。在那个未来，人工智能可能不再仅仅从数据中学习，而是通过文字的力量学习如何学习，在不断进化中完善自己的认知策略。

为什么手动提示会遇到瓶颈#

核心思想: 提示词的进化#

自指式的关键机制#

创造力的引擎: 变异算子#

1. 直接变异#

2. 分布估计算法变异 (EDA)#

3. 超变异: 自我改进循环#

4. 拉马克式变异#

5. 提示词交叉与上下文重排#

Promptbreeder 的表现如何？#

Promptbreeder 发现的意外提示词#

观察进化过程#

为什么自指机制至关重要#

超越算术: 进化特定领域智能#

迈向自我改进型人工智能的未来#