大型语言模型 (LLMs) 的能力极其强大,但要完全释放它们的潜力,往往依赖于一门神秘的艺术:** 提示词工程 (prompt engineering)**。措辞的微小改变、一条不同的指令或一个新的示例,都可能将一个语无伦次的回答变成杰作。像 思维链 (Chain-of-Thought, CoT) 提示这类技术——即要求模型“一步一步地思考”——表明,正确的提示策略可以极大地提升 LLM 的推理能力。

但这引出了一个更深层的问题: 如果 LLM 如此智能,为什么人类仍然需要为它们精心编写提示词?难道模型不应该自己找出如何有效地进行提示吗?

这正是 Google DeepMind 的研究论文 Promptbreeder 背后的激进设想。它提出了一个系统,让 LLM 利用生物进化的原理,能够自动生成并优化其自身的提示词,以适应任意任务。更令人惊讶的是,Promptbreeder 不仅进化提示词,它还进化那些用于进化提示词的方法。换句话说,它不仅仅在学习,更是在学习如何学习

在本文中,我们将深入解析 Promptbreeder 的工作机制,探讨其自指式架构,并看看它为什么能超越人类设计的提示策略。最后,我们将讨论这对自我改进型人工智能的未来可能意味着什么。


为什么手动提示会遇到瓶颈

在深入解决方案之前,让我们先理解问题所在。

提示策略已经发展成为一个完整的研究领域。其中最具影响力的方法包括:

  • 思维链 (Chain-of-Thought, CoT): 鼓励逐步推理。
  • 规划与解决 (Plan-and-Solve, PS): 要求模型先制定计划再执行。
  • 思维树 (Tree of Thoughts, ToT): 让模型像搜索树一样探索多种推理路径。

这些方法虽然强大,但都有一个共同缺陷: 它们是手工设计且领域无关的。它们未能针对特定任务 (无论是基础数学还是仇恨言论分类) 的细微差异进行定制。

一些研究者尝试将这一过程自动化。例如,自动提示工程师 (Automatic Prompt Engineer, APE) 使用一个 LLM 来生成并变异一组候选提示词。但 APE 很快遇到了收益递减的瓶颈——仅仅几轮之后,改进就停滞,其创造力也随之枯竭。

那么: 如何设计一个能够持续进化、保持多样性和创造力的系统?DeepMind 团队认为,答案在于进化算法


核心思想: 提示词的进化

Promptbreeder 的本质是一个进化系统。可以将其视为提示词的自然选择

  1. 初始化种群: 从一组多样化的任务提示词开始。
  2. 评估适应度: 在一批训练样本上测试每个提示词,并根据表现赋予适应度分数。
  3. 选择最优个体: 随机配对提示词,取表现更好的作为优胜者。
  4. 变异: 使用 LLM 修改优胜者的提示词,生成新的后代提示词。
  5. 替换并重复: 新一代替代低表现个体,循环持续多轮迭代。

随着时间推移,这个过程会孕育出越来越有效、且适应特定问题领域的提示词。

Promptbreeder 进化循环概览。它从初始的思维风格和变异提示词开始,生成一个任务提示词种群,评估其适应度,并使用变异算子创造新一代。

图 1: Promptbreeder 架构。由任务提示词和变异提示词组成的种群在连续几代中不断进化,并由 LLM 自身引导。

值得注意的是,每个进化单元不仅包含一个提示词,还包括:

  • 一个或多个 任务提示词 (task-prompts): 给模型的实际指令;
  • 一个 变异提示词 (mutation-prompt): 描述如何变异任务提示词的指令;
  • (可选) 少量正确推理示例,用于少样本评估。

自指式的关键机制

传统的进化算法通常依赖于固定的变异规则——例如“使指令更简洁”。而 Promptbreeder 做了更有趣的事情: 它让 LLM 自己进化这些规则

这个过程称为 超变异 (hypermutation),即变异提示词的变异。

因此,在 Promptbreeder 中,系统不仅会进化像:

“让我们一步一步地思考。”

这样的任务提示词,还会进化如下的变异提示词:

“用完全不同的词重新表述这条指令。”
“简化这条指令,就像在向孩子解释一样。”

这种递归设置意味着系统在提升它提升自己的方式。它既进化提示词的内容,也进化这些提示词变化的过程——这就是一个真正的自指式自我改进循环

一张图表,展示了从简单变异到完整 Promptbreeder 的不同层次的自指式提示词进化。

图 2: 从直接变异到超变异。Promptbreeder (d) 同时进化任务提示词和生成它们的变异提示词。


创造力的引擎: 变异算子

进化离不开多样性。为避免停滞,Promptbreeder 使用了跨越五大类的 九种变异算子,每次复制事件随机选择其中一种。

1. 直接变异

  • 零阶 (Zero-order): 仅使用问题描述 (例如,“解决这个数学应用题”) 从零生成新任务提示词,注入随机性并重置多样性。
  • 一阶 (First-order): 将一个变异提示词与父任务提示词结合,生成新的变体。例如:
    用另一种方式再说那条指令。 → 应用于 解决这个数学应用题。

2. 分布估计算法变异 (EDA)

这些算子不依赖单个父代,而是考察整个种群。系统会向 LLM 展示一个经过筛选的多样化提示词列表,并让它“续写这个列表”,生成符合成功模式的新提示词。
一个巧妙的变体是按适应度对提示词排序,但告诉 LLM 它们是降序排列。这种故意的矛盾能促使模型生成多样且高质量的后代。

3. 超变异: 自我改进循环

  • 零阶超变异 (Zero-order Hyper-Mutation): 用问题描述和思维风格生成一个新的变异提示词。
  • 一阶超变异 (First-order Hyper-Mutation): 对现有变异提示词应用一个元变异指令,例如“请总结并改进以下指令”,生成新的变异提示词,并立即通过进化一个任务提示词进行测试。

4. 拉马克式变异

借鉴拉马克“后天习得性状可遗传”的理念,Promptbreeder 会重用成功的推理轨迹
它要求 LLM 根据正确的“解题过程”示例反推出新的提示词。例如:

“我给朋友一条指令和一些建议。以下是他正确的解题示例……那条指令是: ”

这种逆向工程将解决方案转化为新的通用提示模板。

5. 提示词交叉与上下文重排

经典的遗传技术也在此出现:

  • 提示词交叉 (Prompt Crossover): 偶尔用来自其他高表现个体的提示词替换当前提示词。
  • 上下文重排 (Context Shuffling): 随机更新或重新排序少样本上下文中的示例,以保持新颖性,防止过拟合。

这些算子共同作用,让 Promptbreeder 能够探索庞大的语言策略空间,引导 LLM 产生更高效的提示启发式。


Promptbreeder 的表现如何?

DeepMind 团队在多个基准测试中评估了 Promptbreeder: 算术推理数据集 GSM8K、MultiArith,常识任务 StrategyQA,以及仇恨言论检测等复杂问题。

Promptbreeder 与其他顶尖方法在常见基准测试上的性能对比。

表 1: Promptbreeder 在多个数据集上的表现持续优于思维链、规划与解决、OPRO 和 APE 方法。

Promptbreeder 几乎在所有基准中都优于 规划与解决 Plus (PS+)OPRO (Optimization by Prompting)。例如,在 GSM8K 数据集上,它的准确率达到 83.9%,超越 OPRO 的 80.2%。

Promptbreeder 发现的意外提示词

一些进化的提示词异常复杂,而另一些则令人惊叹地简洁。

在不同数据集上进化出的零样本任务提示词示例。

表 6: 进化出的提示词示例。请注意其多样性以及某些意料之外的简洁性。

在 GSM8K 和 MultiArith 数据集上,最成功的提示词仅仅是 “SOLUTION” ——一个人类几乎不会想到的极简指令,却表现出色。对于 SVAMP 数据集,进化出的提示词是简短的 “visualise solve number”

这些例子凸显了自动化搜索的重要性: 机器驱动的探索可发现超越人类直觉的有效策略。


观察进化过程

为展示进化过程,研究者绘制了一次典型的训练运行图。

超过 2000 次评估的适应度进化过程,显示持续改进。

图 3: 一次典型的进化运行。蓝点表示单次评估结果;红线表示种群平均适应度。适应度稳定提升,避免了停滞。

与那些很快达到瓶颈的旧系统不同,Promptbreeder 在成千上万次评估中持续改进——这证明了提示词进化的可持续性。

进一步分析显示哪些变异算子贡献最大:

变异算子改进率
零阶超变异42%
基于谱系的变异26%
一阶超变异23%
EDA 变异10%

表 8 (节选) : 在 GSM8K 数据集上最有效的算子。自指式超变异占据主导地位。


为什么自指机制至关重要

为验证各组件的重要性,研究人员进行了消融实验——逐一移除算子并测量性能下降。

热力图显示移除自指式组件带来的负面影响。

图 4: 跨数据集的消融分析。每个单元格显示移除关键自指算子 (如超变异或拉马克式变异) 后性能下降的幅度。负值表示适应度降低。

结果非常明确: 去除自指机制会持续降低性能,证明学习如何自我改进是 Promptbreeder 成功的核心。


超越算术: 进化特定领域智能

Promptbreeder 不局限于数学问题。在 ETHOS 仇恨言论分类基准上,它进化出一个细致的两阶段提示,结合复杂的语言标准和上下文评估,将准确率从 80% 提升至 89%。这一适应能力展示了进化式提示在不同语言领域的可扩展性。


迈向自我改进型人工智能的未来

Promptbreeder 展示了真正自我改进 AI 的雏形。系统不通过更新数十亿神经参数,而是优化自己的思维语言,通过提示词的进化纯粹学习如何更好地引导自身。

关键要点:

  1. 自动化进化胜过手工设计: 进化式搜索能够发现特定领域的提示词,性能超越人工工程。
  2. 自指机制实现持续改进: 通过进化变异提示词,系统学会如何改进,避免停滞。
  3. 语言成为学习媒介: Promptbreeder 以自然语言——而非权重更新——作为自我优化的载体。

当然仍有局限性。Promptbreeder 在固定的程序框架内进化提示内容;而人类可以完全重新定义推理过程。但随着 LLM 的能力提升,这类语言层面的自我改进可能会成为通向开放、自主智能的重要桥梁。

Promptbreeder 描绘了一个未来: 模型与自身对话——不仅是为了回答问题,更是为了改善它们的思维方式。在那个未来,人工智能可能不再仅仅从数据中学习,而是通过文字的力量学习如何学习,在不断进化中完善自己的认知策略。