大型语言模型 (LLMs) 的能力极其强大,但要完全释放它们的潜力,往往依赖于一门神秘的艺术:** 提示词工程 (prompt engineering)**。措辞的微小改变、一条不同的指令或一个新的示例,都可能将一个语无伦次的回答变成杰作。像 思维链 (Chain-of-Thought, CoT) 提示这类技术——即要求模型“一步一步地思考”——表明,正确的提示策略可以极大地提升 LLM 的推理能力。
但这引出了一个更深层的问题: 如果 LLM 如此智能,为什么人类仍然需要为它们精心编写提示词?难道模型不应该自己找出如何有效地进行提示吗?
这正是 Google DeepMind 的研究论文 Promptbreeder 背后的激进设想。它提出了一个系统,让 LLM 利用生物进化的原理,能够自动生成并优化其自身的提示词,以适应任意任务。更令人惊讶的是,Promptbreeder 不仅进化提示词,它还进化那些用于进化提示词的方法。换句话说,它不仅仅在学习,更是在学习如何学习。
在本文中,我们将深入解析 Promptbreeder 的工作机制,探讨其自指式架构,并看看它为什么能超越人类设计的提示策略。最后,我们将讨论这对自我改进型人工智能的未来可能意味着什么。
为什么手动提示会遇到瓶颈
在深入解决方案之前,让我们先理解问题所在。
提示策略已经发展成为一个完整的研究领域。其中最具影响力的方法包括:
- 思维链 (Chain-of-Thought, CoT): 鼓励逐步推理。
- 规划与解决 (Plan-and-Solve, PS): 要求模型先制定计划再执行。
- 思维树 (Tree of Thoughts, ToT): 让模型像搜索树一样探索多种推理路径。
这些方法虽然强大,但都有一个共同缺陷: 它们是手工设计且领域无关的。它们未能针对特定任务 (无论是基础数学还是仇恨言论分类) 的细微差异进行定制。
一些研究者尝试将这一过程自动化。例如,自动提示工程师 (Automatic Prompt Engineer, APE) 使用一个 LLM 来生成并变异一组候选提示词。但 APE 很快遇到了收益递减的瓶颈——仅仅几轮之后,改进就停滞,其创造力也随之枯竭。
那么: 如何设计一个能够持续进化、保持多样性和创造力的系统?DeepMind 团队认为,答案在于进化算法。
核心思想: 提示词的进化
Promptbreeder 的本质是一个进化系统。可以将其视为提示词的自然选择。
- 初始化种群: 从一组多样化的任务提示词开始。
- 评估适应度: 在一批训练样本上测试每个提示词,并根据表现赋予适应度分数。
- 选择最优个体: 随机配对提示词,取表现更好的作为优胜者。
- 变异: 使用 LLM 修改优胜者的提示词,生成新的后代提示词。
- 替换并重复: 新一代替代低表现个体,循环持续多轮迭代。
随着时间推移,这个过程会孕育出越来越有效、且适应特定问题领域的提示词。
图 1: Promptbreeder 架构。由任务提示词和变异提示词组成的种群在连续几代中不断进化,并由 LLM 自身引导。
值得注意的是,每个进化单元不仅包含一个提示词,还包括:
- 一个或多个 任务提示词 (task-prompts): 给模型的实际指令;
- 一个 变异提示词 (mutation-prompt): 描述如何变异任务提示词的指令;
- (可选) 少量正确推理示例,用于少样本评估。
自指式的关键机制
传统的进化算法通常依赖于固定的变异规则——例如“使指令更简洁”。而 Promptbreeder 做了更有趣的事情: 它让 LLM 自己进化这些规则。
这个过程称为 超变异 (hypermutation),即变异提示词的变异。
因此,在 Promptbreeder 中,系统不仅会进化像:
“让我们一步一步地思考。”
这样的任务提示词,还会进化如下的变异提示词:
“用完全不同的词重新表述这条指令。”
“简化这条指令,就像在向孩子解释一样。”
这种递归设置意味着系统在提升它提升自己的方式。它既进化提示词的内容,也进化这些提示词变化的过程——这就是一个真正的自指式自我改进循环。
图 2: 从直接变异到超变异。Promptbreeder (d) 同时进化任务提示词和生成它们的变异提示词。
创造力的引擎: 变异算子
进化离不开多样性。为避免停滞,Promptbreeder 使用了跨越五大类的 九种变异算子,每次复制事件随机选择其中一种。
1. 直接变异
- 零阶 (Zero-order): 仅使用问题描述 (例如,“解决这个数学应用题”) 从零生成新任务提示词,注入随机性并重置多样性。
- 一阶 (First-order): 将一个变异提示词与父任务提示词结合,生成新的变体。例如:
用另一种方式再说那条指令。
→ 应用于解决这个数学应用题。
2. 分布估计算法变异 (EDA)
这些算子不依赖单个父代,而是考察整个种群。系统会向 LLM 展示一个经过筛选的多样化提示词列表,并让它“续写这个列表”,生成符合成功模式的新提示词。
一个巧妙的变体是按适应度对提示词排序,但告诉 LLM 它们是降序排列。这种故意的矛盾能促使模型生成多样且高质量的后代。
3. 超变异: 自我改进循环
- 零阶超变异 (Zero-order Hyper-Mutation): 用问题描述和思维风格生成一个新的变异提示词。
- 一阶超变异 (First-order Hyper-Mutation): 对现有变异提示词应用一个元变异指令,例如“请总结并改进以下指令”,生成新的变异提示词,并立即通过进化一个任务提示词进行测试。
4. 拉马克式变异
借鉴拉马克“后天习得性状可遗传”的理念,Promptbreeder 会重用成功的推理轨迹。
它要求 LLM 根据正确的“解题过程”示例反推出新的提示词。例如:
“我给朋友一条指令和一些建议。以下是他正确的解题示例……那条指令是: ”
这种逆向工程将解决方案转化为新的通用提示模板。
5. 提示词交叉与上下文重排
经典的遗传技术也在此出现:
- 提示词交叉 (Prompt Crossover): 偶尔用来自其他高表现个体的提示词替换当前提示词。
- 上下文重排 (Context Shuffling): 随机更新或重新排序少样本上下文中的示例,以保持新颖性,防止过拟合。
这些算子共同作用,让 Promptbreeder 能够探索庞大的语言策略空间,引导 LLM 产生更高效的提示启发式。
Promptbreeder 的表现如何?
DeepMind 团队在多个基准测试中评估了 Promptbreeder: 算术推理数据集 GSM8K、MultiArith,常识任务 StrategyQA,以及仇恨言论检测等复杂问题。
表 1: Promptbreeder 在多个数据集上的表现持续优于思维链、规划与解决、OPRO 和 APE 方法。
Promptbreeder 几乎在所有基准中都优于 规划与解决 Plus (PS+) 和 OPRO (Optimization by Prompting)。例如,在 GSM8K 数据集上,它的准确率达到 83.9%,超越 OPRO 的 80.2%。
Promptbreeder 发现的意外提示词
一些进化的提示词异常复杂,而另一些则令人惊叹地简洁。
表 6: 进化出的提示词示例。请注意其多样性以及某些意料之外的简洁性。
在 GSM8K 和 MultiArith 数据集上,最成功的提示词仅仅是 “SOLUTION” ——一个人类几乎不会想到的极简指令,却表现出色。对于 SVAMP 数据集,进化出的提示词是简短的 “visualise solve number”。
这些例子凸显了自动化搜索的重要性: 机器驱动的探索可发现超越人类直觉的有效策略。
观察进化过程
为展示进化过程,研究者绘制了一次典型的训练运行图。
图 3: 一次典型的进化运行。蓝点表示单次评估结果;红线表示种群平均适应度。适应度稳定提升,避免了停滞。
与那些很快达到瓶颈的旧系统不同,Promptbreeder 在成千上万次评估中持续改进——这证明了提示词进化的可持续性。
进一步分析显示哪些变异算子贡献最大:
变异算子 | 改进率 |
---|---|
零阶超变异 | 42% |
基于谱系的变异 | 26% |
一阶超变异 | 23% |
EDA 变异 | 10% |
表 8 (节选) : 在 GSM8K 数据集上最有效的算子。自指式超变异占据主导地位。
为什么自指机制至关重要
为验证各组件的重要性,研究人员进行了消融实验——逐一移除算子并测量性能下降。
图 4: 跨数据集的消融分析。每个单元格显示移除关键自指算子 (如超变异或拉马克式变异) 后性能下降的幅度。负值表示适应度降低。
结果非常明确: 去除自指机制会持续降低性能,证明学习如何自我改进是 Promptbreeder 成功的核心。
超越算术: 进化特定领域智能
Promptbreeder 不局限于数学问题。在 ETHOS 仇恨言论分类基准上,它进化出一个细致的两阶段提示,结合复杂的语言标准和上下文评估,将准确率从 80% 提升至 89%。这一适应能力展示了进化式提示在不同语言领域的可扩展性。
迈向自我改进型人工智能的未来
Promptbreeder 展示了真正自我改进 AI 的雏形。系统不通过更新数十亿神经参数,而是优化自己的思维语言,通过提示词的进化纯粹学习如何更好地引导自身。
关键要点:
- 自动化进化胜过手工设计: 进化式搜索能够发现特定领域的提示词,性能超越人工工程。
- 自指机制实现持续改进: 通过进化变异提示词,系统学会如何改进,避免停滞。
- 语言成为学习媒介: Promptbreeder 以自然语言——而非权重更新——作为自我优化的载体。
当然仍有局限性。Promptbreeder 在固定的程序框架内进化提示内容;而人类可以完全重新定义推理过程。但随着 LLM 的能力提升,这类语言层面的自我改进可能会成为通向开放、自主智能的重要桥梁。
Promptbreeder 描绘了一个未来: 模型与自身对话——不仅是为了回答问题,更是为了改善它们的思维方式。在那个未来,人工智能可能不再仅仅从数据中学习,而是通过文字的力量学习如何学习,在不断进化中完善自己的认知策略。