微调大型语言模型 (LLM) 是使其能有效解决特定现实世界任务的关键步骤。在模型于海量文本语料上完成预训练后,微调可以让它适应指令、对齐人类偏好,或掌握编程、医学、科学推理等专业领域技能。

多年来,这一过程的无可争议的“王者”一直是强化学习 (RL) ,尤其是基于人类反馈的强化学习 (RLHF) ,它驱动了 ChatGPT 等里程碑式系统的诞生。

但 RL 并不完美,它常常面临以下问题:

  • 样本效率低: 需要巨量训练数据才能显著提升性能。
  • 跨次运行不稳定: 即使在完全相同的设置下,表现也可能不一致。
  • 容易 奖励作弊 (reward hacking) ——通过投机取巧提升奖励分数,而并非真正解决问题。

这些挑战使微调成本高、过程脆弱,有时甚至令人沮丧。

如果还有另一种方法呢?
一篇新论文——《规模化演化策略: 超越强化学习的 LLM 微调》——复活了一个源自优化领域的老理念,并证明它在当代 LLM 上同样能大放异彩。作者指出,曾被认为对十亿参数模型来说过于简单、低效的演化策略 (Evolution Strategies, ES) ,如今在准确率、稳定性和效率上都能媲美乃至超越 RL。这一发现挑战了长期共识,为 LLM 优化开辟了一条大胆的新道路。


RL vs. ES: 根本区别

在介绍方法之前,先看看 RL 与 ES 的差异:

强化学习 (RL) :
RL 将 LLM 视为一个在动作空间探索的智能体——在语言任务中,这些“动作”就是词元 (token) 的选择。模型按顺序逐个生成词元,在末尾根据整体输出获得奖励,然后必须推断出成功背后的词元组合。这种信度分配问题在奖励只在最后出现 (“长时程奖励”) 时尤其困难。

演化策略 (ES) :
ES 不去调整动作,而是直接在参数空间——即模型的数十亿权重——中进行搜索。每次迭代包括:

  1. 起点: 从一个基础模型 (“父代”) 开始。
  2. 扰动: 向父代参数加入少量高斯噪声,生成“种群”中的多个变体模型。
  3. 评估: 在任务上测试每个扰动模型,并分配“适应度”奖励。
  4. 更新: 将噪声向量按奖励加权平均,更新父代,使其朝更优解前进。
  5. 重复: 直至收敛。

历来很多研究者认为 ES 无法高效探索 LLM 参数空间的天文级维度——就像“在宇宙级的草堆里找针”。这篇论文证明事实并非如此。


扩展 ES 以适应十亿参数的 LLM

作者的核心贡献是提出一种内存高效、可并行化的 ES,专为超大模型微调而设计。

基础 ES 循环

给定参数 \(\theta_{t-1}\),我们:

  • 采样 \(N\) 个噪声向量 \(\varepsilon_n\)
  • 计算每个扰动模型的奖励 \(R_n\)
  • 更新: \[ \theta_t \leftarrow \theta_{t-1} + \alpha \cdot \frac{1}{N} \sum_{n=1}^{N} R_n\, \varepsilon_n \] 其中 \(\alpha\) 为学习率。

算法 1 展示了演化策略循环的基本结构。
图: 算法 1: ES 循环的高层视图——扰动、评估和更新。

让它在大规模上可行

在常规 GPU 上,同时存储和运行 \(N\) 份完整的 7B 参数模型副本几乎不可能。作者用以下创新解决了这一难题:

算法 2 详细介绍了用于 LLM 微调的内存高效和并行化 ES 实现。
图: 算法 2: 为 LLM 微调而优化的 ES 内存与并行计算实现。

  1. 噪声种子:
    不保存庞大的 \(\varepsilon_n\) 向量,仅保存它们的随机种子,根据需要再生成原噪声。

  2. 并行评估:
    扰动模型间相互独立——非常适合 GPU 或集群节点的分布式计算。

  3. 逐层原地扰动:
    给某一层加噪声,运行前向计算,记录奖励,再减去噪声恢复原状——全程原地操作,显著降低内存占用。

  4. 确定性解码:
    评估时采用贪心解码,确保差异源于参数变化而非采样随机性。

  5. 奖励归一化:
    每代内将奖励转为 z-score,保持尺度一致性。

这些工程优化让十亿参数模型的 ES 微调不仅可行,而且高效。


实验 1: Countdown 推理任务

Countdown 任务要求模型用给定数字组成算式,精确抵达目标值。
例如: 用 \(\{100, 50, 6, 3\}\) 得到 950。解法之一:

\[ 100 \times (6+3) + 50 = 950 \]

这是一个长时程任务: 只有最终答案完全正确才有奖励,非常适合检验 RL 的弱项。

表 1 显示了模型在 Countdown 任务上使用 PPO、GRPO 和 ES 微调后的准确率。ES 在所有尺寸的模型上均取得最高准确率。
图: 表 1: Countdown 任务准确率 (%) ,涵盖 Qwen 与 LLaMA——ES 每次都胜出。

主要发现

  • ES 全面超越 RL:
    从最小 (Qwen-0.5B) 到最大 (LLaMA-8B) ,ES 都拿下更高准确率。

  • 小模型也受益显著:
    PPO/GRPO 对 Qwen-0.5B 几乎无效 (准确率 0.3%) ;ES 将其提升到 14.4%,即便弱基座也能解锁推理能。

  • 样本效率高:
    探索数十亿参数空间时,ES 用更少样本达成更高准确率。

  • 小种群足够:
    旧 ES 对百万参数模型需 10,000+ 候选;此处对于十亿参数只需 N=30

图 6 显示了 ES 和 RL 方法的训练曲线。ES 在所有情况下都上升更快且更高。
图: 训练曲线——ES 攀升更快、更高。
图 5 显示了相对基础模型的提升百分比;ES 条形在所有案例中最高。
图: 相对提升——ES 在所有模型中始终领先。


实验 2: 简洁性微调

第二个测试针对行为微调: 让回答更简短。奖励只看长度,不关心正确性,这种设定很容易出现奖励作弊

评估指标:

  • 简洁度奖励
  • **与基础模型的 KL 散度 **(KL 低 → 保持原能力)

结果绘制在**帕累托前沿 **(奖励 vs. KL 权衡) 图上:

图 1 显示 ES (蓝色) 与 GRPO (黑色) 的帕累托前沿;ES 在更低 KL 下获得更高奖励。
图: ES 的帕累托前沿全面领先——实现更优奖励/KL 权衡。

观察:

  • 权衡更优: ES 前沿全面超过 GRPO。
  • 无奖励作弊: GRPO 在无 KL 惩罚时常生成无意义输出骗取奖励,ES 从未这样,即使无约束时亦然。
  • 稳定性更高: 多次运行中,ES 的奖励与 KL 方差均远低于 GRPO。

表 2 显示多次运行中简洁度奖励与 KL 的均值和标准差。ES 更稳定;GRPO 存在奖励作弊 (*) 。
图: 运行稳定性——ES 全面优于 GRPO。


ES 为何出色?崎岖景观假说

作者将 ES 的优势归因于其探索方式:

  • RL:
    每个词元注噪 → 高方差;信度分配混乱;长文本中梯度信噪比低;易被奖励作弊利用。

  • ES:
    每个模型一次性注噪,确定性推理 → 方差低;优化的是解的分布,更难被利用操控。

崎岖的奖励景观:
在大型 LLM 中,参数到奖励的映射往往极不规则,梯度易陷于微小局部峰。ES 的高斯参数噪声能平滑景观,助于找到真正高峰。


启示: 重新思考 LLM 微调

这项研究表明,ES 并非过时,而是 RL 的强有力替代方案,且优势明显:

  • 准确率与效率:
    在困难且稀疏奖励的推理任务上胜过 RL。

  • 安全与稳定性:
    更少的作弊、更高一致性——对生产环境微调至关重要。

  • 参数空间探索回归:
    复活了一条曾被放弃的路径,或将改变大规模后训练格局。

借助演化的简单而强大的原则,作者展示了即使是数十亿参数的最先进 LLM,也能用 ES 高效、稳健、安全地优化。

这篇论文不仅提出了新方法,更呼吁整个领域重新思考规模化训练 AI 的方式。事实证明,演化仍有妙招。