演化反击：一种出乎意料且强大的 LLM 微调方法

微调大型语言模型 (LLM) 是使其能有效解决特定现实世界任务的关键步骤。在模型于海量文本语料上完成预训练后，微调可以让它适应指令、对齐人类偏好，或掌握编程、医学、科学推理等专业领域技能。

多年来，这一过程的无可争议的“王者”一直是强化学习 (RL) ，尤其是基于人类反馈的强化学习 (RLHF) ，它驱动了 ChatGPT 等里程碑式系统的诞生。

但 RL 并不完美，它常常面临以下问题:

样本效率低: 需要巨量训练数据才能显著提升性能。
跨次运行不稳定: 即使在完全相同的设置下，表现也可能不一致。
容易 奖励作弊 (reward hacking) ——通过投机取巧提升奖励分数，而并非真正解决问题。

这些挑战使微调成本高、过程脆弱，有时甚至令人沮丧。

如果还有另一种方法呢？
一篇新论文——《规模化演化策略: 超越强化学习的 LLM 微调》——复活了一个源自优化领域的老理念，并证明它在当代 LLM 上同样能大放异彩。作者指出，曾被认为对十亿参数模型来说过于简单、低效的演化策略 (Evolution Strategies, ES) ，如今在准确率、稳定性和效率上都能媲美乃至超越 RL。这一发现挑战了长期共识，为 LLM 优化开辟了一条大胆的新道路。

RL vs. ES: 根本区别

在介绍方法之前，先看看 RL 与 ES 的差异:

强化学习 (RL) :
RL 将 LLM 视为一个在动作空间探索的智能体——在语言任务中，这些“动作”就是词元 (token) 的选择。模型按顺序逐个生成词元，在末尾根据整体输出获得奖励，然后必须推断出成功背后的词元组合。这种信度分配问题在奖励只在最后出现 (“长时程奖励”) 时尤其困难。

演化策略 (ES) :
ES 不去调整动作，而是直接在参数空间——即模型的数十亿权重——中进行搜索。每次迭代包括:

起点: 从一个基础模型 (“父代”) 开始。
扰动: 向父代参数加入少量高斯噪声，生成“种群”中的多个变体模型。
评估: 在任务上测试每个扰动模型，并分配“适应度”奖励。
更新: 将噪声向量按奖励加权平均，更新父代，使其朝更优解前进。
重复: 直至收敛。

历来很多研究者认为 ES 无法高效探索 LLM 参数空间的天文级维度——就像“在宇宙级的草堆里找针”。这篇论文证明事实并非如此。

扩展 ES 以适应十亿参数的 LLM

作者的核心贡献是提出一种内存高效、可并行化的 ES，专为超大模型微调而设计。

基础 ES 循环

给定参数 \(\theta_{t-1}\)，我们:

采样 \(N\) 个噪声向量 \(\varepsilon_n\)
计算每个扰动模型的奖励 \(R_n\)
更新: \[ \theta_t \leftarrow \theta_{t-1} + \alpha \cdot \frac{1}{N} \sum_{n=1}^{N} R_n\, \varepsilon_n \] 其中 \(\alpha\) 为学习率。

图: 算法 1: ES 循环的高层视图——扰动、评估和更新。

让它在大规模上可行

在常规 GPU 上，同时存储和运行 \(N\) 份完整的 7B 参数模型副本几乎不可能。作者用以下创新解决了这一难题:

图: 算法 2: 为 LLM 微调而优化的 ES 内存与并行计算实现。

噪声种子:
不保存庞大的 \(\varepsilon_n\) 向量，仅保存它们的随机种子，根据需要再生成原噪声。
并行评估:
扰动模型间相互独立——非常适合 GPU 或集群节点的分布式计算。
逐层原地扰动:
给某一层加噪声，运行前向计算，记录奖励，再减去噪声恢复原状——全程原地操作，显著降低内存占用。
确定性解码:
评估时采用贪心解码，确保差异源于参数变化而非采样随机性。
奖励归一化:
每代内将奖励转为 z-score，保持尺度一致性。

这些工程优化让十亿参数模型的 ES 微调不仅可行，而且高效。

实验 1: Countdown 推理任务

Countdown 任务要求模型用给定数字组成算式，精确抵达目标值。
例如: 用 \(\{100, 50, 6, 3\}\) 得到 950。解法之一:

\[ 100 \times (6+3) + 50 = 950 \]

这是一个长时程任务: 只有最终答案完全正确才有奖励，非常适合检验 RL 的弱项。

图: 表 1: Countdown 任务准确率 (%) ，涵盖 Qwen 与 LLaMA——ES 每次都胜出。

主要发现

ES 全面超越 RL:
从最小 (Qwen-0.5B) 到最大 (LLaMA-8B) ，ES 都拿下更高准确率。
小模型也受益显著:
PPO/GRPO 对 Qwen-0.5B 几乎无效 (准确率 0.3%) ；ES 将其提升到 14.4%，即便弱基座也能解锁推理能。
样本效率高:
探索数十亿参数空间时，ES 用更少样本达成更高准确率。
小种群足够:
旧 ES 对百万参数模型需 10,000+ 候选；此处对于十亿参数只需 N=30。

图: 训练曲线——ES 攀升更快、更高。

图: 相对提升——ES 在所有模型中始终领先。

实验 2: 简洁性微调

第二个测试针对行为微调: 让回答更简短。奖励只看长度，不关心正确性，这种设定很容易出现奖励作弊。

评估指标:

简洁度奖励
**与基础模型的 KL 散度 **(KL 低 → 保持原能力)

结果绘制在**帕累托前沿 **(奖励 vs. KL 权衡) 图上:

图: ES 的帕累托前沿全面领先——实现更优奖励/KL 权衡。

观察:

权衡更优: ES 前沿全面超过 GRPO。
无奖励作弊: GRPO 在无 KL 惩罚时常生成无意义输出骗取奖励，ES 从未这样，即使无约束时亦然。
稳定性更高: 多次运行中，ES 的奖励与 KL 方差均远低于 GRPO。

图: 运行稳定性——ES 全面优于 GRPO。

ES 为何出色？崎岖景观假说

作者将 ES 的优势归因于其探索方式:

RL:
每个词元注噪 → 高方差；信度分配混乱；长文本中梯度信噪比低；易被奖励作弊利用。
ES:
每个模型一次性注噪，确定性推理 → 方差低；优化的是解的分布，更难被利用操控。

崎岖的奖励景观:
在大型 LLM 中，参数到奖励的映射往往极不规则，梯度易陷于微小局部峰。ES 的高斯参数噪声能平滑景观，助于找到真正高峰。

启示: 重新思考 LLM 微调

这项研究表明，ES 并非过时，而是 RL 的强有力替代方案，且优势明显:

准确率与效率:
在困难且稀疏奖励的推理任务上胜过 RL。
安全与稳定性:
更少的作弊、更高一致性——对生产环境微调至关重要。
参数空间探索回归:
复活了一条曾被放弃的路径，或将改变大规模后训练格局。

借助演化的简单而强大的原则，作者展示了即使是数十亿参数的最先进 LLM，也能用 ES 高效、稳健、安全地优化。

这篇论文不仅提出了新方法，更呼吁整个领域重新思考规模化训练 AI 的方式。事实证明，演化仍有妙招。

RL vs. ES: 根本区别#

扩展 ES 以适应十亿参数的 LLM#

基础 ES 循环#

让它在大规模上可行#

实验 1: Countdown 推理任务#

主要发现#

实验 2: 简洁性微调#

观察:#

ES 为何出色？崎岖景观假说#

启示: 重新思考 LLM 微调#