微调大型语言模型 (LLM) 是使其能有效解决特定现实世界任务的关键步骤。在模型于海量文本语料上完成预训练后,微调可以让它适应指令、对齐人类偏好,或掌握编程、医学、科学推理等专业领域技能。
多年来,这一过程的无可争议的“王者”一直是强化学习 (RL) ,尤其是基于人类反馈的强化学习 (RLHF) ,它驱动了 ChatGPT 等里程碑式系统的诞生。
但 RL 并不完美,它常常面临以下问题:
- 样本效率低: 需要巨量训练数据才能显著提升性能。
- 跨次运行不稳定: 即使在完全相同的设置下,表现也可能不一致。
- 容易 奖励作弊 (reward hacking) ——通过投机取巧提升奖励分数,而并非真正解决问题。
这些挑战使微调成本高、过程脆弱,有时甚至令人沮丧。
如果还有另一种方法呢?
一篇新论文——《规模化演化策略: 超越强化学习的 LLM 微调》——复活了一个源自优化领域的老理念,并证明它在当代 LLM 上同样能大放异彩。作者指出,曾被认为对十亿参数模型来说过于简单、低效的演化策略 (Evolution Strategies, ES) ,如今在准确率、稳定性和效率上都能媲美乃至超越 RL。这一发现挑战了长期共识,为 LLM 优化开辟了一条大胆的新道路。
RL vs. ES: 根本区别
在介绍方法之前,先看看 RL 与 ES 的差异:
强化学习 (RL) :
RL 将 LLM 视为一个在动作空间探索的智能体——在语言任务中,这些“动作”就是词元 (token) 的选择。模型按顺序逐个生成词元,在末尾根据整体输出获得奖励,然后必须推断出成功背后的词元组合。这种信度分配问题在奖励只在最后出现 (“长时程奖励”) 时尤其困难。
演化策略 (ES) :
ES 不去调整动作,而是直接在参数空间——即模型的数十亿权重——中进行搜索。每次迭代包括:
- 起点: 从一个基础模型 (“父代”) 开始。
- 扰动: 向父代参数加入少量高斯噪声,生成“种群”中的多个变体模型。
- 评估: 在任务上测试每个扰动模型,并分配“适应度”奖励。
- 更新: 将噪声向量按奖励加权平均,更新父代,使其朝更优解前进。
- 重复: 直至收敛。
历来很多研究者认为 ES 无法高效探索 LLM 参数空间的天文级维度——就像“在宇宙级的草堆里找针”。这篇论文证明事实并非如此。
扩展 ES 以适应十亿参数的 LLM
作者的核心贡献是提出一种内存高效、可并行化的 ES,专为超大模型微调而设计。
基础 ES 循环
给定参数 \(\theta_{t-1}\),我们:
- 采样 \(N\) 个噪声向量 \(\varepsilon_n\)
- 计算每个扰动模型的奖励 \(R_n\)
- 更新: \[ \theta_t \leftarrow \theta_{t-1} + \alpha \cdot \frac{1}{N} \sum_{n=1}^{N} R_n\, \varepsilon_n \] 其中 \(\alpha\) 为学习率。
图: 算法 1: ES 循环的高层视图——扰动、评估和更新。
让它在大规模上可行
在常规 GPU 上,同时存储和运行 \(N\) 份完整的 7B 参数模型副本几乎不可能。作者用以下创新解决了这一难题:
图: 算法 2: 为 LLM 微调而优化的 ES 内存与并行计算实现。
噪声种子:
不保存庞大的 \(\varepsilon_n\) 向量,仅保存它们的随机种子,根据需要再生成原噪声。并行评估:
扰动模型间相互独立——非常适合 GPU 或集群节点的分布式计算。逐层原地扰动:
给某一层加噪声,运行前向计算,记录奖励,再减去噪声恢复原状——全程原地操作,显著降低内存占用。确定性解码:
评估时采用贪心解码,确保差异源于参数变化而非采样随机性。奖励归一化:
每代内将奖励转为 z-score,保持尺度一致性。
这些工程优化让十亿参数模型的 ES 微调不仅可行,而且高效。
实验 1: Countdown 推理任务
Countdown 任务要求模型用给定数字组成算式,精确抵达目标值。
例如: 用 \(\{100, 50, 6, 3\}\) 得到 950。解法之一:
这是一个长时程任务: 只有最终答案完全正确才有奖励,非常适合检验 RL 的弱项。
图: 表 1: Countdown 任务准确率 (%) ,涵盖 Qwen 与 LLaMA——ES 每次都胜出。
主要发现
ES 全面超越 RL:
从最小 (Qwen-0.5B) 到最大 (LLaMA-8B) ,ES 都拿下更高准确率。小模型也受益显著:
PPO/GRPO 对 Qwen-0.5B 几乎无效 (准确率 0.3%) ;ES 将其提升到 14.4%,即便弱基座也能解锁推理能。样本效率高:
探索数十亿参数空间时,ES 用更少样本达成更高准确率。小种群足够:
旧 ES 对百万参数模型需 10,000+ 候选;此处对于十亿参数只需 N=30。
图: 训练曲线——ES 攀升更快、更高。
图: 相对提升——ES 在所有模型中始终领先。
实验 2: 简洁性微调
第二个测试针对行为微调: 让回答更简短。奖励只看长度,不关心正确性,这种设定很容易出现奖励作弊。
评估指标:
- 简洁度奖励
- **与基础模型的 KL 散度 **(KL 低 → 保持原能力)
结果绘制在**帕累托前沿 **(奖励 vs. KL 权衡) 图上:
图: ES 的帕累托前沿全面领先——实现更优奖励/KL 权衡。
观察:
- 权衡更优: ES 前沿全面超过 GRPO。
- 无奖励作弊: GRPO 在无 KL 惩罚时常生成无意义输出骗取奖励,ES 从未这样,即使无约束时亦然。
- 稳定性更高: 多次运行中,ES 的奖励与 KL 方差均远低于 GRPO。
图: 运行稳定性——ES 全面优于 GRPO。
ES 为何出色?崎岖景观假说
作者将 ES 的优势归因于其探索方式:
RL:
每个词元注噪 → 高方差;信度分配混乱;长文本中梯度信噪比低;易被奖励作弊利用。ES:
每个模型一次性注噪,确定性推理 → 方差低;优化的是解的分布,更难被利用操控。
崎岖的奖励景观:
在大型 LLM 中,参数到奖励的映射往往极不规则,梯度易陷于微小局部峰。ES 的高斯参数噪声能平滑景观,助于找到真正高峰。
启示: 重新思考 LLM 微调
这项研究表明,ES 并非过时,而是 RL 的强有力替代方案,且优势明显:
准确率与效率:
在困难且稀疏奖励的推理任务上胜过 RL。安全与稳定性:
更少的作弊、更高一致性——对生产环境微调至关重要。参数空间探索回归:
复活了一条曾被放弃的路径,或将改变大规模后训练格局。
借助演化的简单而强大的原则,作者展示了即使是数十亿参数的最先进 LLM,也能用 ES 高效、稳健、安全地优化。
这篇论文不仅提出了新方法,更呼吁整个领域重新思考规模化训练 AI 的方式。事实证明,演化仍有妙招。