大型语言模型 (LLMs) 在解决复杂推理任务方面正变得异常出色,从解答数学竞赛题到编写代码。推动这一进步的关键技术是强化学习 (RL) ,尤其是其中一种名为基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 的范式。在 RLVR 中,我们将大语言模型的推理过程——即其“思维链”——视作一系列动作。如果最终答案正确,模型将获得奖励。这是一种简单却强大的方法,可以教会模型更好地“思考”。
但问题在于,大多数 RLVR 方法是在线 (on-policy) 的。想象你正在为数学考试做练习: 解完一道题,核对答案,学到了一点东西——然后把草稿纸揉成一团扔掉,再也不看。这基本上就是在线训练的过程: 生成一批推理尝试 (经验) ,用于一次梯度更新后就丢弃。这种方式效率极低,既浪费了大量算力,也错失了从过去的成功和失败中学习的机会。
如果我们不扔掉草稿纸,而是将这些尝试整理成一本井井有条的笔记呢?如果我们能够反复回顾那些最有洞察力的解法,并再次学习呢?这正是经验回放 (experience replay) 背后的核心思想——一种经典的强化学习技术。但对于大语言模型推理这样复杂而微妙的任务来说,一个简单的回放缓冲区并不足够。我们必须先回答一个根本性问题:
是什么让一段推理经验有价值?
一篇新论文 《EXGRPO: Learning to Reason from Experience》 直面了这一问题。研究人员首先探究了有价值经验的特性,然后基于这些洞见提出了 ExGRPO (Experiential Group Relative Policy Optimization,经验组相对策略优化) ——一个能够智能管理并重用过去推理轨迹的框架。结果令人瞩目: ExGRPO 不仅显著提升了推理性能,还为那些标准在线方法完全失效的模型稳定了训练过程。
让我们深入了解。
背景: 构建推理型强化学习的基石
在揭示 ExGRPO 的秘诀之前,我们先简要回顾它建立在的两个基本概念: RLVR 和 GRPO。
基于可验证奖励的强化学习 (RLVR)
在 RLVR 中:
- 智能体 (Agent) : 大语言模型。
- 动作 (Action) : 在推理链中生成下一个词元 (例如,证明中的一个步骤) 。
- 轨迹 (Trajectory) : 完整的思维链解法。
- 奖励 (Reward) : “可验证”部分——像数学这样的任务可以自动核对答案。奖励函数通常是二元的: 答对得 +1,答错得 0。
图: RLVR 中的二元奖励——正确答案为 +1,否则为 0。
这种设置使强化学习算法能够优化模型的策略 (即生成词元的策略) ,以最大化这些 +1 奖励。
组相对策略优化 (GRPO)
要估计某个给定动作比平均水平更好的程度 (即其优势) ,通常需要一个单独的价值模型,这会增加复杂性。GRPO 是一个巧妙的替代方案: 它为同一个问题生成一组 \(K\) 个解答,然后将每个解答的奖励与该组的平均奖励进行比较。
如果某条轨迹获得了 1 分奖励,而组平均值很低,它就会得到很高的优势信号。形式化地:
图: GRPO 通过将每条轨迹的奖励与组平均值进行归一化来估计优势。
在线 GRPO 的目标是提高生成高优势轨迹的概率:
图: 在线 GRPO 目标函数。
GRPO 很强大——但它仍然是在线方式。每一组解答生成一次,用完即弃。这正是 ExGRPO 要解决的低效问题。
什么让推理经验有价值?一项初步研究
在构建回放缓冲区之前,ExGRPO 的作者们先提出了一个问题: 到底什么经验值得存进去?
他们用标准在线 RLVR 训练了一个模型,并分析了数千条推理轨迹。
发现 1: 难度的“最佳区间”
他们根据模型的实时成功率将问题分成三类:
- 简单: 成功率 75–100%。
- 中等: 成功率 25–75%。
- 困难: 成功率 0–25%。
仅用一种难度等级数据训练的模型在图 1a 中显示:** 中等难度带来了最佳性能。**
图 1: (a) 中等难度问题带来最佳性能。(b) 正确推理链的熵低于错误推理链。(c) 中等难度问题的低熵分布最集中。
简单问题几乎不提供新信息;困难问题的信号稀疏且嘈杂。中等难度正好处于“最近发展区”——既具挑战性,又可被有效学习。
发现 2: 低熵标志高质量推理
最终答案正确并不意味着推理过程合理——模型可能只是蒙对。作者们使用 Qwen3-32B 作为外部评审来判断逻辑有效性。
他们测量了**熵 **(每个词元的不确定性) 。正确推理始终表现出低于错误推理的熵。因此,当存在多个正确解法时,选择熵最低的那个,其推理过程最可能真正合理。
中等难度问题也更集中地包含这些低熵且正确的解法,进一步证明了其价值。
由此得出:
- 优先处理中等难度问题。
- 在其中回放熵最低的成功轨迹。
ExGRPO 框架: 智能经验管理 + 优化
基于这些洞见,团队设计了 ExGRPO (见图 2) ,由两个主要阶段组成:** 经验管理与混合策略经验优化**。
图 2: ExGRPO 流程——管理经验,然后与新生成的轨迹结合优化。
阶段 1: 经验管理
它并非先进先出 (FIFO) ,而是有结构地在恰当时机选出最有价值的数据。
- 收集: 训练过程中,每条成功轨迹都会被存储: 问题 + 轨迹 + 最新成功率。
- 分区: 按当前成功率 (0–25%、25–50% 等) 将缓冲区划分为多个桶。完全掌握的问题被移至退休集合 (Retired Set) ,避免在易题上浪费更新。
- 选择:
- 问题采样: 采用以 50% 成功率为中心的高斯采样,偏向中等难度问题。
- 轨迹选择: 从已存的成功轨迹中,选择当前策略下熵最低的一条。
阶段 2: 经验性策略优化
每个批次混合了在线样本 (探索) 与经验回放样本 (利用) ,按比例 \( \rho \) 控制。最终损失函数将在线数据的标准 GRPO 与回放数据的带重要性加权项结合。
图: 在线 GRPO 损失。
图: 带重要性加权的离线经验损失,用于修正过时策略的数据。
两项稳定机制:
- 策略塑形: 对重要性权重施加非线性变换,抑制过强信号以保持探索性。
- 延迟启动: 仅在性能达到阈值后才开始回放,避免使用早期低质数据。
结果: 更好、更快、更稳定
团队在五个骨干模型 (Qwen 和 Llama 系列,参数从 15 亿到 80 亿) 上,跨九个数学和通用推理基准,测试了 ExGRPO。
持续提升
在表 1 中,ExGRPO 每次都优于在线 RLVR。在 Qwen2.5-Math-7B 上:** 分布内平均提升 3.5 分**,分布外平均提升 7.6 分。在 AIME 等高难度集合上尤其显著。
图: 基准性能对比: ExGRPO 优于在线 RLVR。
在不同架构与规模下 (图 3) ,ExGRPO 保持稳健:
图 3: 不同规模与调优状态下的性能 gains。
稳定弱模型
对于 Llama-3.1 8B 基础模型,在线训练完全崩溃——奖励接近零,熵飙升,回复冗长。ExGRPO 通过回放早期的“幸运命中”稳定了信号,避免了崩溃。
图 4: ExGRPO 挽救了训练崩溃。
不仅是回放什么——更在于如何回放
消融实验 (图 7) 表明,去掉问题选择、轨迹选择或策略塑形中的任一部分都会降低性能。回放比例同样关键: \( \rho = 50% \) 达到最佳平衡。比例过高 (75%) 抑制探索;过低 (25%) 则未充分利用经验。
图 6: 回放效率取决于智能选择与平衡。
图 7: 每个组件都是达到最佳性能的关键。
结论: 经验时代
ExGRPO 论文提出了有力观点: 要让大语言模型变成更好的推理者,它们必须更有效地从自身经验中学习。通过打破浪费的在线范式,ExGRPO 展示了有原则的经验管理能够释放效率、稳定性和可扩展性。
关键结论:
- 并非所有经验都平等: 中等难度且低熵成功的题目是优质训练燃料。
- 结构很重要: 基于难度与熵优先级的有组织回放能带来显著收益。
- 平衡是关键: 过去与新数据的合理结合既能稳定又能加速学习,甚至能挽救失败的训练。
随着模型规模的持续增长,学会从经验中进行推理将不仅是优势,而是必需品。