大型语言模型 (LLMs) 在解决复杂推理任务方面正变得异常出色,从解答数学竞赛题到编写代码。推动这一进步的关键技术是强化学习 (RL) ,尤其是其中一种名为基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 的范式。在 RLVR 中,我们将大语言模型的推理过程——即其“思维链”——视作一系列动作。如果最终答案正确,模型将获得奖励。这是一种简单却强大的方法,可以教会模型更好地“思考”。

但问题在于,大多数 RLVR 方法是在线 (on-policy) 的。想象你正在为数学考试做练习: 解完一道题,核对答案,学到了一点东西——然后把草稿纸揉成一团扔掉,再也不看。这基本上就是在线训练的过程: 生成一批推理尝试 (经验) ,用于一次梯度更新后就丢弃。这种方式效率极低,既浪费了大量算力,也错失了从过去的成功失败中学习的机会。

如果我们不扔掉草稿纸,而是将这些尝试整理成一本井井有条的笔记呢?如果我们能够反复回顾那些最有洞察力的解法,并再次学习呢?这正是经验回放 (experience replay) 背后的核心思想——一种经典的强化学习技术。但对于大语言模型推理这样复杂而微妙的任务来说,一个简单的回放缓冲区并不足够。我们必须先回答一个根本性问题:

是什么让一段推理经验有价值?

一篇新论文 《EXGRPO: Learning to Reason from Experience》 直面了这一问题。研究人员首先探究了有价值经验的特性,然后基于这些洞见提出了 ExGRPO (Experiential Group Relative Policy Optimization,经验组相对策略优化) ——一个能够智能管理并重用过去推理轨迹的框架。结果令人瞩目: ExGRPO 不仅显著提升了推理性能,还为那些标准在线方法完全失效的模型稳定了训练过程。

让我们深入了解。

背景: 构建推理型强化学习的基石

在揭示 ExGRPO 的秘诀之前,我们先简要回顾它建立在的两个基本概念: RLVR 和 GRPO。

基于可验证奖励的强化学习 (RLVR)

在 RLVR 中:

  • 智能体 (Agent) : 大语言模型。
  • 动作 (Action) : 在推理链中生成下一个词元 (例如,证明中的一个步骤) 。
  • 轨迹 (Trajectory) : 完整的思维链解法。
  • 奖励 (Reward) : “可验证”部分——像数学这样的任务可以自动核对答案。奖励函数通常是二元的: 答对得 +1,答错得 0。

可验证任务的简单二元奖励函数。

图: RLVR 中的二元奖励——正确答案为 +1,否则为 0。

这种设置使强化学习算法能够优化模型的策略 (即生成词元的策略) ,以最大化这些 +1 奖励。

组相对策略优化 (GRPO)

要估计某个给定动作比平均水平更好的程度 (即其优势) ,通常需要一个单独的价值模型,这会增加复杂性。GRPO 是一个巧妙的替代方案: 它为同一个问题生成一组 \(K\) 个解答,然后将每个解答的奖励与该组的平均奖励进行比较。

如果某条轨迹获得了 1 分奖励,而组平均值很低,它就会得到很高的优势信号。形式化地:

GRPO 优势估计公式。

图: GRPO 通过将每条轨迹的奖励与组平均值进行归一化来估计优势。

在线 GRPO 的目标是提高生成高优势轨迹的概率:

在线 GRPO 目标函数。

图: 在线 GRPO 目标函数。

GRPO 很强大——但它仍然是在线方式。每一组解答生成一次,用完即弃。这正是 ExGRPO 要解决的低效问题。

什么让推理经验有价值?一项初步研究

在构建回放缓冲区之前,ExGRPO 的作者们先提出了一个问题: 到底什么经验值得存进去?

他们用标准在线 RLVR 训练了一个模型,并分析了数千条推理轨迹。

发现 1: 难度的“最佳区间”

他们根据模型的实时成功率将问题分成三类:

  • 简单: 成功率 75–100%。
  • 中等: 成功率 25–75%。
  • 困难: 成功率 0–25%。

仅用一种难度等级数据训练的模型在图 1a 中显示:** 中等难度带来了最佳性能。**

在线 RLVR 训练中问题难度与熵的分析: (a) 按难度划分的性能;(b) 正确/错误推理链之间的熵差距;(c) 难度与熵分布的关系。

图 1: (a) 中等难度问题带来最佳性能。(b) 正确推理链的熵低于错误推理链。(c) 中等难度问题的低熵分布最集中。

简单问题几乎不提供新信息;困难问题的信号稀疏且嘈杂。中等难度正好处于“最近发展区”——既具挑战性,又可被有效学习。

发现 2: 低熵标志高质量推理

最终答案正确并不意味着推理过程合理——模型可能只是蒙对。作者们使用 Qwen3-32B 作为外部评审来判断逻辑有效性。

他们测量了**熵 **(每个词元的不确定性) 。正确推理始终表现出低于错误推理的熵。因此,当存在多个正确解法时,选择熵最低的那个,其推理过程最可能真正合理

中等难度问题也更集中地包含这些低熵且正确的解法,进一步证明了其价值。

由此得出:

  1. 优先处理中等难度问题。
  2. 在其中回放熵最低的成功轨迹。

ExGRPO 框架: 智能经验管理 + 优化

基于这些洞见,团队设计了 ExGRPO (见图 2) ,由两个主要阶段组成:** 经验管理混合策略经验优化**。

ExGRPO 概览: (a) 经验管理流程;(b) 策略优化结合在线与回放数据。

图 2: ExGRPO 流程——管理经验,然后与新生成的轨迹结合优化。

阶段 1: 经验管理

它并非先进先出 (FIFO) ,而是有结构地在恰当时机选出最有价值的数据。

  1. 收集: 训练过程中,每条成功轨迹都会被存储: 问题 + 轨迹 + 最新成功率。
  2. 分区: 按当前成功率 (0–25%、25–50% 等) 将缓冲区划分为多个桶。完全掌握的问题被移至退休集合 (Retired Set) ,避免在易题上浪费更新。
  3. 选择:
    • 问题采样: 采用以 50% 成功率为中心的高斯采样,偏向中等难度问题。
    • 轨迹选择: 从已存的成功轨迹中,选择当前策略下熵最低的一条。

阶段 2: 经验性策略优化

每个批次混合了在线样本 (探索) 与经验回放样本 (利用) ,按比例 \( \rho \) 控制。最终损失函数将在线数据的标准 GRPO 与回放数据的带重要性加权项结合。

ExGRPO 目标函数中的在线部分。

图: 在线 GRPO 损失。

ExGRPO 目标函数中的离线经验部分。

图: 带重要性加权的离线经验损失,用于修正过时策略的数据。

两项稳定机制:

  • 策略塑形: 对重要性权重施加非线性变换,抑制过强信号以保持探索性。
  • 延迟启动: 仅在性能达到阈值后才开始回放,避免使用早期低质数据。

结果: 更好、更快、更稳定

团队在五个骨干模型 (Qwen 和 Llama 系列,参数从 15 亿到 80 亿) 上,跨九个数学和通用推理基准,测试了 ExGRPO。

持续提升

在表 1 中,ExGRPO 每次都优于在线 RLVR。在 Qwen2.5-Math-7B 上:** 分布内平均提升 3.5 分**,分布外平均提升 7.6 分。在 AIME 等高难度集合上尤其显著。

总体性能: Qwen2.5-Math-7B。ExGRPO 明显优于基线。

图: 基准性能对比: ExGRPO 优于在线 RLVR。

在不同架构与规模下 (图 3) ,ExGRPO 保持稳健:

不同模型的基准性能: ExGRPO (粉色) 持续优于在线 RLVR (蓝色) 。

图 3: 不同规模与调优状态下的性能 gains。

稳定弱模型

对于 Llama-3.1 8B 基础模型,在线训练完全崩溃——奖励接近零,熵飙升,回复冗长。ExGRPO 通过回放早期的“幸运命中”稳定了信号,避免了崩溃。

训练动态: 在线 (蓝) 崩溃,ExGRPO (粉) 保持稳定。

图 4: ExGRPO 挽救了训练崩溃。

不仅是回放什么——更在于如何回放

消融实验 (图 7) 表明,去掉问题选择、轨迹选择或策略塑形中的任一部分都会降低性能。回放比例同样关键: \( \rho = 50% \) 达到最佳平衡。比例过高 (75%) 抑制探索;过低 (25%) 则未充分利用经验。

经验缓冲区的动态: 科学选择优于盲目堆量。

图 6: 回放效率取决于智能选择与平衡。

消融结果: 完整 ExGRPO (粉) 优于缺少组件的版本。

图 7: 每个组件都是达到最佳性能的关键。

结论: 经验时代

ExGRPO 论文提出了有力观点: 要让大语言模型变成更好的推理者,它们必须更有效地从自身经验中学习。通过打破浪费的在线范式,ExGRPO 展示了有原则的经验管理能够释放效率、稳定性和可扩展性。

关键结论:

  • 并非所有经验都平等: 中等难度且低熵成功的题目是优质训练燃料。
  • 结构很重要: 基于难度与熵优先级的有组织回放能带来显著收益。
  • 平衡是关键: 过去与新数据的合理结合既能稳定又能加速学习,甚至能挽救失败的训练。

随着模型规模的持续增长,学会从经验中进行推理将不仅是优势,而是必需品