大型语言模型 (LLM) 在复杂推理方面已经变得异常娴熟,成功解决了竞赛级数学问题、逻辑谜题和复杂的编码任务。这一进步的核心驱动力之一是带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) ——一种训练方法,解决方案会被自动检查,正确输出获得奖励,错误输出则遭受惩罚,从而形成强大的学习反馈循环。
然而,一个持续存在的挑战是,在初期的改进阶段之后,通过 RLVR 训练的模型往往会陷入顽固的性能瓶颈——继而发生崩溃。这种崩溃伴随着策略熵 (policy entropy) 的显著下降,这一指标用于衡量模型探索替代想法的程度。实际上,当熵下降时,模型会停止尝试新方法,对熟悉的解题路径过度自信,并失去创造性推理的能力。
传统上,研究人员试图通过增加随机性来对抗熵崩溃——给低熵施加惩罚,以保持“思维”开放。但腾讯混元的最新研究表明,这种粗暴的随机性可能有害。它会在真正有用的 token 之外增加大量嘈杂且不相关的 token,破坏训练稳定性,有时甚至加速崩溃。
论文《Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward》将焦点转向一个更微妙的机制——指出真正的罪魁祸首是: 那些罕见的、低概率的推理 token 被逐渐淘汰,作者将它们称为推理火花 (Reasoning Sparks) 。例如 “等等……”、“也许……”、“或者……”,尽管出现频率不高,却能开启全新的推理路径。
为了在不增加无意义噪声的前提下保护这些关键火花,研究团队提出了低概率正则化 (Low-probability Regularization, Lp-Reg) ——一种精确、有针对性的机制,可以保留有价值的稀有 token,并促进持续探索。
图 1: (a) 像“等等……”这样的“推理火花”,尽管概率很低,却能启动新的且可能正确的推理路径。(b) 标准 GRPO 训练会崩溃;添加无差别的熵奖励会加速失败。Lp-Reg 保持稳定。(c,d) GRPO 抑制了有价值的火花,熵奖励放大了不相关噪声,而 Lp-Reg 的选择性方法让探索保持高效。
背景: 用奖励训练大语言模型进行推理
在深入了解 Lp-Reg 之前,让我们回顾 RLVR 的训练流程与其所依托的基线方法。
带可验证奖励的强化学习 (RLVR)
RLVR 依托于那些最终答案可验证的任务。对于每个问题:
- LLM 接收一个提示;
- 模型生成一个思维链 (chain-of-thought) 推理过程及最终答案;
- 自动验证器 (例如数学解题检查器) 为最终答案评分;
- 模型据此获得奖励: 正确为正,错误为负。
公式表示为:
\[ \mathcal{J}_{\mathrm{RL}}(\boldsymbol{\theta}) = \mathbb{E}_{(q,a) \sim D, o \sim \pi_{\boldsymbol{\theta}}(\cdot|q)} \left[ r(o,a) \right] \]其中,策略 \(\pi_{\boldsymbol{\theta}}\) 负责为问题 \(q\) 生成输出 \(o\),我们的目标是最大化与正确答案 \(a\) 对比的奖励。
组相对策略优化 (GRPO)
GRPO 是腾讯采用的基线强化学习算法。针对一个提示,它会生成多个响应 (\(o_1, ..., o_G\)) ,进行评分并归一化,以计算每个 token 的优势 (advantage) :
\[ A_{i,t} = \frac{R(o_i) - \operatorname{mean}(\mathcal{G})}{\operatorname{std}(\mathcal{G})} \]其中 \(\mathcal{G}\) 包含该组的奖励。这些优势引导策略更新,鼓励高奖励输出,抑制低奖励输出。
然而,当低概率的推理火花出现在错误输出中时,GRPO 的更新可能会过度惩罚它们。久而久之,它们的概率会趋近于零。
核心方法: 低概率正则化 (Lp-Reg)
Lp-Reg 针对推理火花的抑制问题,引入了一种选择性保护机制。它利用模型自身的预测生成一个噪声更少的参考分布,并用该分布温和地对训练更新进行正则化。
步骤 1: 创建“噪声更少”的代理分布
Lp-Reg 从当前策略派生出一个过滤版本 \(\pi_{\text{proxy}}\),分两步执行:
- 过滤掉可能的噪声: 当 \(\pi_\theta(o|\cdot) \leq \tau\) 时,认为该 token 不相关并丢弃。阈值 \(\tau\) 可以是:
- 固定值 — 例如常数 0.02;
- 动态值 (min-p) — 等于最高概率 token 概率的一小部分 \(\kappa\),以适应分布的尖锐程度。
- 重新归一化概率: 剩余 token 的概率重新缩放,使总和为 1,从而提升保留下来的推理火花的相对权重。
图 2: 构建 \(\pi_{\text{proxy}}\)。低于阈值 \(\tau\) 的 token 被移除;余下部分重新归一化。
数学定义如下:
\[ \pi_{\text{proxy}}(o|\cdot) = \begin{cases} \frac{\pi_{\theta}(o|\cdot)}{\sum_{o'} \pi_{\theta}(o'|\cdot) \mathbb{I}[\pi_{\theta}(o'|\cdot) > \tau]} & \text{if }\pi_{\theta}(o|\cdot) > \tau \\ 0 & \text{otherwise} \end{cases} \]步骤 2: 条件正则化
该代理分布与 GRPO 相结合,引入一个前向 KL 散度惩罚项:
\[ \mathcal{D}_{KL}(\pi_{\text{proxy}} \ \|\ \pi_{\theta}) \]该惩罚项是有选择性的,仅在以下情况下才会应用:
- token 的采样概率处于批次中最低的 \(\rho\%\);
- 它在过滤后仍被保留 (\(\pi_{\text{proxy}} > 0\)) ;
- 它的优势值为负 (\(A_{i,t} < 0\)) 。
这种策略能防止模型彻底丢弃推理火花,同时允许其他位置的正常学习继续进行。
Lp-Reg 的目标: 标准 GRPO 更新 + 针对性的 KL 惩罚,以保护有价值的低概率 token。
实验与结果
顶尖准确率
在五个数学推理基准测试中,Lp-Reg 均表现出稳定优势。在 Qwen3-14B 模型上,Lp-Reg 的平均准确率达到 60.17%,比次优方法高 2.66%。
表 1: 在两种模型规模下,Lp-Reg 的平均性能领先。
训练稳定性
训练曲线显示,Lp-Reg 可以维持约 1,000 步的 on-policy 学习,而基线方法会出现平台期甚至崩溃。
图 3: 在 Qwen3-14B 上,Lp-Reg (紫色) 相比 GRPO (青色) 和 Clip-Higher (橙色) 保持了更高且更稳定的准确率。熵曲线呈健康的自适应变化。
为何有效: 消融与分析
噪声过滤至关重要
如果不进行过滤,对所有低概率 token 都施加正则化,会导致训练崩溃并引发熵飙升。
图 4: 移除 \(\tau\) 过滤器会破坏训练稳定性。关键结论: 保护火花,过滤噪声。
探索机制剖析
低概率 vs. 高熵
词云图解释了为何针对低概率 token 更有效。高熵 token 往往是普通的功能词或符号 (sqrt、\n
、times) ,而低概率 token 则富含探索性用语: “但是”、“等等”、“也许”、“或者”。
图 5: 高熵 ≠ 有意义探索。低概率 token 蕴含推理火花。
不同方法下的 Token 动态
散点图展示了 “wait” 在三种方法下的表现:
- GRPO: 被迫高概率、低熵地使用——确定性且缺乏探索;
- GRPO + 熵损失: 使用分散且嘈杂,探索随机且不连贯;
- Lp-Reg: 概率与熵平衡——既能自信使用,也能进行探索。
图 6: Lp-Reg 为探索性 token 保留了健康的上下文多样性。
频率统计进一步验证了训练过程中火花 token 的持续使用。
图 7: LP-Reg 对探索性 token 的使用频率始终高于 GRPO。
过滤的统计基础
分析表明,在低概率范围内,有意义的火花 token 的平均下一 token 概率始终高于无关噪声 token。
图 8: 显著的概率差距为有效过滤提供基础。
结论与启示
该研究重新定义了 RLVR 中的探索崩溃问题: 关键不仅在于维持高熵,更在于防止稀有且有价值的推理火花被消除。
核心启示:
- 崩溃源自火花的消失,而不只是熵的降低;
- 选择性保护至关重要——无差别随机性会放大噪声;
- Lp-Reg 的过滤器 + 条件 KL 散度能在不破坏训练稳定性的同时保留火花;
- 探索中,质量比数量更重要——有意义的多样性优于盲目随机性。
通过保护那些能够激发新推理路径的微妙 token,Lp-Reg 推动大语言模型更丰富、更具创造性地解决问题——为高级推理任务的稳定、高性能训练确立了新标准。