推理火花：微小概率如何解锁 AI 的超强解题能力

大型语言模型 (LLM) 在复杂推理方面已经变得异常娴熟，成功解决了竞赛级数学问题、逻辑谜题和复杂的编码任务。这一进步的核心驱动力之一是带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) ——一种训练方法，解决方案会被自动检查，正确输出获得奖励，错误输出则遭受惩罚，从而形成强大的学习反馈循环。

然而，一个持续存在的挑战是，在初期的改进阶段之后，通过 RLVR 训练的模型往往会陷入顽固的性能瓶颈——继而发生崩溃。这种崩溃伴随着策略熵 (policy entropy) 的显著下降，这一指标用于衡量模型探索替代想法的程度。实际上，当熵下降时，模型会停止尝试新方法，对熟悉的解题路径过度自信，并失去创造性推理的能力。

传统上，研究人员试图通过增加随机性来对抗熵崩溃——给低熵施加惩罚，以保持“思维”开放。但腾讯混元的最新研究表明，这种粗暴的随机性可能有害。它会在真正有用的 token 之外增加大量嘈杂且不相关的 token，破坏训练稳定性，有时甚至加速崩溃。

论文《Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward》将焦点转向一个更微妙的机制——指出真正的罪魁祸首是: 那些罕见的、低概率的推理 token 被逐渐淘汰，作者将它们称为推理火花 (Reasoning Sparks) 。例如 “等等……”、“也许……”、“或者……”，尽管出现频率不高，却能开启全新的推理路径。

为了在不增加无意义噪声的前提下保护这些关键火花，研究团队提出了低概率正则化 (Low-probability Regularization, Lp-Reg) ——一种精确、有针对性的机制，可以保留有价值的稀有 token，并促进持续探索。

一幅推理火花的插图，以及图表显示标准强化学习训练如何崩溃，而 Lp-Reg 通过保留有价值的探索性 token 并忽略噪声来维持性能。

图 1: (a) 像“等等……”这样的“推理火花”，尽管概率很低，却能启动新的且可能正确的推理路径。(b) 标准 GRPO 训练会崩溃；添加无差别的熵奖励会加速失败。Lp-Reg 保持稳定。(c,d) GRPO 抑制了有价值的火花，熵奖励放大了不相关噪声，而 Lp-Reg 的选择性方法让探索保持高效。

背景: 用奖励训练大语言模型进行推理

在深入了解 Lp-Reg 之前，让我们回顾 RLVR 的训练流程与其所依托的基线方法。

带可验证奖励的强化学习 (RLVR)

RLVR 依托于那些最终答案可验证的任务。对于每个问题:

LLM 接收一个提示；
模型生成一个思维链 (chain-of-thought) 推理过程及最终答案；
自动验证器 (例如数学解题检查器) 为最终答案评分；
模型据此获得奖励: 正确为正，错误为负。

公式表示为:

\[ \mathcal{J}_{\mathrm{RL}}(\boldsymbol{\theta}) = \mathbb{E}_{(q,a) \sim D, o \sim \pi_{\boldsymbol{\theta}}(\cdot|q)} \left[ r(o,a) \right] \]

其中，策略 \(\pi_{\boldsymbol{\theta}}\) 负责为问题 \(q\) 生成输出 \(o\)，我们的目标是最大化与正确答案 \(a\) 对比的奖励。

组相对策略优化 (GRPO)

GRPO 是腾讯采用的基线强化学习算法。针对一个提示，它会生成多个响应 (\(o_1, ..., o_G\)) ，进行评分并归一化，以计算每个 token 的优势 (advantage) :

\[ A_{i,t} = \frac{R(o_i) - \operatorname{mean}(\mathcal{G})}{\operatorname{std}(\mathcal{G})} \]

其中 \(\mathcal{G}\) 包含该组的奖励。这些优势引导策略更新，鼓励高奖励输出，抑制低奖励输出。

然而，当低概率的推理火花出现在错误输出中时，GRPO 的更新可能会过度惩罚它们。久而久之，它们的概率会趋近于零。

核心方法: 低概率正则化 (Lp-Reg)

Lp-Reg 针对推理火花的抑制问题，引入了一种选择性保护机制。它利用模型自身的预测生成一个噪声更少的参考分布，并用该分布温和地对训练更新进行正则化。

步骤 1: 创建“噪声更少”的代理分布

Lp-Reg 从当前策略派生出一个过滤版本 \(\pi_{\text{proxy}}\)，分两步执行:

过滤掉可能的噪声: 当 \(\pi_\theta(o|\cdot) \leq \tau\) 时，认为该 token 不相关并丢弃。阈值 \(\tau\) 可以是:
- 固定值 — 例如常数 0.02；
- 动态值 (min-p) — 等于最高概率 token 概率的一小部分 \(\kappa\)，以适应分布的尖锐程度。
重新归一化概率: 剩余 token 的概率重新缩放，使总和为 1，从而提升保留下来的推理火花的相对权重。

一张图表显示了如何通过滤除低概率 token 并对余下部分进行重新归一化来创建代理分布。

图 2: 构建 \(\pi_{\text{proxy}}\)。低于阈值 \(\tau\) 的 token 被移除；余下部分重新归一化。

数学定义如下:

\[ \pi_{\text{proxy}}(o|\cdot) = \begin{cases} \frac{\pi_{\theta}(o|\cdot)}{\sum_{o'} \pi_{\theta}(o'|\cdot) \mathbb{I}[\pi_{\theta}(o'|\cdot) > \tau]} & \text{if }\pi_{\theta}(o|\cdot) > \tau \\ 0 & \text{otherwise} \end{cases} \]

步骤 2: 条件正则化

该代理分布与 GRPO 相结合，引入一个前向 KL 散度惩罚项:

\[ \mathcal{D}_{KL}(\pi_{\text{proxy}} \ \|\ \pi_{\theta}) \]

该惩罚项是有选择性的，仅在以下情况下才会应用:

token 的采样概率处于批次中最低的 \(\rho\%\)；
它在过滤后仍被保留 (\(\pi_{\text{proxy}} > 0\)) ；
它的优势值为负 (\(A_{i,t} < 0\)) 。

这种策略能防止模型彻底丢弃推理火花，同时允许其他位置的正常学习继续进行。

Lp-Reg 的完整目标函数，它将 GRPO 策略梯度与条件 KL 散度惩罚相结合。

Lp-Reg 的目标: 标准 GRPO 更新 + 针对性的 KL 惩罚，以保护有价值的低概率 token。

实验与结果

顶尖准确率

在五个数学推理基准测试中，Lp-Reg 均表现出稳定优势。在 Qwen3-14B 模型上，Lp-Reg 的平均准确率达到 60.17%，比次优方法高 2.66%。

表格显示了在五个数学基准上的主要结果。Lp-Reg (on-policy) 在 14B 和 32B 模型上均取得了最高的平均准确率。

表 1: 在两种模型规模下，Lp-Reg 的平均性能领先。

训练稳定性

训练曲线显示，Lp-Reg 可以维持约 1,000 步的 on-policy 学习，而基线方法会出现平台期甚至崩溃。

训练动态曲线显示了响应长度、熵和准确率随训练步数的变化。Lp-Reg 显示出稳定且优越的准确率。

图 3: 在 Qwen3-14B 上，Lp-Reg (紫色) 相比 GRPO (青色) 和 Clip-Higher (橙色) 保持了更高且更稳定的准确率。熵曲线呈健康的自适应变化。

为何有效: 消融与分析

噪声过滤至关重要

如果不进行过滤，对所有低概率 token 都施加正则化，会导致训练崩溃并引发熵飙升。

消融研究结果显示，移除噪声过滤器会导致性能崩溃。

图 4: 移除 \(\tau\) 过滤器会破坏训练稳定性。关键结论: 保护火花，过滤噪声。

探索机制剖析

低概率 vs. 高熵

词云图解释了为何针对低概率 token 更有效。高熵 token 往往是普通的功能词或符号 (sqrt、\n、times) ，而低概率 token 则富含探索性用语: “但是”、“等等”、“也许”、“或者”。

词云图比较了高熵 token 和低概率 token。

图 5: 高熵 ≠ 有意义探索。低概率 token 蕴含推理火花。

不同方法下的 Token 动态

散点图展示了 “wait” 在三种方法下的表现:

GRPO: 被迫高概率、低熵地使用——确定性且缺乏探索；
GRPO + 熵损失: 使用分散且嘈杂，探索随机且不连贯；
Lp-Reg: 概率与熵平衡——既能自信使用，也能进行探索。

散点图显示了不同训练方法下探索性 token 的概率-熵分布。

图 6: Lp-Reg 为探索性 token 保留了健康的上下文多样性。

频率统计进一步验证了训练过程中火花 token 的持续使用。

条形图显示了在 GRPO 和 Lp-Reg 的训练过程中探索性 token 的频率。

图 7: LP-Reg 对探索性 token 的使用频率始终高于 GRPO。

过滤的统计基础

分析表明，在低概率范围内，有意义的火花 token 的平均下一 token 概率始终高于无关噪声 token。

折线图显示，探索性 token 的平均概率始终高于不相关 token。

图 8: 显著的概率差距为有效过滤提供基础。

结论与启示

该研究重新定义了 RLVR 中的探索崩溃问题: 关键不仅在于维持高熵，更在于防止稀有且有价值的推理火花被消除。

核心启示:

崩溃源自火花的消失，而不只是熵的降低；
选择性保护至关重要——无差别随机性会放大噪声；
Lp-Reg 的过滤器 + 条件 KL 散度能在不破坏训练稳定性的同时保留火花；
探索中，质量比数量更重要——有意义的多样性优于盲目随机性。

通过保护那些能够激发新推理路径的微妙 token，Lp-Reg 推动大语言模型更丰富、更具创造性地解决问题——为高级推理任务的稳定、高性能训练确立了新标准。

背景: 用奖励训练大语言模型进行推理#

带可验证奖励的强化学习 (RLVR)#

组相对策略优化 (GRPO)#

核心方法: 低概率正则化 (Lp-Reg)#

步骤 1: 创建“噪声更少”的代理分布#

步骤 2: 条件正则化#

实验与结果#

顶尖准确率#

训练稳定性#

为何有效: 消融与分析#

噪声过滤至关重要#

探索机制剖析#

低概率 vs. 高熵#

不同方法下的 Token 动态#

过滤的统计基础#

结论与启示#