大语言模型 (LLM) 通过一种名为 *思维链 (Chain-of-Thought, CoT) * 的技术,在复杂推理方面变得异常出色——这是一个逐步生成离散推理词元 (token) 的过程,非常类似于人类思考问题的方式。然而,这种方法本质上是僵化的: 在每一步,模型都必须从其词汇表中选择一个唯一的词元。

如果正是这种僵化限制了模型探索抽象或细微思想的能力呢?如果推理可以更流畅地在各种可能性之间流动,而不是一次只锁定一个离散选择,那会怎样?

这一问题启发了 *软思维 (soft-thinking) * 范式——一种推理模式,其中 LLM 使用连续的“软词元”,每个词元代表多个可能词元嵌入的加权平均。这使模型能够同时保持多个假设,为更丰富、更灵活的推理打开大门。

但软思维也有一个难点。曾推动离散词元推理的强化学习 (RL) 在应用于软词元时表现不佳。像 群体相对策略优化 (Group Relative Policy Optimization, GRPO) 这样的算法,虽然能奖励成功的推理轨迹,却难以处理软思维中的连续随机空间。

SofT-GRPO 因此应运而生——这一突破性算法将 GRPO 成功扩展到软思维领域。通过在 Gumbel 噪声 的注入下引入可控的随机性,并借助 Gumbel 重参数化技巧 , SofT-GRPO 实现了此前方法无法企及的成果——使基于软思维训练的 LLM 性能超过其离散词元版本。

在这次深度解析中,我们将详解 SofT-GRPO 如何重塑 LLM 的强化学习,包括:

  • 离散词元 GRPO 的工作原理及其局限
  • 为什么以往针对软思维的 RL 尝试会失败
  • SofT-GRPO 如何用 Gumbel 噪声与重参数化克服这些障碍
  • 实验结果如何展示 SofT-GRPO 的卓越准确性与鲁棒性

让我们从传统离散空间中的推理方式说起。


从离散步骤到软思维

离散词元的世界: CoT 与 GRPO

当面对一个问题 (例如数学题) 时,LLM 并不会直接猜出答案。它首先生成一个 思维链 :

\[ \mathbf{R} = (r_1, r_2, \ldots, r_T), \]

这是一个逐词元推理过程,导出最终答案 \( \mathbf{A} \)。每个词元来自模型的词汇表,整个序列的生成概率是逐步条件概率的乘积。

离散思维链的生成概率。

“离散思维链词元如何根据模型概率逐步生成的示意图。”

为了提升这一推理过程,通常会采用带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 。目标很简单: 让模型探索多种推理路径,并奖励正确的路径。其中的代表算法是 群体相对策略优化 (GRPO)

GRPO 通过多项分布采样,为每个查询生成一个包含 \( G \) 条推理轨迹的 群体,以探索多样化的推理路径。

展示如何为单个查询采样多个离散思维链路径的图。

“GRPO 中的群体 rollout: 采样多个离散 CoT 轨迹以鼓励多样化探索。”

每条轨迹会获得一个奖励——例如答案正确时奖励 1,否则为 0。GRPO 计算一个 *优势 (advantage) *,衡量每条轨迹相对群体其他轨迹的表现。模型通过梯度更新提升高优势轨迹的概率,并降低低优势轨迹的概率。

标准 GRPO 算法的损失函数。

“GRPO 目标函数通过轨迹优势与裁剪机制平衡探索与利用。”

这种策略优化能显著提升性能——但它依赖于显式的词元级概率。一旦我们用连续的软词元替代离散词元,这一框架便不再适用。


软思维范式

软思维摒弃了在每一步选择单个词的做法,而是构建一个“软词元” \( s_t \),它是所有词元嵌入的加权和,权重对应于它们的预测概率。

展示软词元如何计算为所有词元嵌入加权和的方程。

“软词元 \( s_t \) 是各词元嵌入在其概率分布下的期望。”

形式定义:

\[ s_t = \sum_i p_i e_i, \]

其中 \( e_i \in \mathbb{R}^d \) 是词元 i 的嵌入向量,\( p_i \in [0,1] \) 是其概率。这种连续表示使模型能表达模糊或混合概念——一种“在词语之间思考”的能力。

为了增加有意义的随机性,研究者引入 Gumbel-Softmax 技术 , 即在计算加权和之前向对数概率注入随机噪声。这在保持有效词元组合的同时增加了探索性。

Gumbel-Softmax 技术,用于在软思维过程中引入随机性。

“Gumbel-Softmax 引入受控随机性,使模型能够探索多条软推理路径。”

然而,即便如此,将强化学习直接应用于软词元仍极具挑战。关键难题在于如何将连续奖励正确地归因到词元概率。


瓶颈: 为何 RL 在软思维上举步维艰

Butt 等人 (2025) 提出的早期方法在嵌入向量 \( s_t \) 上直接添加高斯噪声,从而得到扰动词元 \( \hat{s}_t \)。

展示向软词元添加高斯噪声的方程。

“通过添加高斯噪声扰动软词元以实现探索。”

随后,策略更新基于 \( s_t \) 与 \( \hat{s}_t \) 的距离计算梯度。

基于高斯噪声的软思维 RL 方法的梯度计算。

“基于高斯噪声扰动的梯度更新。”

但这种方法面临两个根本问题:

  1. 不匹配问题: 概率 \( p_i \) 到嵌入 \( s_t \) 的映射并非一一对应。多种分布可能生成相同的 \( s_t \),导致难以确定是哪些概率促成了成功。嵌入层噪声破坏了奖励与概率的对应关系。
  2. “空间外”问题: 有效软词元位于特定凸空间 (词元嵌入的单纯形包络) 内。添加随机高斯噪声常会将 \( \hat{s}_t \) 推出该空间,从而生成无效或不可理解的输入。

这些限制导致学习效果严重受损——更新偏离模型的概率空间,使性能不稳定。解决方案必须在保留概率结构的同时引入受控探索。


SofT-GRPO 内部机制: 正确强化软思维

SofT-GRPO 提供了一个优雅的解决方案,它将 Gumbel 随机性直接融入策略优化过程,分为两个互补阶段:

  1. 带 Gumbel 噪声的群体 rollout (探索)
  2. 通过 Gumbel 重参数化的策略更新 (学习)

SofT-GRPO 算法的完整流程,从带 Gumbel 噪声的群体 rollout 到通过 Gumbel 重参数化的策略优化。

“SofT-GRPO 概览: 基于 Gumbel 的 rollout 与重参数化策略更新。”


第 1 步: 带 Gumbel 噪声的群体 Rollout

同 GRPO 一样,SofT-GRPO 为每个查询 rollout \( G \) 条推理轨迹。但不同之处在于,它使用 Gumbel-Softmax 生成随机软词元,而非采样离散词元。

模型先计算词元概率 \( p_i \),然后将随机噪声 \( \epsilon_i \sim \text{Gumbel}(0,1) \) 注入到对数概率中:

\[ g'_i = \log p_i + \epsilon_i. \]

带噪声的 logits 经过归一化,形成最终的软混合:

\[ y'_i = \frac{\exp(g'_i / \tau_g)}{\sum_j \exp(g'_j / \tau_g)}, \quad s_t = \sum_i y'_i e_i. \]

SofT-GRPO rollout 过程的方程。

“SofT-GRPO 的 rollout 方程,展示了 Gumbel 噪声如何修改对数概率。”

这一过程依赖于 Gumbel-Max 技巧——该统计原理确保在 logits 上添加 Gumbel 噪声,与原始分类分布的采样保持一致。

Gumbel-Max 技巧,显示向 logits 添加 Gumbel 噪声等价于从原始分布采样。

“Gumbel-Max 技巧验证了 Gumbel 噪声能产生与底层概率一致的采样。”

简而言之,SofT-GRPO 能实现随机采样而不生成无效嵌入,模型可以在其训练空间内自然探索多种推理路径。


第 2 步: 通过 Gumbel 重参数化的策略更新

当 rollout 轨迹获得奖励后,SofT-GRPO 执行策略优化以强化成功的推理。

最具创新性的部分在于 Gumbel 重参数化技巧 。 该方法不在嵌入空间中操作,而是将梯度基于采样的 Gumbel 噪声表示,其分布是可微分的。

旧策略 \( \pi_{\theta_{\text{old}}} \) 下:

\[ \log p(s_t | Q, S_{旧策略下软词元的对数概率,表示为 Gumbel 噪声的函数。

“旧策略下的对数概率,通过 Gumbel 噪声表达。”

新策略 \( \pi_\theta \) 下:

\[ \log p(s_t | Q, S_{新策略下软词元的对数概率,使用 Gumbel 重参数化技巧计算。

“策略更新: 重参数化允许对软词元进行可微的概率估计。”

这些对数概率被用于构建更新后的 GRPO 式损失函数,其中融合了软思维与离散机制。

SofT-GRPO 的完整损失函数,结合 GRPO 框架与 Gumbel 重参数化技巧。

“SofT-GRPO 损失函数结合离散 GRPO 目标与通过 Gumbel 重参数化得到的软思维梯度。”

这种方法的优势在于 精确性: 奖励的改善直接更新底层概率,而不是含糊的嵌入向量。SofT-GRPO 因此解决了此前软思维强化学习中的核心归因问题。


实验: 检验 SofT-GRPO

论文在三种基础 LLM——DeepSeek-R1-Distill-Qwen-1.5BLLaMA-3.2-3B-InstructDeepSeek-R1-Distill-Qwen-7B——上,对 SofT-GRPO 在五个数学推理数据集 (AIME2024、AIME2025、AMC23、MATH-500 和 GSM8K) 进行了基准测试。

主要结果

SofT-GRPO 在所有模型与数据集上均优于离散 GRPO。

论文表1,展示主要实验结果。SofT-GRPO 在 Pass@16 与 Pass@32 上表现最佳。

“在 Pass@1、Pass@16、Pass@32 各指标上,SofT-GRPO 相比离散 GRPO 具有显著优势。”

  • Pass@1: 平均提升 +0.13% (单次准确率)
  • Pass@16: 平均提升 +1.80%
  • Pass@32: 平均提升 +2.19%

结果表明,SofT-GRPO 不仅提高首次准确率,还显著增强 多样性与鲁棒性。模型能更有效地探索不同推理路径,使得多次尝试正确率大幅提升。


与以往工作的比较及泛化能力

SofT-GRPO 轻松超越 Butt 等人 (2025) 提出的基于高斯噪声的 RL 模型。该旧方法丢失了词元与嵌入的对应性,表现提升有限。

表2,对比 SofT-GRPO 与先前软词元 RL 方法。

“与先前软词元 RL 方法对比: SofT-GRPO 以显著优势领先。”

此外,SofT-GRPO 在数学任务之外也展现出良好的泛化性能。在科学与代码推理基准——GPQA Diamond、HumanEval、MBPP——上的评测中仍保持提升。

表3,展示域外任务结果。SofT-GRPO 的训练效果迁移至科学与代码推理。

“在域外任务上的泛化性能凸显 SofT-GRPO 更广泛的推理优势。”

这说明 SofT-GRPO 微调提升的不是任务专用技能,而是 通用推理能力


利用更高通过率: 多数投票法

更高的多次通过准确率使 多数投票 (majority voting) 成为可行策略: 当模型生成多个候选答案时,选择出现最多的输出作为最终答案。经过 SofT-GRPO 微调的模型在此策略下表现最佳。

表4,展示 SofT-GRPO 结合多数投票后的性能提升。

“将 SofT-GRPO 与多数投票结合进一步提高多轮推理的可靠性。”


消融研究: 为何 Gumbel 至关重要

为验证设计有效性,作者对比了使用 DirichletGaussian 噪声替代 Gumbel 噪声的 SofT-GRPO 变体,结果均不如 Gumbel。

消融研究表5,验证 Gumbel 噪声效果最佳。

“消融实验结果: Gumbel 噪声在准确性与稳定性上优于替代方案。”

训练奖励曲线进一步说明这一差异: 基于 Gumbel 的训练收敛更平滑、更迅速。

训练与验证奖励曲线,显示 Gumbel 噪声变体最稳定。

“训练与验证曲线表明 Gumbel 噪声确保了学习过程的稳定性。”

超参数分析显示,过高的 top-p 或温度会导致发散;保持 top-p=0.95 和 τ_g=0.1 可维持优化稳定。

KL 散度曲线,验证 SofT-GRPO 调整后的超参数可确保模型稳定。

“KL 散度图验证 SofT-GRPO 调参后的优化稳定性。”


结论: 教机器思考的新方式

SofT-GRPO 是面向 LLM 推理强化学习的里程碑式进展。以往无法处理连续软词元的算法,如今借助 Gumbel-Softmax 与重参数化的数学融合得以成功。

其意义深远:

  1. 连接离散与连续推理: SofT-GRPO 提供首个稳健的软思维强化学习框架。
  2. 受控探索: Gumbel 噪声带来尊重概率分布的随机探索。
  3. 精确策略更新: Gumbel 重参数化让梯度归因更精确、微调更稳定。
  4. 更多样、更出色: 更高的 Pass@k 指标揭示模型不仅一次推理准确,更能在多次尝试中灵活思考。
  5. 迈向连续智能: 强化软思维让 LLM 能在流动的概念空间中思考——超越僵硬的词元,走向更具人类特质的抽象推理。

随着 LLM 研究的不断推进,SofT-GRPO 或将成为让模型真正“超越语言”、实现 柔软思考、敏锐推理 的基础技术。