强化学习 (RL) 已成为大型语言模型 (LLM) 的颠覆性技术,极大地提升了它们解决复杂推理问题的能力。随着模型的进步,一个根本性问题仍未得到解答: 这种提升究竟是如何发生的?

训练过程通常像一个黑箱,会产生一些奇特的现象,例如模型似乎突然获得新能力的“顿悟时刻”,或是更长、更详细的解决方案带来更高准确率的“长度缩放” (length-scaling) 现象。

这些仅仅是复杂系统中的随机产物,还是揭示了更深层次潜在机制的线索?

最近的一篇论文《通过强化学习在大型语言模型中涌现的层次化推理》 (Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning) 主张后者。研究人员提出,强化学习并非简单地同时提升所有技能。相反,它引导大型语言模型重新发现一种强大、类似人类的解决问题策略:** 层次化推理**——这是人类使用的认知方法,将高层次的策略规划 (“我的行动计划是什么?”) 与低层次的程序性执行 (“现在我要将这两个数相加。”) 区分开来。

在本文中,我们将解析这种推理层次在强化学习训练中是如何涌现的,为什么它能解释“顿悟时刻”和“长度缩放”等令人困惑的现象,以及这一洞见如何催生了一种更高效的强化学习算法:** 层次感知信用分配 (HICRA)** 。


机器中的幽灵: 人类先验与层次化思维

大型语言模型并非从零开始训练——它们在海量的人类生成文本数据集上完成预训练,其中包括许多分步骤的题解。这些文本编码了人类的推理模式: 规划、制定策略以及执行。

作者假设,强化学习微调并没有创造出新的推理形式。相反,它让模型利用预训练中已存在的层次化结构,揭示了将规划执行分离是解决复杂问题的有效路径。

大型语言模型学习到一个反映人类认知的两阶段推理过程: 首先掌握低层技能,然后探索高层策略。

**图 1: **(左) 类人层次化推理: 高层策略规划与低层执行。 () 强化学习训练过程中的涌现: 阶段①巩固低层技能 (执行词元熵下降) ,阶段②学习重心转向策略规划 (语义多样性增加、准确率提升、推理链延长) 。

为此,研究人员需要一种方法来自动区分:

  • 高层规划词元: 指导推理的策略性表达,例如“首先,我需要理解……”、“让我们尝试一种不同的方法”、“但是等等……”。
  • 低层执行词元: 操作性步骤,如计算、代换和公式应用。

一个词元的功能取决于其上下文,因此自动分类非常具有挑战性。


寻找脚手架: 策略性语元

研究人员提出了策略性语元 (Strategic Grams, SGs) ——由 3 到 5 个词组成的 n-gram,作为引导逻辑流程的语义单元。例如: “let’s consider the case” (让我们考虑这种情况) 、“the key insight is” (关键洞见是) 。

这些策略性语元具有独特的统计特征: 它们在不同的解答中频繁出现,但在同一解答中极少多次出现。这使得它们成为识别规划词元的理想选择。

策略性语元识别流程:

  1. 语义聚类: 从包含大量正确解答的语料中提取所有 n-gram。使用预训练的句子转换器对其进行嵌入,将语义相似的 n-gram 聚为一类 (例如,“try another way”和“an alternative path is”) 。
  2. 频率分析: 统计每个聚类中 n-gram 出现于多少个不同解答
  3. 策略性语元构建: 选取频率最高的前 20% 聚类。该集合中任一策略性语元的词元即为规划词元;其余均为执行词元

一个来自 Qwen 模型的推理轨迹示例,其中规划词元 (策略性语元) 用颜色高亮标出。这些短语通过演绎、分支和回溯来引导逻辑流程。

图 2: 来自 Qwen3-4B-GRPO 的推理轨迹,其中规划词元被高亮标出。这些短语代表了如演绎、分支和回溯等高层策略动作。


层次化推理的两阶段涌现

在对八个不同的大型语言模型和视觉语言模型 (VLM) 的实验中,推理能力的提升均表现出一致的两阶段模式。

阶段 1: 程序性巩固

在初始阶段,模型专注于掌握低层技能。一处计算错误即可导致答题失败,因此强化学习会推动模型达成程序性可靠性

执行词元的指标揭示了这一阶段:

  • 相对困惑度: 衡量预测意外程度——值越低,信心越高。执行词元的困惑度在训练早期急剧下降。
  • 词元熵: 衡量预测下一个词元的不确定性——执行词元的熵起初就很低,并在训练中进一步降低。

三个不同大型语言模型的训练动态揭示了一个一致的两阶段学习过程。阶段 ① 显示执行词元 (灰色) 的困惑度和熵急剧下降,表明程序性巩固。阶段 ② 显示规划词元 (红色) 的语义多样性上升,这与准确率提升和推理链变长相关。

图 3: 阶段①——执行词元的困惑度和熵下降 (程序性巩固) 。阶段②——规划词元的语义多样性增加 (策略性探索) 。

要点 1: 第一阶段建立了稳固的低层技能集,为后续由策略推理驱动的提升奠定基础。


阶段 2: 策略性探索

当程序性技能趋于稳定后,性能提升主要来源于策略规划的多样化

为此,作者测量了语义熵——策略性语元使用的多样性,以及策略步骤后的程序性词元的条件熵

词元熵与语义熵的比较。词元熵基于下一词元的概率计算;语义熵衡量有意义 n-gram 的多样性。

图 4: 语义熵衡量的是思想多样性,不同于词元熵仅关注单个词预测的不确定性。

结果:

  • 规划词元的语义熵稳定上升 (图 3,第 3 列) ,显示出积极探索新策略。
  • 这与准确率和**解答长度 **(第 4 列) 的增长高度相关——复杂的策略往往需要更长的表达。

要点 2: 在程序性技能成熟后,持续的推理能力提升源于扩展策略多样性——从而解释了“顿悟时刻”和“长度缩放”。


HICRA: 聚焦的信用分配

这一两阶段洞见揭示了标准强化学习方法 (如 GRPO) 的不足: 它们将奖励或惩罚平均分配到所有词元,而大多数是低层的执行词元,这会稀释学习信号。

层次感知信用分配 (HICRA) 对这一点进行了改进:

对于规划词元 \( t \in S_i \):

\[ \hat{A}_{i,t}^{\mathrm{HICRA}} = \hat{A}_{i,t} + \alpha \cdot |\hat{A}_{i,t}| \]

否则:

\[ \hat{A}_{i,t}^{\mathrm{HICRA}} = \hat{A}_{i,t} \]

其中 \(\alpha\) (例如 0.2) 决定放大比例。

\[ \mathcal{J}(\theta) = \mathbb{E}[ \hat{A}_{i,t}^{\mathrm{HICRA}} ], \quad \nabla \mathcal{J}(\theta) = \mathbb{E}[ \hat{A}_{i,t}^{\mathrm{HICRA}} \cdot \nabla \log \pi_{\theta}(o_{i,t} | \dots) ] \]

这样,优化压力会被引向策略性成分,加速有效高层推理模式的发现与强化。


实验证明

主要结果

表1显示,在各种纯文本数学基准测试中,以及对于包括 Qwen3-4B 和 Llama-3.1-8B 在内的不同 LLM,HICRA 的表现均优于 GRPO 和基线模型。

表 1: 纯文本基准 —— HICRA 在多个大型语言模型上持续优于 GRPO 和基线模型。

表2显示,在针对视觉语言模型 (如 MiMO-VL 和 Qwen2.5-VL-7B) 的多模态推理基准测试中,HICRA 表现出更优的性能。

表 2: 多模态基准 —— HICRA 在视觉语言模型上也表现出类似的提升。

错误分析

在训练过程中,规划与策略错误的下降幅度比其他错误更明显。

图 5: 最大的提升来自于修正高层策略错误——程序性错误率变化不大。


目标性探索 vs. 无差别探索

HICRA 实现了比 GRPO 更高的语义熵和验证准确率 (图 6,左) ,而熵正则化虽然提升了词元熵,却未能提高准确率 (图 7,右) 。

图 6 和 7: HICRA 保持了更高的语义熵,且与准确率正相关;笼统提高熵会浪费学习能力。


语义熵作为进展指引

视觉语言模型的训练动态显示,词元熵崩塌且 Pass@8 饱和,而语义熵在 HICRA 中依然能预测准确率的提升。

图 8: 在视觉语言模型上,词元熵可能具有误导性——语义熵揭示了持续的策略探索。


规划词元 vs. 高熵“分叉”词元

一个推理示例,显示了规划词元 (蓝/紫色) 和高熵词元 (红/紫色) 。许多高熵词元并不具备策略性。

图 9: 许多高熵词元缺乏策略功能。

左: 大多数规划词元具有高熵。右: 高熵词元中只有少部分是规划词元。

图 10: 高词元熵 ≠ 策略重要性;按功能识别更为精确。


结论与未来方向

核心发现:

  1. 推理是层次化的: 强化学习将瓶颈从程序性技能转向策略规划,重新找回了类似人类的思维模式。
  2. 聚焦的信用分配更高效: HICRA 放大了对高影响规划词元的学习,获得了更好的结果。
  3. 衡量真正重要的东西: 语义熵比总体词元熵更能追踪有意义的探索。

启示:

  • 强化学习优化应从将文本视为平面词元序列,转向识别语义/策略单元
  • 研发面向过程的奖励机制,即便最终答案错误,也应奖励正确的策略步骤。
  • 拓展至其他高推理密集领域,如代码生成和工具使用代理。

通过揭示大型语言模型推理中涌现的层次结构,这项研究不仅解释了现有现象,还为未来构建更强大、更高效的人工智能推理系统提供了路线图。