强化学习 (RL) 已成为大型语言模型 (LLM) 的颠覆性技术,极大地提升了它们解决复杂推理问题的能力。随着模型的进步,一个根本性问题仍未得到解答: 这种提升究竟是如何发生的?
训练过程通常像一个黑箱,会产生一些奇特的现象,例如模型似乎突然获得新能力的“顿悟时刻”,或是更长、更详细的解决方案带来更高准确率的“长度缩放” (length-scaling) 现象。
这些仅仅是复杂系统中的随机产物,还是揭示了更深层次潜在机制的线索?
最近的一篇论文《通过强化学习在大型语言模型中涌现的层次化推理》 (Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning) 主张后者。研究人员提出,强化学习并非简单地同时提升所有技能。相反,它引导大型语言模型重新发现一种强大、类似人类的解决问题策略:** 层次化推理**——这是人类使用的认知方法,将高层次的策略规划 (“我的行动计划是什么?”) 与低层次的程序性执行 (“现在我要将这两个数相加。”) 区分开来。
在本文中,我们将解析这种推理层次在强化学习训练中是如何涌现的,为什么它能解释“顿悟时刻”和“长度缩放”等令人困惑的现象,以及这一洞见如何催生了一种更高效的强化学习算法:** 层次感知信用分配 (HICRA)** 。
机器中的幽灵: 人类先验与层次化思维
大型语言模型并非从零开始训练——它们在海量的人类生成文本数据集上完成预训练,其中包括许多分步骤的题解。这些文本编码了人类的推理模式: 规划、制定策略以及执行。
作者假设,强化学习微调并没有创造出新的推理形式。相反,它让模型利用预训练中已存在的层次化结构,揭示了将规划与执行分离是解决复杂问题的有效路径。
**图 1: **(左) 类人层次化推理: 高层策略规划与低层执行。 (右) 强化学习训练过程中的涌现: 阶段①巩固低层技能 (执行词元熵下降) ,阶段②学习重心转向策略规划 (语义多样性增加、准确率提升、推理链延长) 。
为此,研究人员需要一种方法来自动区分:
- 高层规划词元: 指导推理的策略性表达,例如“首先,我需要理解……”、“让我们尝试一种不同的方法”、“但是等等……”。
- 低层执行词元: 操作性步骤,如计算、代换和公式应用。
一个词元的功能取决于其上下文,因此自动分类非常具有挑战性。
寻找脚手架: 策略性语元
研究人员提出了策略性语元 (Strategic Grams, SGs) ——由 3 到 5 个词组成的 n-gram,作为引导逻辑流程的语义单元。例如: “let’s consider the case” (让我们考虑这种情况) 、“the key insight is” (关键洞见是) 。
这些策略性语元具有独特的统计特征: 它们在不同的解答中频繁出现,但在同一解答中极少多次出现。这使得它们成为识别规划词元的理想选择。
策略性语元识别流程:
- 语义聚类: 从包含大量正确解答的语料中提取所有 n-gram。使用预训练的句子转换器对其进行嵌入,将语义相似的 n-gram 聚为一类 (例如,“try another way”和“an alternative path is”) 。
- 频率分析: 统计每个聚类中 n-gram 出现于多少个不同解答。
- 策略性语元构建: 选取频率最高的前 20% 聚类。该集合中任一策略性语元的词元即为规划词元;其余均为执行词元。
图 2: 来自 Qwen3-4B-GRPO 的推理轨迹,其中规划词元被高亮标出。这些短语代表了如演绎、分支和回溯等高层策略动作。
层次化推理的两阶段涌现
在对八个不同的大型语言模型和视觉语言模型 (VLM) 的实验中,推理能力的提升均表现出一致的两阶段模式。
阶段 1: 程序性巩固
在初始阶段,模型专注于掌握低层技能。一处计算错误即可导致答题失败,因此强化学习会推动模型达成程序性可靠性。
执行词元的指标揭示了这一阶段:
- 相对困惑度: 衡量预测意外程度——值越低,信心越高。执行词元的困惑度在训练早期急剧下降。
- 词元熵: 衡量预测下一个词元的不确定性——执行词元的熵起初就很低,并在训练中进一步降低。
图 3: 阶段①——执行词元的困惑度和熵下降 (程序性巩固) 。阶段②——规划词元的语义多样性增加 (策略性探索) 。
要点 1: 第一阶段建立了稳固的低层技能集,为后续由策略推理驱动的提升奠定基础。
阶段 2: 策略性探索
当程序性技能趋于稳定后,性能提升主要来源于策略规划的多样化。
为此,作者测量了语义熵——策略性语元使用的多样性,以及策略步骤后的程序性词元的条件熵。
图 4: 语义熵衡量的是思想多样性,不同于词元熵仅关注单个词预测的不确定性。
结果:
- 规划词元的语义熵稳定上升 (图 3,第 3 列) ,显示出积极探索新策略。
- 这与准确率和**解答长度 **(第 4 列) 的增长高度相关——复杂的策略往往需要更长的表达。
要点 2: 在程序性技能成熟后,持续的推理能力提升源于扩展策略多样性——从而解释了“顿悟时刻”和“长度缩放”。
HICRA: 聚焦的信用分配
这一两阶段洞见揭示了标准强化学习方法 (如 GRPO) 的不足: 它们将奖励或惩罚平均分配到所有词元,而大多数是低层的执行词元,这会稀释学习信号。
层次感知信用分配 (HICRA) 对这一点进行了改进:
对于规划词元 \( t \in S_i \):
\[ \hat{A}_{i,t}^{\mathrm{HICRA}} = \hat{A}_{i,t} + \alpha \cdot |\hat{A}_{i,t}| \]否则:
\[ \hat{A}_{i,t}^{\mathrm{HICRA}} = \hat{A}_{i,t} \]其中 \(\alpha\) (例如 0.2) 决定放大比例。
\[ \mathcal{J}(\theta) = \mathbb{E}[ \hat{A}_{i,t}^{\mathrm{HICRA}} ], \quad \nabla \mathcal{J}(\theta) = \mathbb{E}[ \hat{A}_{i,t}^{\mathrm{HICRA}} \cdot \nabla \log \pi_{\theta}(o_{i,t} | \dots) ] \]这样,优化压力会被引向策略性成分,加速有效高层推理模式的发现与强化。
实验证明
主要结果
表 1: 纯文本基准 —— HICRA 在多个大型语言模型上持续优于 GRPO 和基线模型。
表 2: 多模态基准 —— HICRA 在视觉语言模型上也表现出类似的提升。
错误分析
图 5: 最大的提升来自于修正高层策略错误——程序性错误率变化不大。
目标性探索 vs. 无差别探索
图 6 和 7: HICRA 保持了更高的语义熵,且与准确率正相关;笼统提高熵会浪费学习能力。
语义熵作为进展指引
图 8: 在视觉语言模型上,词元熵可能具有误导性——语义熵揭示了持续的策略探索。
规划词元 vs. 高熵“分叉”词元
图 9: 许多高熵词元缺乏策略功能。
图 10: 高词元熵 ≠ 策略重要性;按功能识别更为精确。
结论与未来方向
核心发现:
- 推理是层次化的: 强化学习将瓶颈从程序性技能转向策略规划,重新找回了类似人类的思维模式。
- 聚焦的信用分配更高效: HICRA 放大了对高影响规划词元的学习,获得了更好的结果。
- 衡量真正重要的东西: 语义熵比总体词元熵更能追踪有意义的探索。
启示:
- 强化学习优化应从将文本视为平面词元序列,转向识别语义/策略单元。
- 研发面向过程的奖励机制,即便最终答案错误,也应奖励正确的策略步骤。
- 拓展至其他高推理密集领域,如代码生成和工具使用代理。
通过揭示大型语言模型推理中涌现的层次结构,这项研究不仅解释了现有现象,还为未来构建更强大、更高效的人工智能推理系统提供了路线图。