超越数学谜题：教大语言模型“思考”如何释放卓越的聊天性能

引言: 三思而后言的力量

我们都听过“三思而后言”这句忠告。这是人类智能的核心——能够暂停一下，推理可能的后果，然后形成一个深思熟虑的回应。诺贝尔奖得主丹尼尔·卡尼曼将这种反思性的、审慎的思考过程称为系统2思维: 这种脑力活动将膝跳反射式的反应与有理有据的论证区分开来。

在很长一段时间里，大语言模型 (LLM) 的运作方式更像是系统1思维者: 速度惊人、表达流畅，但推理常常流于表面。近期的研究尝试通过让模型在回答前先“思考”来改变这一现状，采用了一种名为可验证奖励的强化学习 (RLVR) 的策略。在 RLVR 中，模型在给出答案前会生成一个较长的思维链 (CoT) ，当最终答案能被自动验证为正确时，模型就会获得奖励。这在数学和编程领域效果显著——因为这些领域的正确性是客观的。如果数学计算正确或者代码通过了所有单元测试，模型就会得到奖励。

但人类对话要复杂得多。你如何“验证”一份膳食计划、一篇论文大纲，或一篇假想出自《肖申克的救赎》的哲学论述的正确性呢？从解决数学问题中学到的技能并不能直接迁移到这些主观、创造性的任务中。实践中，经过 RLVR 训练的模型在一般对话能力评估中，往往落后于标准聊天机器人。

普林斯顿大学的一篇新论文**《会思考的语言模型，聊天更出色》**正是针对这一问题。研究人员提出了一种惊人简单却极具威力的方法——模型奖励思维的强化学习 (RLMT) 。RLMT 将 RLVR 式的思维链推理与 RLHF 式的偏好奖励相结合，显著提升了对话能力。他们最好的 80 亿参数模型不仅击败了比它大十倍的模型，在聊天和创意写作上甚至可以与 GPT-4o 和 Claude-3.7-Sonnet 等行业巨头相媲美。

让我们来看看他们是如何做到的。

背景: 大语言模型对齐的两大学派

RLMT 建立在两大范式之上:** 人类反馈强化学习 (RLHF)** 和可验证奖励的强化学习 (RLVR) 。

RLHF: 对话的艺术

RLHF 是大多数顶级聊天机器人的基石。它将 LLM 的输出与人类的价值观和偏好对齐:

人类对同一提示的两个或多个回答进行评判，并按优劣排序。
这些偏好数据用于训练一个奖励模型——一个独立的模型，用来预测人类会更喜欢哪个回答。
随后，原始 LLM 通过强化学习微调，以最大化奖励模型的得分。

数学上，RLHF 最大化的是:

\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)} r(x, y) \right] \]

奖励信号是定性且主观的——很适合开放式的对话任务。然而，RLHF 将输出视作一个整体，并没有明确鼓励在回答前进行结构化推理。

RLVR: 正确性的科学

RLVR 专注于具有明确、客观正确性标准的领域: 数学、编程、逻辑谜题。模型会生成一个思维链 \(z\)，然后给出最终答案 \(y\)。一个基于规则的验证器会将答案与标准答案进行比对:

\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{(y,z) \sim \pi_{\theta}(\cdot|x)} \mathbb{1}\{y = y^*\} \right] \]

它在形式化领域非常有效——比如 DeepSeek-R1 的表现十分出色——但这些技能很难泛化到日常聊天。

一张条形图，显示与 RLMT 模型相比，以数学为中心进行 RLVR 训练的模型在 WildBench 聊天基准上的表现较差。

论文图 3: 只在数学等可验证领域进行“思考”训练的模型，在 WildBench 聊天基准上的得分远低于作者的 RLMT 模型。

核心方法: 模型奖励思维的强化学习 (RLMT)

RLMT 融合了 RLHF 的灵活监督和 RLVR 的显式推理。核心思想是: 让模型针对任何提示都“出声思考”，并用奖励模型来评判最终回答的质量。

一张信息图，比较 RLHF、RLVR 和 RLMT。RLHF 在通用领域使用奖励模型，RLVR 在可验证领域使用基于规则的验证器。RLMT 结合两者，在通用任务中使用奖励模型来评估经过思维链后生成的回答。

图 1: RLMT 将思维链扩展到通用任务，使用偏好训练的奖励模型，而非基于规则的验证。

形式化表达为:

\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{(y,z) \sim \pi_{\theta}(\cdot|x)} r(y, x) \right] \]

模型同时生成 \(z\) (推理轨迹) 和 \(y\) (最终回答) ，但奖励 \(r\) 来自偏好模型。

以下是 RLMT 所产生详细推理的示例:

一个关于安迪·杜佛兰哲学的提示的模型“思考”过程示例。模型分解了请求，回顾了角色故事，综合了希望和韧性等主题，并勾勒了回答结构。

图 2: 针对安迪·杜佛兰假想哲学的查询的推理轨迹。模型回顾故事，综合核心主题，并构建了回答结构。

RLMT 的“配方”

作者总结了几个关键要素:

训练算法: 测试了直接偏好优化 (DPO) 、近端策略优化 (PPO) 和分组相对策略优化 (GRPO) ——发现 GRPO 最有效。GRPO 将同一提示的多组回答进行比较，引导模型向好于平均水平的回答靠拢。
奖励模型: 监督者的质量至关重要。他们使用了强大的公开模型 (Skywork-v1) ，消融研究证实，较弱的奖励模型会显著降低 RLMT 的效果。
提示词混合: 训练数据决定模型能力。RLMT 的提示词来自 WildChat-IF，共 7500 个多样化且具有挑战性的真实世界查询——比偏重数学或过于简单的数据集更契合通用使用场景。

教会模型思考

基础 LLM 并不会自然输出 <think>...</think> 这样的推理块。团队探索了两种方法:

热启动 SFT: 使用从 Gemini 2.5 Flash 蒸馏的数据进行监督微调。教师模型的输出包含推理轨迹，在强化学习前教会小模型所需格式。
“零”训练: 完全跳过 SFT。通过精心设计的提示直接引出思考过程，使 RLMT 可直接应用于基础模型。

实验与结果: 思考的回报

在 Llama-3.1-8B 与 Qwen-2.5-7B 上进行超过 40 次训练，涵盖热启动和零训练两种配置，均取得一致提升。

会思考的模型在聊天中表现优异

结果表格显示，RLMT 模型 (✓) 在各项基准上始终优于 RLHF 模型 (×) 。

表 1: GRPO 结果显示，RLMT 模型优于不进行“思考”的 RLHF 模型，尤其在聊天基准上。

例如: 热启动的 Llama-3.1-8B-Instruct-RLMT 在 AvgChat 上得分 44.0，而 RLHF 基线为 35.8——提升了 8.2 分。

一个 8B 模型的越级挑战

表格比较 8B Llama-3.1-Instruct-RLMT 与更大模型，包括 Llama-3.1-70B、Qwen-2.5-72B、GPT-4o 和 Claude-3.7-Sonnet。

表 2: 最好的 8B RLMT 模型击败了 Llama-3.1-70B 和 Qwen-2.5-72B，在 WildBench 和 CWv3 上超越 GPT-4o，并与 Claude-3.7-Sonnet 竞争。

一个仅用 7000 个提示进行 RLMT 训练的小型开源 8B 模型，在多个关键对话基准上可与最先进的 70B+ 模型媲美甚至更优。

“零”训练挑战现状

在零训练设置中，Qwen-2.5-7B-RLMT-Zero 在 AvgChat 上得分 29.0，轻松超过经过完整指令微调的 Qwen-2.5-7B-Instruct (23.1) ——尽管后者经历了多阶段、数百万样本的训练流程。

什么造就了好思考者？——消融研究

消融研究表格，显示更改提示混合、SFT 数据源和奖励模型的影响。

表 4: WildChat-IF 提示优于其他提示。强奖励模型如 SkyworkV2 可显著提升 RLMT 效果；弱奖励模型则适得其反。

研究发现:

提示很重要: WildChat-IF > UltraFeedback 或 Tülu3-Random。
奖励模型的强度至关重要: SkyworkV2 > ArmoRM。

分析: 解密会思考的模型

团队研究了 RLMT 训练前后的规划风格变化。转变显著: 从死板线性的清单式规划，转为灵活、迭代的规划。

双栏图。左: 条形图显示 GRPO 训练后增加或减少的特征。右: 推文串规划示例。

图 4: RLMT 后，归类想法、整合约束和权衡利弊等特质增加；对清单的依赖减少。

RLMT 后，模型:

按主题归类想法。
将约束条件整合到计划中。
权衡不同观点。
迭代优化计划。

两条折线图显示思考和回答长度随训练步数增长而增加。

图 5: 在零训练中，思考和回答的长度随着 RLMT 训练稳步增长——表明推理更深入。

结论与启示

**《会思考的语言模型，聊天更出色》**一文有力地证明了将 RLVR 的显式推理与 RLHF 的灵活监督相结合的价值。主要启示如下:

思考无处不在: 思维链不仅适用于数学，也能提升开放式对话和写作。
小模型也能有大作为: 一个正确“配方”的 8B 模型可以挑战甚至击败大一个数量级的模型。
更简洁的训练流程: 零训练的 RLMT 无需大量 SFT 和多阶段后训练即可产出有竞争力的模型。

通过教会模型如何思考，而不仅仅是说什么，RLMT 指向了新一代 LLM——它们更有能力、思维更审慎、推理更有结构。未来的工作可进一步优化思考格式和奖励模型，以直接评估推理质量。与此同时，RLMT 已证明，即使是中等规模的模型，只要学会先思考再开口，也能实现重量级的性能。

引言: 三思而后言的力量#

背景: 大语言模型对齐的两大学派#

RLHF: 对话的艺术#

RLVR: 正确性的科学#

核心方法: 模型奖励思维的强化学习 (RLMT)#

RLMT 的“配方”#

教会模型思考#

实验与结果: 思考的回报#

会思考的模型在聊天中表现优异#

一个 8B 模型的越级挑战#

“零”训练挑战现状#

什么造就了好思考者？——消融研究#

分析: 解密会思考的模型#

结论与启示#