引言: 三思而后言的力量
我们都听过“三思而后言”这句忠告。这是人类智能的核心——能够暂停一下,推理可能的后果,然后形成一个深思熟虑的回应。诺贝尔奖得主丹尼尔·卡尼曼将这种反思性的、审慎的思考过程称为系统2思维: 这种脑力活动将膝跳反射式的反应与有理有据的论证区分开来。
在很长一段时间里,大语言模型 (LLM) 的运作方式更像是系统1思维者: 速度惊人、表达流畅,但推理常常流于表面。近期的研究尝试通过让模型在回答前先“思考”来改变这一现状,采用了一种名为可验证奖励的强化学习 (RLVR) 的策略。在 RLVR 中,模型在给出答案前会生成一个较长的思维链 (CoT) ,当最终答案能被自动验证为正确时,模型就会获得奖励。这在数学和编程领域效果显著——因为这些领域的正确性是客观的。如果数学计算正确或者代码通过了所有单元测试,模型就会得到奖励。
但人类对话要复杂得多。你如何“验证”一份膳食计划、一篇论文大纲,或一篇假想出自《肖申克的救赎》的哲学论述的正确性呢?从解决数学问题中学到的技能并不能直接迁移到这些主观、创造性的任务中。实践中,经过 RLVR 训练的模型在一般对话能力评估中,往往落后于标准聊天机器人。
普林斯顿大学的一篇新论文**《会思考的语言模型,聊天更出色》**正是针对这一问题。研究人员提出了一种惊人简单却极具威力的方法——模型奖励思维的强化学习 (RLMT) 。RLMT 将 RLVR 式的思维链推理与 RLHF 式的偏好奖励相结合,显著提升了对话能力。他们最好的 80 亿参数模型不仅击败了比它大十倍的模型,在聊天和创意写作上甚至可以与 GPT-4o 和 Claude-3.7-Sonnet 等行业巨头相媲美。
让我们来看看他们是如何做到的。
背景: 大语言模型对齐的两大学派
RLMT 建立在两大范式之上:** 人类反馈强化学习 (RLHF)** 和可验证奖励的强化学习 (RLVR) 。
RLHF: 对话的艺术
RLHF 是大多数顶级聊天机器人的基石。它将 LLM 的输出与人类的价值观和偏好对齐:
- 人类对同一提示的两个或多个回答进行评判,并按优劣排序。
- 这些偏好数据用于训练一个奖励模型——一个独立的模型,用来预测人类会更喜欢哪个回答。
- 随后,原始 LLM 通过强化学习微调,以最大化奖励模型的得分。
数学上,RLHF 最大化的是:
\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)} r(x, y) \right] \]奖励信号是定性且主观的——很适合开放式的对话任务。然而,RLHF 将输出视作一个整体,并没有明确鼓励在回答前进行结构化推理。
RLVR: 正确性的科学
RLVR 专注于具有明确、客观正确性标准的领域: 数学、编程、逻辑谜题。模型会生成一个思维链 \(z\),然后给出最终答案 \(y\)。一个基于规则的验证器会将答案与标准答案进行比对:
\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{(y,z) \sim \pi_{\theta}(\cdot|x)} \mathbb{1}\{y = y^*\} \right] \]它在形式化领域非常有效——比如 DeepSeek-R1 的表现十分出色——但这些技能很难泛化到日常聊天。
论文图 3: 只在数学等可验证领域进行“思考”训练的模型,在 WildBench 聊天基准上的得分远低于作者的 RLMT 模型。
核心方法: 模型奖励思维的强化学习 (RLMT)
RLMT 融合了 RLHF 的灵活监督和 RLVR 的显式推理。核心思想是: 让模型针对任何提示都“出声思考”,并用奖励模型来评判最终回答的质量。
图 1: RLMT 将思维链扩展到通用任务,使用偏好训练的奖励模型,而非基于规则的验证。
形式化表达为:
\[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{(y,z) \sim \pi_{\theta}(\cdot|x)} r(y, x) \right] \]模型同时生成 \(z\) (推理轨迹) 和 \(y\) (最终回答) ,但奖励 \(r\) 来自偏好模型。
以下是 RLMT 所产生详细推理的示例:
图 2: 针对安迪·杜佛兰假想哲学的查询的推理轨迹。模型回顾故事,综合核心主题,并构建了回答结构。
RLMT 的“配方”
作者总结了几个关键要素:
- 训练算法: 测试了直接偏好优化 (DPO) 、近端策略优化 (PPO) 和分组相对策略优化 (GRPO) ——发现 GRPO 最有效。GRPO 将同一提示的多组回答进行比较,引导模型向好于平均水平的回答靠拢。
- 奖励模型: 监督者的质量至关重要。他们使用了强大的公开模型 (Skywork-v1) ,消融研究证实,较弱的奖励模型会显著降低 RLMT 的效果。
- 提示词混合: 训练数据决定模型能力。RLMT 的提示词来自 WildChat-IF,共 7500 个多样化且具有挑战性的真实世界查询——比偏重数学或过于简单的数据集更契合通用使用场景。
教会模型思考
基础 LLM 并不会自然输出 <think>...</think>
这样的推理块。团队探索了两种方法:
- 热启动 SFT: 使用从 Gemini 2.5 Flash 蒸馏的数据进行监督微调。教师模型的输出包含推理轨迹,在强化学习前教会小模型所需格式。
- “零”训练: 完全跳过 SFT。通过精心设计的提示直接引出思考过程,使 RLMT 可直接应用于基础模型。
实验与结果: 思考的回报
在 Llama-3.1-8B 与 Qwen-2.5-7B 上进行超过 40 次训练,涵盖热启动和零训练两种配置,均取得一致提升。
会思考的模型在聊天中表现优异
表 1: GRPO 结果显示,RLMT 模型优于不进行“思考”的 RLHF 模型,尤其在聊天基准上。
例如: 热启动的 Llama-3.1-8B-Instruct-RLMT 在 AvgChat 上得分 44.0,而 RLHF 基线为 35.8——提升了 8.2 分。
一个 8B 模型的越级挑战
表 2: 最好的 8B RLMT 模型击败了 Llama-3.1-70B 和 Qwen-2.5-72B,在 WildBench 和 CWv3 上超越 GPT-4o,并与 Claude-3.7-Sonnet 竞争。
一个仅用 7000 个提示进行 RLMT 训练的小型开源 8B 模型,在多个关键对话基准上可与最先进的 70B+ 模型媲美甚至更优。
“零”训练挑战现状
在零训练设置中,Qwen-2.5-7B-RLMT-Zero 在 AvgChat 上得分 29.0,轻松超过经过完整指令微调的 Qwen-2.5-7B-Instruct (23.1) ——尽管后者经历了多阶段、数百万样本的训练流程。
什么造就了好思考者?——消融研究
表 4: WildChat-IF 提示优于其他提示。强奖励模型如 SkyworkV2 可显著提升 RLMT 效果;弱奖励模型则适得其反。
研究发现:
- 提示很重要: WildChat-IF > UltraFeedback 或 Tülu3-Random。
- 奖励模型的强度至关重要: SkyworkV2 > ArmoRM。
分析: 解密会思考的模型
团队研究了 RLMT 训练前后的规划风格变化。转变显著: 从死板线性的清单式规划,转为灵活、迭代的规划。
图 4: RLMT 后,归类想法、整合约束和权衡利弊等特质增加;对清单的依赖减少。
RLMT 后,模型:
- 按主题归类想法。
- 将约束条件整合到计划中。
- 权衡不同观点。
- 迭代优化计划。
图 5: 在零训练中,思考和回答的长度随着 RLMT 训练稳步增长——表明推理更深入。
结论与启示
**《会思考的语言模型,聊天更出色》**一文有力地证明了将 RLVR 的显式推理与 RLHF 的灵活监督相结合的价值。主要启示如下:
- 思考无处不在: 思维链不仅适用于数学,也能提升开放式对话和写作。
- 小模型也能有大作为: 一个正确“配方”的 8B 模型可以挑战甚至击败大一个数量级的模型。
- 更简洁的训练流程: 零训练的 RLMT 无需大量 SFT 和多阶段后训练即可产出有竞争力的模型。
通过教会模型如何思考,而不仅仅是说什么,RLMT 指向了新一代 LLM——它们更有能力、思维更审慎、推理更有结构。未来的工作可进一步优化思考格式和奖励模型,以直接评估推理质量。与此同时,RLMT 已证明,即使是中等规模的模型,只要学会先思考再开口,也能实现重量级的性能。