大语言模型 (LLM) 在撰写邮件、总结文章甚至生成代码等任务上已变得异常熟练。但流畅的文本生成与真正的多步推理之间存在着关键差异。模型能解决一个它从未见过的竞赛级数学难题吗?它能调试一个复杂的算法吗?这些正是人工智能的前沿——模型必须从模式匹配过渡到真正的解决问题。
传统上,我们通过 监督微调 (SFT) 来训练模型——向它们展示成千上万个高质量示例,并告诉它们: “照这样做”。但如果模型可以自我学习如何推理呢?如果它不是被动地接受答案,而是通过试错主动发现解决方案呢?
这正是 DeepSeek-AI 一项卓越新研究的核心思想: 《DeepSeek-R1: 通过强化学习激励大语言模型的推理能力》 。 论文中,研究者提出了一种强大的替代传统训练方法——使用 强化学习 (RL) 来奖励成功的推理,从而使模型能自主发现复杂策略。其成果是 DeepSeek-R1 , 一个在困难的、重推理的基准上可与 OpenAI 的 o1 系列等闭源模型竞争的系统。

图 1 | DeepSeek-R1 在 AIME 2024、MATH-500、GPQA Diamond、MMLU 和 SWE-bench Verified 等多个任务上的基准性能。在关键推理基准上,DeepSeek-R1 达到或超过了 OpenAI-o1-1217。
语言模型的强化学习: 速成课
在深入 DeepSeek 的实验之前,先明确两种重要的训练范式:
监督微调 (SFT): 就像拿着答案学习。向模型展示一个提示 (例如数学题) 和一个完美的解答,使其通过模仿人类答案学习。这种方法有效但严重依赖大量高质量数据——其生产代价高昂。
强化学习 (RL): 通过试错学习。
- 智能体 (我们的 LLM) 采取一个 行动 (生成一个回复) 。
- 环境 评估该回复并给予 奖励 (例如正确为 +1,不正确为 0) 。
- 策略 (模型的内部策略) 更新以最大化未来的奖励。
虽然强化学习给予模型更大的创造自由,但将其应用于大语言模型规模在历史上一直不稳定且成本高昂。DeepSeek 正面应对了这一挑战。
第一阶段: 大胆实验 – DeepSeek-R1-Zero
团队提出一个问题: 推理能力能否仅通过强化学习涌现——完全不进行监督微调? 结果是 DeepSeek-R1-Zero , 从 DeepSeek-V3-Base 出发,完全借助强化学习训练。
目标不是手工设计推理,而是观察模型能否自学思考。
算法: 组相对策略优化 (GRPO)
用强化学习训练大型模型所需计算量极大。传统方法如 PPO 需要一个与“策略网络”同等规模的“评估网络”,成本几乎翻倍。DeepSeek 采用一种更高效的方式: 组相对策略优化 (GRPO) 。
GRPO 不评判单个答案,而是针对同一个问题采样一组 G 个回复,分别计算奖励,并在组内比较。得分高于组平均值的结果获得正向强化,低于平均值的结果获得负向强化。这种相对评估无需独立评估网络即可产生强学习信号。

方程 1 | GRPO 的目标函数在采样组中最大化奖励,并通过 KL 散度正则化以确保稳定更新。
模型优化其优势值:
\[ A_i = \frac{r_i - \mathrm{mean}(\{r_1, r_2, ..., r_G\})}{\mathrm{std}(\{r_1, r_2, ..., r_G\})} \]
方程 2 | 用于缩放策略改进的归一化“优势”值。
KL 散度项进一步稳定训练,防止模型行为剧烈变化。

方程 3 | KL 散度项约束更新,防止奖励被过度利用。
奖励设计: 简单规则,惊人结果
DeepSeek 团队刻意避开复杂的神经奖励模型,因为这类模型容易出现“奖励黑客”问题。相反,他们使用了简单的基于规则的设计:
- 准确性奖励: 数学题答对加 +1;代码任务若能编译并通过测试则加 +1。
- 格式奖励: 对遵循
<think>与<answer>标签的结构化输出给予少量奖励。
通过这些极简奖励机制,DeepSeek 观察到令人惊叹的现象——复杂行为在强化学习过程中自然涌现。
见证推理的涌现: “顿悟时刻”
性能的提升十分显著。在严格的 AIME 2024 基准中,其准确率从 15.6% → 71.0% (Pass@1) 。

图 2 | AIME 2024 准确率随 RL 步骤持续提升。R1-Zero 在各训练阶段稳步进化。
不仅仅是数字增长,其行为质量同样令人惊讶。随着训练推进,R1-Zero 开始花更多“思考时间”——生成更长、更结构化的推理链条。

图 3 | R1-Zero 训练中平均推理长度的增长,显示出扩展推理行为的涌现。
在中间检查点,模型会停顿、重新思考并在解题过程中自我修正:
“……等等,等等。让我们一步步重新评估……”
这些自发的“顿悟时刻”表明模型正在学习反思性推理——通过自我发现,而非指令输入。
然而,早期输出常出现语言混杂与可读性问题。因此有了 DeepSeek-R1——一个兼顾智力与连贯性的改良版本。
第二阶段: DeepSeek-R1 – 多阶段强化学习流水线
基于 R1-Zero 的成功,DeepSeek 团队为 DeepSeek-R1 设计了多阶段结构,以在强推理与优美语言输出之间取得平衡。
阶段一: 监督微调冷启动
为稳定 RL 训练,模型首先经过轻度 SFT,使用几千个精心筛选、可读性强的长“思维链”示例。 此举解决了早期不稳定与可读性差的问题,为 RL 提供清晰起点。
输出遵循模式:
|推理过程| → |总结|
这一格式确保思维链清晰,并将推理与结论分离,便于用户和评估者理解。
阶段二: 面向推理的强化学习
第二阶段再次采用基于 GRPO 的强化学习,重点训练数学、代码和科学任务。 增加了一个 语言一致性奖励 , 用于抑制多语言混用——略微牺牲性能以换取更佳可读性。
奖励结合准确性与语言一致性,从而同时提升认知深度与表达清晰度。
阶段三: 拒绝采样与扩展 SFT
当 RL 模型的推理准确率达到较高水平后,研究者采用 拒绝采样 方法进行数据自举。 模型针对同一提示生成多个候选答案,仅保留正确且可读的版本。这一过程产出约 60 万条推理数据样本 , 并补充 20 万条通用非推理示例 (写作、翻译、事实问答) 。
随后经另一次 SFT,用两个数据集联合训练,使模型在推理与通用任务上达到平衡。
阶段四: 全谱强化学习
最终训练再次引入 RL——覆盖所有任务类型——以最大化 有用性、无害性与准确性 。 推理任务继续使用基于规则的奖励;通用任务则采用偏好模型,确保输出符合人类式交流标准。
产物是: DeepSeek-R1——一个推理精确、表达连贯、并符合伦理的模型。
结果: 树立推理新标准
基准测试显示,DeepSeek-R1 达到最先进水平。

表 4 | DeepSeek-R1 在 20 多项基准测试中表现优异。在关键推理、编码与学术任务上达到或超越 OpenAI-o1-1217。
亮点包括:
- 数学: AIME 2024 Pass@1 达 79.8%, MATH-500 达 97.3%,与 OpenAI-o1-1217 持平。
- 编程: Codeforces 排名达 96.3 百分位,超越全球 96% 人类程序员。
- 知识与长上下文: MMLU-Pro 得分 84.0%, FRAMES 得分 82.5%,展现对长篇推理任务的卓越理解。
在数学、编码、知识与开放式写作等多领域中,DeepSeek-R1 展示了多阶段强化学习带来的多面能力。
蒸馏: 让更小模型共享推理能力
或许最具影响力的结果,是 DeepSeek 如何通过 蒸馏 将推理能力传递给更小的模型。
团队利用 DeepSeek-R1 流水线生成的 80 万份高质量数据,对 Qwen2.5 与 Llama3 等开源模型进行微调,结果令人瞩目。

表 5 | 经过 DeepSeek-R1 蒸馏的模型 (如 Qwen-14B 和 Llama-70B) 在推理基准上超过体型更大的非推理型模型。
- Qwen-7B Distill 在 AIME 2024 上击败两倍规模模型。
- Qwen-14B Distill 在各项任务上全面超越 QwQ-32B-Preview。
- 蒸馏后的 32B 与 70B 模型 创造开源新纪录。
为对比,研究者还用相同大规模 RL 流水线从零训练了一个 Qwen-32B base 模型。

表 6 | 较小模型中蒸馏与 RL 的效能对比。蒸馏显著优于直接 RL,以高性价比传递了大模型已学得的推理模式。
结论是: 蒸馏更为高效 。 大型模型发现的推理策略可优雅地“传授”给小型模型,实现相近智能水平而无需庞大算力。
启示: DeepSeek-R1 的未来意义
DeepSeek-R1 是自主推理研究的里程碑。它证明,只要激励机制得当,推理能力即可自然涌现——不是源于记忆,而是源于体验。
关键洞察:
- 推理的涌现: 复杂认知行为 (如反思) 可在无监督下通过强化学习自发产生。
- 强化学习是教师: RL 不仅能实现对齐,还能培养推理。
- 混合流水线最优: 少量 SFT 提供清晰度,大规模 RL 促进发现,拒绝采样扩展数据,三者形成强劲协同。
- 蒸馏普及智能: 高级推理可下沉至更小、更易获取的开源模型,提升效率与普适性。
DeepSeek-AI 对“激励式推理”的探索,为下一波智能系统提供了启发性蓝图。 通过教模型为什么推理,而非仅仅说什么,他们让我们更接近真正的机器认知——一个模型不仅能记忆知识,更能发现知识的未来。
](https://deep-paper.org/en/paper/2501.12948/images/cover.png)