K2-THINK：320亿参数模型如何越级挑战AI巨头

K2-THINK 标志。

图: MBZUAI 基础模型研究所发布的 K2-THINK 官方标志。

在人工智能领域，有一个普遍的观点:** 越大越好**。大语言模型 (LLM) 的参数规模已经膨胀到数千亿，甚至数万亿。这些庞大的系统取得了惊人的成就，但也伴随着代价: 训练成本高昂、部署困难，并且对大多数研究人员而言往往遥不可及。

但是，如果一个更小、更灵活的模型也能挑战这些巨头呢？如果巧妙的工程设计比一味堆砌规模更重要呢？

这正是 MBZUAI 基础模型研究所新系统的核心理念:** K2-THINK** —— 一个拥有 320 亿参数的推理模型，其性能可以与规模大得多的 AI 系统媲美，甚至超越它们。在复杂的数学推理方面，K2-THINK 脱颖而出，成为开源领域的领军模型。

团队是如何做到的？他们打造了一个由 六大支柱 组成的“配方”，将先进的训练后方法与推理时的策略性计算结合起来。本文将逐步解析这一配方——展示 K2-THINK 是如何构建的、为何如此高效，以及它对未来高性能、可及性 AI 的意义。

一张散点图，展示了 K2-THINK 与其他开源和专有模型在数学基准测试中的卓越参数效率。

图1: 尽管参数量相对较小，K2-THINK 在数学综合得分上依然表现出色——挑战了“越大越好”的传统观念。

背景: 推理系统的构建基石

在深入探讨 K2-THINK 的核心创新之前，我们先来回顾一些理解其设计必不可少的基础概念。

思维链 (Chain-of-Thought, CoT) 推理: 类似于人类逐步解决问题的方式，CoT 提示会让模型“思考出声”，在给出最终答案前生成中间推理步骤。这能显著提升模型在数学、逻辑和代码任务中的表现。
监督微调 (Supervised Fine-Tuning, SFT) : 从预训练的“基础模型”出发，利用精心挑选的数据集 (包含提示和高质量答案，往往带有明确的思维链) 进行适配，让模型在特定领域中更专业化。
强化学习 (Reinforcement Learning, RL) : 在 SFT 之后，模型可以通过反馈信号进一步优化。K2-THINK 使用了一种名为可验证奖励的强化学习 (RLVR) 的变体——特别适合数学或代码等答案可被客观验证的领域。
测试时计算 (Test-Time Computation) : 在推理阶段可以赋予模型更多“思考时间”——例如生成多个答案、先做解题规划或对输出进行验证，从而提高最终准确率。

核心方法: K2-THINK 的六大支柱

K2-THINK 通过**六个相互融合的支柱 **(分为训练后和推理时计算两类) ，将开源的 Qwen2.5-32B 基础模型打造成一个专业的推理专家。

支柱 1 — 使用长思维链进行监督微调

团队首先利用 AM-Thinking-v1-Distilled 数据集扩展了模型的推理能力，该数据集涵盖多个领域，且包含长篇的思维链示例。

本阶段的目标:

教授结构化、分步骤的解题书写方式。
建立清晰、标准化的推理过程输出格式。

由此得到的检查点——K2-THINK-SFT——取得了显著的性能提升。

两张折线图，分别展示了 SFT 训练周期中的 Pass@1 性能以及在 AIME2024 基准测试上的 Pass@k 性能。

图2: 左图——SFT 训练期间多个基准测试上的 Pass@1 得分。在约 0.5 个 epoch 后增益趋于平稳，显示模型快速掌握了推理能力。

一张折线图，比较了 K2-THINK-SFT 与 Qwen2.5-32B 基础模型在 AIME2024 基准上的 Pass@k 性能差异。

图3: AIME2024 上的 Pass@k 表现。K2-THINK-SFT (蓝色) 在 k=16 时约达 95% 饱和；基础模型 (红色) 即使在 k=128 时仍表现欠佳。

支柱 2 — 可验证奖励的强化学习 (RLVR)

在具备推理能力后，RLVR 进一步优化了答案的正确性。通过使用 Guru 数据集 (涵盖数学、代码、科学、逻辑、仿真和表格等领域的约 9.2 万个提示) ，K2-THINK 学会了直接针对准确率进行优化。

关键经验总结:

强 SFT 限制了 RL 的提升空间: 从高性能的 SFT 模型开始进行 RL，增益仅约 5%；而直接从基础模型开始 RL，提升可达 40%。
上下文长度很重要: 多阶段 RL 如果初始阶段使用较短上下文 (16k tokens) 再扩展至 32k，会显著损害性能。

一个 2x2 网格图，对比了从基础模型和 SFT 模型进行 RL 的提升差异，以及单阶段和多阶段上下文长度训练的影响。

图4: 上——从基础模型进行 RL 提升更快；下——初始限制上下文长度会造成持久的性能下降。

支柱 3 & 4 — “先规划后思考”与 N 中择优采样

推理质量不仅取决于训练，还取决于测试阶段模型的使用方式。

一张流程图，展示了 K2-THINK 的推理流程: 用户问题 → 先规划后思考 → K2-Think 模型 → N 中择优 → 最终答案。

图5: K2-THINK 的推理流程: 高层规划先于详细推理；生成多个方案后选择最佳输出。

支柱 3 — “先规划后思考”:
在问题进入推理模型之前，一个轻量规划代理会先梳理关键概念和步骤。这种“元思考”指导推理过程，就像人类写作前先列提纲一样。

支柱 4 — N 中择优 (Best-of-N, BoN) 采样:
K2-THINK 会生成 N=3 个候选答案，并由一个独立的 LLM 进行两两比较，选出最优解。这种额外少量计算带来了显著的准确率提升。

支柱 5 & 6 — 极速部署

由于推理链较长且使用了 BoN 采样，K2-THINK 的部署需兼顾速度。团队从两方面着手:

支柱 5 — 推测解码 (Speculative Decoding) :
由一个较小的“草稿”模型批量生成 tokens，再由主模型进行验证，避免了逐 token 生成的低效。

支柱 6 — 推理优化硬件:
部署在 Cerebras 晶圆级引擎 (WSE) 上，将所有模型权重置于超大容量的片上存储中，消除了带宽瓶颈。结果可达 约 2000 tokens/秒。

例如: 一个 3.2 万 token 的数学或代码证明，仅需 16 秒 即可完成。

实验与结果: 小模型，大能量

K2-THINK 与业界领先的专有和开源模型进行了基准测试。

Benchmarks →	Math					Code		Science
Models ↓	AIME 2024	AIME 2025	HMMT25	Omni-HARD	Micro-Avg.	LCBv5	SciCode (sub/main)	GPQA-D	HLE
K2-Think	90.83	81.24	73.75	60.73	67.99	63.97	39.2 / 12.0	71.08	9.95
GPT-OSS 120B	89.58	84.59	81.88	57.76	67.20	74.53	38.8 / 11.0	77.04	18.58
DeepSeek V3.1†	91.87	82.49	83.54	53.22	64.43	66.59	38.2 / 11.7	79.46	8.40

表1 节选: K2-THINK 在数学微平均分上领先所有开源模型，甚至超过部分规模更大的专有系统。

组件分析

	AIME 2024	AIME 2025	HMMT25	Omni-HARD
SFT+RL Checkpoint	86.26	77.72	66.46	56.74
+ Plan only	85.21	81.04	71.87	58.97
+ Bo3 only	90.77	81.22	71.16	59.47
+ Plan + Bo3 (K2-Think)	90.83	81.24	73.75	60.73

表2: Bo3 提升幅度最大；与规划结合后整体性能最佳。

规划意外减少了输出冗余

Model	AIME 2024	AIME 2025	HMMT25	Omni-HARD	LCBv5	GPQA-D
SFT+RL Checkpoint	21,482	25,262	29,136	34,042	13,589	14,998
K2-Think	20,040	24,266	27,030	30,050	12,166	14,680

表3 节选: 推理前的规划使响应长度最多缩短约 12%，输出更加简洁。

结论: 小模型，大思路

K2-THINK 提供了一种在不依赖超大规模的情况下，实现前沿 AI 性能的路线图。

主要启示:

巧妙工程胜过蛮力扩张: 精心优化的 320 亿参数模型同样能挑战比它大 10 倍的系统。
测试时计算是重要杠杆: 规划与 BoN 等技术可在无需重新训练的情况下显著提升性能。
效率提升用户体验: 更短、更清晰的回答提升可用性并节约计算资源。

重要的是，团队不仅开源了权重和代码，还将 K2-THINK 作为公共 API 部署在 k2think.ai，邀请社区体验一个实时的前沿推理系统。

K2-THINK 证明，AI 推理的未来可能不在于无休止地扩大模型规模，而在于协同组合更优质的数据、更智能的训练后方法，以及巧妙的推理时策略——让最前沿的 AI 更加开放、实惠，并触手可及。

背景: 推理系统的构建基石#

核心方法: K2-THINK 的六大支柱#

支柱 1 — 使用长思维链进行监督微调#

支柱 2 — 可验证奖励的强化学习 (RLVR)#

支柱 3 & 4 — “先规划后思考”与 N 中择优采样#

支柱 5 & 6 — 极速部署#

实验与结果: 小模型，大能量#

组件分析#

规划意外减少了输出冗余#

结论: 小模型，大思路#