图: MBZUAI 基础模型研究所发布的 K2-THINK 官方标志。
在人工智能领域,有一个普遍的观点:** 越大越好**。大语言模型 (LLM) 的参数规模已经膨胀到数千亿,甚至数万亿。这些庞大的系统取得了惊人的成就,但也伴随着代价: 训练成本高昂、部署困难,并且对大多数研究人员而言往往遥不可及。
但是,如果一个更小、更灵活的模型也能挑战这些巨头呢?如果巧妙的工程设计比一味堆砌规模更重要呢?
这正是 MBZUAI 基础模型研究所新系统的核心理念:** K2-THINK** —— 一个拥有 320 亿参数的推理模型,其性能可以与规模大得多的 AI 系统媲美,甚至超越它们。在复杂的数学推理方面,K2-THINK 脱颖而出,成为开源领域的领军模型。
团队是如何做到的?他们打造了一个由 六大支柱 组成的“配方”,将先进的训练后方法与推理时的策略性计算结合起来。本文将逐步解析这一配方——展示 K2-THINK 是如何构建的、为何如此高效,以及它对未来高性能、可及性 AI 的意义。
图1: 尽管参数量相对较小,K2-THINK 在数学综合得分上依然表现出色——挑战了“越大越好”的传统观念。
背景: 推理系统的构建基石
在深入探讨 K2-THINK 的核心创新之前,我们先来回顾一些理解其设计必不可少的基础概念。
思维链 (Chain-of-Thought, CoT) 推理: 类似于人类逐步解决问题的方式,CoT 提示会让模型“思考出声”,在给出最终答案前生成中间推理步骤。这能显著提升模型在数学、逻辑和代码任务中的表现。
监督微调 (Supervised Fine-Tuning, SFT) : 从预训练的“基础模型”出发,利用精心挑选的数据集 (包含提示和高质量答案,往往带有明确的思维链) 进行适配,让模型在特定领域中更专业化。
强化学习 (Reinforcement Learning, RL) : 在 SFT 之后,模型可以通过反馈信号进一步优化。K2-THINK 使用了一种名为可验证奖励的强化学习 (RLVR) 的变体——特别适合数学或代码等答案可被客观验证的领域。
测试时计算 (Test-Time Computation) : 在推理阶段可以赋予模型更多“思考时间”——例如生成多个答案、先做解题规划或对输出进行验证,从而提高最终准确率。
核心方法: K2-THINK 的六大支柱
K2-THINK 通过**六个相互融合的支柱 **(分为训练后和推理时计算两类) ,将开源的 Qwen2.5-32B 基础模型打造成一个专业的推理专家。
支柱 1 — 使用长思维链进行监督微调
团队首先利用 AM-Thinking-v1-Distilled
数据集扩展了模型的推理能力,该数据集涵盖多个领域,且包含长篇的思维链示例。
本阶段的目标:
- 教授结构化、分步骤的解题书写方式。
- 建立清晰、标准化的推理过程输出格式。
由此得到的检查点——K2-THINK-SFT——取得了显著的性能提升。
图2: 左图——SFT 训练期间多个基准测试上的 Pass@1 得分。在约 0.5 个 epoch 后增益趋于平稳,显示模型快速掌握了推理能力。
图3: AIME2024 上的 Pass@k 表现。K2-THINK-SFT (蓝色) 在 k=16 时约达 95% 饱和;基础模型 (红色) 即使在 k=128 时仍表现欠佳。
支柱 2 — 可验证奖励的强化学习 (RLVR)
在具备推理能力后,RLVR 进一步优化了答案的正确性。通过使用 Guru 数据集 (涵盖数学、代码、科学、逻辑、仿真和表格等领域的约 9.2 万个提示) ,K2-THINK 学会了直接针对准确率进行优化。
关键经验总结:
- 强 SFT 限制了 RL 的提升空间: 从高性能的 SFT 模型开始进行 RL,增益仅约 5%;而直接从基础模型开始 RL,提升可达 40%。
- 上下文长度很重要: 多阶段 RL 如果初始阶段使用较短上下文 (16k tokens) 再扩展至 32k,会显著损害性能。
图4: 上——从基础模型进行 RL 提升更快;下——初始限制上下文长度会造成持久的性能下降。
支柱 3 & 4 — “先规划后思考”与 N 中择优采样
推理质量不仅取决于训练,还取决于测试阶段模型的使用方式。
图5: K2-THINK 的推理流程: 高层规划先于详细推理;生成多个方案后选择最佳输出。
支柱 3 — “先规划后思考”:
在问题进入推理模型之前,一个轻量规划代理会先梳理关键概念和步骤。这种“元思考”指导推理过程,就像人类写作前先列提纲一样。
支柱 4 — N 中择优 (Best-of-N, BoN) 采样:
K2-THINK 会生成 N=3 个候选答案,并由一个独立的 LLM 进行两两比较,选出最优解。这种额外少量计算带来了显著的准确率提升。
支柱 5 & 6 — 极速部署
由于推理链较长且使用了 BoN 采样,K2-THINK 的部署需兼顾速度。团队从两方面着手:
支柱 5 — 推测解码 (Speculative Decoding) :
由一个较小的“草稿”模型批量生成 tokens,再由主模型进行验证,避免了逐 token 生成的低效。
支柱 6 — 推理优化硬件:
部署在 Cerebras 晶圆级引擎 (WSE) 上,将所有模型权重置于超大容量的片上存储中,消除了带宽瓶颈。结果可达 约 2000 tokens/秒。
例如: 一个 3.2 万 token 的数学或代码证明,仅需 16 秒 即可完成。
实验与结果: 小模型,大能量
K2-THINK 与业界领先的专有和开源模型进行了基准测试。
Benchmarks → | Math | Code | Science | ||||||
---|---|---|---|---|---|---|---|---|---|
Models ↓ | AIME 2024 | AIME 2025 | HMMT25 | Omni-HARD | Micro-Avg. | LCBv5 | SciCode (sub/main) | GPQA-D | HLE |
K2-Think | 90.83 | 81.24 | 73.75 | 60.73 | 67.99 | 63.97 | 39.2 / 12.0 | 71.08 | 9.95 |
GPT-OSS 120B | 89.58 | 84.59 | 81.88 | 57.76 | 67.20 | 74.53 | 38.8 / 11.0 | 77.04 | 18.58 |
DeepSeek V3.1† | 91.87 | 82.49 | 83.54 | 53.22 | 64.43 | 66.59 | 38.2 / 11.7 | 79.46 | 8.40 |
表1 节选: K2-THINK 在数学微平均分上领先所有开源模型,甚至超过部分规模更大的专有系统。
组件分析
AIME 2024 | AIME 2025 | HMMT25 | Omni-HARD | |
---|---|---|---|---|
SFT+RL Checkpoint | 86.26 | 77.72 | 66.46 | 56.74 |
+ Plan only | 85.21 | 81.04 | 71.87 | 58.97 |
+ Bo3 only | 90.77 | 81.22 | 71.16 | 59.47 |
+ Plan + Bo3 (K2-Think) | 90.83 | 81.24 | 73.75 | 60.73 |
表2: Bo3 提升幅度最大;与规划结合后整体性能最佳。
规划意外减少了输出冗余
Model | AIME 2024 | AIME 2025 | HMMT25 | Omni-HARD | LCBv5 | GPQA-D |
---|---|---|---|---|---|---|
SFT+RL Checkpoint | 21,482 | 25,262 | 29,136 | 34,042 | 13,589 | 14,998 |
K2-Think | 20,040 | 24,266 | 27,030 | 30,050 | 12,166 | 14,680 |
表3 节选: 推理前的规划使响应长度最多缩短约 12%,输出更加简洁。
结论: 小模型,大思路
K2-THINK 提供了一种在不依赖超大规模的情况下,实现前沿 AI 性能的路线图。
主要启示:
- 巧妙工程胜过蛮力扩张: 精心优化的 320 亿参数模型同样能挑战比它大 10 倍的系统。
- 测试时计算是重要杠杆: 规划与 BoN 等技术可在无需重新训练的情况下显著提升性能。
- 效率提升用户体验: 更短、更清晰的回答提升可用性并节约计算资源。
重要的是,团队不仅开源了权重和代码,还将 K2-THINK 作为公共 API 部署在 k2think.ai,邀请社区体验一个实时的前沿推理系统。
K2-THINK 证明,AI 推理的未来可能不在于无休止地扩大模型规模,而在于协同组合更优质的数据、更智能的训练后方法,以及巧妙的推理时策略——让最前沿的 AI 更加开放、实惠,并触手可及。