在人工智能的世界里,一场持续的军备竞赛正在上演。科技巨头们正在构建拥有数千亿甚至数万亿参数的、规模空前庞大的模型,不断拓展着可能性的边界。但这种对规模的无情追求是有代价的——确切意义上的高昂代价。这些庞然大物般的模型需要巨大的计算能力,使得它们的训练和部署成本极高,并且往往被锁定在专有 API 背后。
这就产生了一个根本性的矛盾:** 我们如何在没有顶尖预算的情况下实现顶尖的 AI 推理能力?** 一个更小、更易获取的模型能否与巨头竞争?
来自 ServiceNow 的 SLAM 实验室的一篇新研究论文 Apriel-1.5-15B-Thinker: Mid-training is all you need,提供了一个令人信服的答案。研究人员展示了一个 150 亿参数的多模态模型,其表现远超其参数规模,达到了与许多更大系统相媲美的性能。他们的秘诀不仅仅是更多的数据或更大的参数规模,而是一个更智能、更精心设计的训练过程。他们认为,**中段训练 **(mid-training) 阶段——介于初始预训练和最终微调之间的关键步骤——是在紧凑模型中释放卓越推理能力的关键。
在本文中,我们将剖析他们创新的三阶段方法论,探索其令人印象深刻的成果,并讨论为何这项工作可能成为让更多人接触到顶级 AI 的颠覆性进展。
挑战: 能力与可获取性的博弈
在深入探讨解决方案之前,让我们先设定好背景。大多数组织在尝试采用前沿 AI 时面临两大障碍:
- 基础设施限制: 许多机构出于隐私和安全考虑,需要在本地或物理隔离环境中运行模型。这排除了依赖云 API 的可能性,并要求模型能够在有限的硬件上——有时甚至是单块 GPU 上——高效运行。
- 成本: 训练和运行大规模模型所需的资金投入,对除最大型公司之外的所有组织而言都高得令人望而却步。
这正是 Apriel-1.5-15B-Thinker 发挥作用的地方。它是一个开源权重模型,旨在提供前沿水平的推理能力,同时规模足够小,能够实现单 GPU 的实际部署。其核心创新是一个渐进式训练流程,证明了如何训练可能比训练规模更重要。
紧凑天才的三阶段养成法
打造 Apriel-1.5-15B-Thinker 的旅程始于一个现有的开源模型 Pixtral-12B,并通过一个精心策划的三阶段流程对其进行改造。
第一阶段: 高效扩展架构
研究人员没有从头开始训练一个新的 15B 参数模型 (这极其昂贵) ,而是采用了**深度扩展 **(depth upscaling) 的方法:
- 从一个基础模型开始: 他们以 Pixtral-12B 为起点,该模型已经通过流行的 LLaVA 架构——一个视觉编码器通过投影网络连接到语言解码器——结合了视觉和语言能力。
- 增加更多层: 为了提升推理能力,他们将解码器的隐藏层从 40 层扩展到 48 层,在不改变其基本结构的前提下赋予其更深层次的“思考”能力。这次扩展使用了一个包含高质量文本的大型语料库: 网页内容、技术文献、数学题集和代码。
- 重新对齐模态: 在扩大语言部分之后,连接视觉和语言的投影网络被重新训练。在训练这个连接器时,视觉编码器和解码器保持冻结,训练数据使用多模态数据集,如图像描述和文档理解。
这种扩展方法以远低于从零开始的计算成本,交付了一个功能强大的 15B 基础模型。
第二阶段: 方法核心 —— 分阶段持续预训练 (CPT)
在这里,“中段训练即可满足全部需求”的理念真正大放异彩。在扩展之后,模型经历了两个 CPT 阶段,旨在系统性地增强推理能力。
CPT 第一阶段: 构建广泛的基础
这一阶段使用多样化的训练数据组合强化文本与视觉的核心能力:
- 50% 纯文本: 以数学、科学和编程等推理密集领域为主。
- 30% 多模态: 任务包括文档/图表理解、OCR、长篇图像描述和视觉数学推理。
- 20% 重放数据: 来自扩展阶段的样本,以防止知识遗忘。
在 CPT 第一阶段,**整个模型 **(视觉编码器、投影网络、解码器) 都参与训练,以实现整体的多模态理解。
CPT 第二阶段: 用合成数据加强视觉推理
第二个 CPT 阶段的目标是高级视觉推理。研究人员构建了一个从原始图像生成合成数据的流程,以创建特定任务的训练样本:
- 图像重建: 通过遮蔽图像区域学习场景先验知识和部分–整体关系。
- 视觉匹配: 通过将图像裁剪块与候选图进行匹配提升细粒度细节识别能力。
- 目标检测: 通过识别物体存在与位置学习定位/锚定能力。
- 计数: 计算物体的总数或分类别计数。
通过数据增强策略调节难度。在这一阶段,视觉编码器被冻结,而投影网络和解码器参与训练——高效磨炼了视觉理解能力。
这招奏效了吗?团队比较了仅训练至第一阶段与训练至第二阶段后模型的 SFT 性能表现。
CPT 第二阶段带来了持续且显著的提升——在视觉主导的 MathVerse 基准测试上提升了近 10 个百分点——证明了合成数据策略的有效性。
第三阶段: 监督微调 (SFT) 打磨推理能力
在通过扩展和 CPT 获得了强大的基础模型后,最后一步是监督微调 (SFT),将模型打造为一个能够遵循指令并展示推理过程的有用助手。
重点在于:** 数据质量**。
- 高效标注: 使用强大的开源模型担任“标注者”。消融实验表明,不同候选模型之间的性能差异甚微,因此他们选择了计算效率更高的方案。
- 严格过滤: SFT 数据集——包含数百万条指令–响应对——经过严格清理: 去重、内容过滤、LLM 评判验证、拒绝采样,以及去除与基准重叠的样本。
- 显式推理: 每个响应在给出最终答案前都包含推理步骤 (“思维链”) ,让模型不仅知道答案是什么,还知道如何得到答案。
训练策略: 他们先进行一次大规模的 SFT 训练四个周期,然后进行两次更小型、针对性更强的 SFT——一次针对高质量子集,一次针对更长序列——并对权重进行平均,从而在无需昂贵全面重训的情况下提升整体与长上下文性能。
对 Apriel-1.5-15B-Thinker 的考验
经过这一细致的训练流程,结果证实: 一个 15B 模型可以与规模远大于它的竞争对手并驾齐驱。
基于文本的推理: 名列前茅
为衡量通用智能,团队使用了 Artificial Analysis 智能指数,这是一个受人尊敬的第三方指标,聚合了十项基准测试,涵盖从竞技数学 (AIME 2025) 到编程 (LiveCodeBench) 及研究生级 STEM 问题 (GPQA Diamond) 。
Apriel 得分 52,与 DeepSeek-R1-0528 并列,并超越了许多开源权重模型。与包括专有巨头在内的所有模型相比,它依然具有极强竞争力。
也许最能说明问题的图表是: 模型智能与规模的对比。
Apriel 位于“最具吸引力象限”: 相对于其规模而言,性能卓越——是实际部署的理想选择。
详细的基准测试强调了其在数学推理 (AIME2025: 87%)、指令跟随 (IF-Bench) 以及专业领域 (τ²-Bench Telecom) 的优势。
视觉与多模态推理: 坚实的竞争者
Apriel 接受了涵盖广泛多模态图像基准任务的评估。
它与 Llama 4 Maverick (400B) 等巨头不相上下,并且在总体均分上超过了几个更大的专有模型。
Apriel 在视觉–文本推理任务上表现突出——如文档/图表理解 (CharXiv 描述型: 88.2%) 以及具强文本成分的数学问题 (MathVerse 文本主导: 76.4%)。在纯视觉逻辑 (LogicVista) 和高度依赖视觉的挑战 (MMMU-PRO Vision) 上,其性能稳健但仍有提升空间。这一模式符合多数模型的情况: 在描述性/结构性任务上表现更强,而在深度抽象的视觉推理上略显不足。
结论: 更聪明的训练胜过单纯的规模
Apriel-1.5-15B-Thinker 的故事表明,前沿水平的 AI 推理能力并非万亿参数巨型模型的专属。通过执行一个精心设计、以数据为中心的中段训练流程——分阶段 CPT 结合高质量 SFT 且无需 RLHF——团队构建了一个既强大又实用的模型。
关键启示:
- 战略性训练至关重要: 分阶段 CPT 加上高信噪比的 SFT 能够弥合小型模型与大型模型之间的能力差距。
- 效率是可以实现的: 深度扩展与合成课程设计等技术可在无需庞大算力的情况下打造强大模型。
- 可获取性至关重要: 在单 GPU 的开源方案中提供前沿性能,使 AI 研究与部署大众化。
虽然文本推理目前是 Apriel 最突出的强项,但其坚实的多模态基础为未来的进一步提升奠定了基础。这项工作挑战了“越大越好”的传统观念,并指向一个未来——在这个未来中,高效、开放的 AI 模型将成为常态,而非例外。