在追求更智能 AI 的过程中,我们常常将 思考 等同于生成更长、更详细的思维链。主流观点是: 如果一个模型“思考得更久”,它最终就会得出正确答案。这种方法促进了显著的进步,但它存在一个根本性的上限。

对于真正复杂的问题——那些需要创造性跳跃、检查中间步骤或从错误路径上及时纠正的问题——仅仅延长独白是不够的。

如果我们不只是让模型思考得 更久,而是教它们思考得 更聪明,会怎么样?这正是新一波 代理式 AI (agentic AI) 的核心理念。一个代理式模型不仅会说,它还会 行动。它可以使用工具 (如 Python 解释器) 来探索、计算和验证自己的推理过程,并从收到的反馈中学习。

然而,大规模训练这样的代理模型是出了名的困难: 计算成本高昂,而且来自工具的反馈可能充满噪声或具有误导性。

于是,rStar2-Agent 问世了。这是微软研究院推出的全新 140 亿参数模型,它重新定义了高效代理式训练的可能性。尽管规模相对较小,它依然在复杂数学推理任务中实现了 最先进 的性能——甚至超过了比它大 40 倍 的模型,例如拥有 6710 亿参数的 DeepSeek-R1。

一张表格,比较了 rStar2-Agent-14B 与其他领先模型在 AIME24、AIME25 和 HMMT25 等数学基准上的表现。

研究人员是如何做到的?通过三项关键创新:

  1. 高效的代理式强化学习基础设施
  2. GRPO-RoC: 一种能有效利用带噪工具反馈的新型强化学习算法。
  3. 计算高效的训练方案: 用最少资源培养高级推理能力。

如下所示,rStar2-Agent 仅用 510 个强化学习步骤 就达到了顶尖性能,而其他模型需要数千步才能接近这一水平。

一张折线图显示 rStar2-Agent-14B (青色线) 在 AIME24 基准测试中仅用 510 个训练步骤就达到超过 80% 的准确率,远远超过了规模大得多的 DeepSeek-R1-Zero (紫色线) 。

在本文中,我们将介绍 rStar2-Agent 的技术设计,解析它的工作原理、为何如此高效,以及它的成功对未来能够 推理反思解决问题 的 AI 意味着什么。


从独白到对话: 代理式方法

传统的大语言模型 (LLM) 解决推理任务通常采用 思维链 (Chain of Thought,CoT) ——一种连续的文本流,将每一步明确写出,就像学生展示解题过程一样。

代理式模型更进一步。它们会借助外部工具 (例如 Python) 运行计算,检查输出,并根据结果决定下一步行动。这将推理过程转变为模型与工具之间的交互式 多轮对话

示例工作流:

  1. 第 1 轮 (模型) : “我将编写一个 Python 脚本来测试质数。” → <tool_call>
  2. 第 1 轮 (环境) : 运行 Python 代码,返回输出。
  3. 第 2 轮 (模型) : “有意思,尝试用另一个脚本验证一下。” → <tool_call>
  4. 第 2 轮 (环境) : 验证通过 → 返回 True
  5. 第 3 轮 (模型) : “很好,验证通过;最终答案是 17。”

这种 一来一回 的交互让模型能够卸载繁重计算、验证逻辑、并从错误中恢复——这是解决复杂问题的关键。

团队为工具调用设计了结构化的 JSON 格式,并配套了明确的提示词模板来引导使用:

rStar2-Agent 使用的提示词模板,展示了系统指令、工具定义和用户问题等部分。


核心方法: 用 GRPO-RoC 更聪明地学习

基础: 分组相对策略优化 (GRPO)

GRPO 使用 仅结果奖励 (outcome-only reward) 训练模型: 若最终答案正确,奖励为 1,否则为 0,从而避免复杂的奖励机制 (reward hacking) 。

模型针对每个问题生成一 解答,并根据 **组内相对表现 **(优势) 更新策略:

GRPO 目标函数的数学公式。

优势分数会将每条轨迹的奖励与组平均值归一化:

GRPO 中优势计算公式,根据组内奖励的均值和标准差进行归一化。

二元奖励:

仅结果的二元奖励公式,其中若答案等同于真实值则 r_i 为 1,否则为 0。


问题: 强化坏习惯

仅结果奖励在纯文本推理中表现良好,但在 工具使用 上会带来问题:

一条轨迹可能包含多次失败工具调用 (bug、超时等) ,但仍然侥幸得出正确答案。GRPO 会给予同等奖励,潜移默化地让模型觉得“工具出错也没关系”。

如下图所示,朴素的 GRPO 会导致成功轨迹的工具错误率进入 平台期:

两张图表显示,使用标准 GRPO (紫色线) 时成功轨迹中的工具调用错误率进入平台期,而使用 GRPO-RoC (绿色线) 时错误率持续降低。


解决方案: 正确结果重采样 (RoC)

GRPO-RoC 通过筛选训练样本优化这一过程:

  1. 过采样: 生成常规组大小 2 倍的样本。
  2. 分离: 将样本分为 *正样本 *(答案正确) 和 负样本 两堆。
  3. 非对称降采样:
    • 负样本: 随机采一半,保留多样失败模式。
    • 正样本:** 按质量**采一半——选择工具错误最少、格式最规范的样本。

工具错误惩罚:

工具错误惩罚公式,基于错误工具调用次数与总调用次数的比例。

格式惩罚:

格式惩罚公式,惩罚缺少或包含多个答案标签的轨迹。

惩罚低的正样本更容易被选中,从而让模型从 干净、高效的推理轨迹中学习。

最终 GRPO-RoC 目标函数如下:

GRPO-RoC 最终目标函数,包含“正确结果重采样”策略。


构建引擎: 可扩展的代理式强化学习基础设施

训练此规模的代理式模型需要解决两大瓶颈。

代理式强化学习基础设施架构图,其中 Rollout 调度器管理 LLM 推理,环境服务负责工具调用。

1. 工具调用瓶颈:
大规模批处理可能触发数万次工具执行。本地运行会让 CPU 不堪重负,并且有不安全代码执行风险。

解决方案:
专用 环境服务 (Environment Service) 将工具执行与训练进程隔离,分布在集群 CPU 上,在 平均延迟仅 0.3 秒 的情况下实现 每步处理高达 45,000 次并发调用

图表显示代码环境每步可处理多达 45,000 次并发工具调用,延迟稳定在约 0.3 秒。


2. 推演不平衡:
不同问题需要的轮次和工具调用差异很大,静态 GPU 分配会导致空闲。

解决方案:
动态负载均衡推演调度器 (rollout scheduler) 根据实时 GPU KV 缓存容量分配任务,并异步派发工具调用。

静态推演分配 (上) 和动态负载均衡调度器 (下) 的对比,前者导致大量空闲,而后者最大化 GPU 利用率。


成功的秘诀

1. 无推理冷启动

团队并未采用推理型的监督微调 (SFT) ,而是从 零推理数据 开始训练:

  • 通用指令遵循
  • 工具调用 JSON 格式

表格显示无推理 SFT 能提升工具使用和指令遵循能力,但未显著提升数学推理,从而为后续强化学习保持干净起点。

避免在强化学习前过拟合于特定推理风格。


2. 多阶段强化学习

训练分为 三阶段,逐步增加长度和难度:

表格比较了 rStar2-Agent 与其他模型的训练方案,突出其更短的训练长度和更精准的难度筛选。

  • 阶段 1: 42,000 个问题,最长 8K → 学习简洁策略。
  • 阶段 2: 最长 12K → 更深推理。
  • 阶段 3: 仅 17,300 个最难问题 → 挑战极限。

性能稳步提升:

三张图表追踪三个强化学习阶段中 AIME24/25 的分数和平均响应长度,显示稳步提升。


结果与分析

顶尖数学推理

主要结果表显示 rStar2-Agent-14B 在竞争性数学基准上实现顶尖性能。


更聪明而非更冗长

rStar2-Agent 在取得更高准确率的同时,生成的响应 更短

表格显示 rStar2-Agent-14B 在 AIME 基准上输出比其他高性能模型更短的响应。


强泛化能力

仅用数学训练,便提升了科学任务的推理能力,并保留了通用能力:

表格展示 rStar2-Agent-14B 在科学推理及其他通用基准上的广泛泛化能力。


消融研究: RoC 的力量

没有 RoC (即 GRPO with Tool) 时,性能下降且响应更长:

消融研究结果显示 GRPO-RoC (绿色) 比无 RoC 的 GRPO with Tool (紫色) 准确率高且响应更短。


代理的思维内部

代理式强化学习培育了高级认知特征。高熵词元揭示了:

  1. 分叉词元 (Forking Tokens) : “但在我得出结论之前……”触发自我反思。
  2. 工具输出反思词元: 代理模型独有——处理环境反馈以调试或验证。

例如: 遇到 GeneratorsNeeded 错误时,模型会诊断出 SymPy 使用错误,重写更健壮的代码,并成功解决问题。

示例轨迹显示模型遇到代码错误后反思错误信息 (绿色高亮) ,生成修正代码并顺利解题。


结论与未来方向

rStar2-Agent高效、以推理为核心的 AI 提供了蓝图:

  • 抗噪声强化学习算法: GRPO-RoC
  • 可扩展基础设施: 工具调用隔离与动态负载均衡
  • 计算高效训练: 多阶段强化学习 + 冷启动 SFT

这项工作表明,提升 推理能力——而非仅增加参数规模——才是发展路径。开源的代码和方案邀请社区将代理式训练拓展到新领域与更强工具。

代理式大语言模型时代已然到来: 它们不仅能生成文本,还能深度推理、与环境交互,并智能地适应变化。