rStar2-Agent: 教会 AI 更聪明地思考，而非更冗长地推理

在追求更智能 AI 的过程中，我们常常将思考等同于生成更长、更详细的思维链。主流观点是: 如果一个模型“思考得更久”，它最终就会得出正确答案。这种方法促进了显著的进步，但它存在一个根本性的上限。

对于真正复杂的问题——那些需要创造性跳跃、检查中间步骤或从错误路径上及时纠正的问题——仅仅延长独白是不够的。

如果我们不只是让模型思考得更久，而是教它们思考得 更聪明，会怎么样？这正是新一波 代理式 AI (agentic AI) 的核心理念。一个代理式模型不仅会说，它还会行动。它可以使用工具 (如 Python 解释器) 来探索、计算和验证自己的推理过程，并从收到的反馈中学习。

然而，大规模训练这样的代理模型是出了名的困难: 计算成本高昂，而且来自工具的反馈可能充满噪声或具有误导性。

于是，rStar2-Agent 问世了。这是微软研究院推出的全新 140 亿参数模型，它重新定义了高效代理式训练的可能性。尽管规模相对较小，它依然在复杂数学推理任务中实现了 最先进 的性能——甚至超过了比它大 40 倍 的模型，例如拥有 6710 亿参数的 DeepSeek-R1。

一张表格，比较了 rStar2-Agent-14B 与其他领先模型在 AIME24、AIME25 和 HMMT25 等数学基准上的表现。

研究人员是如何做到的？通过三项关键创新:

高效的代理式强化学习基础设施。
GRPO-RoC: 一种能有效利用带噪工具反馈的新型强化学习算法。
计算高效的训练方案: 用最少资源培养高级推理能力。

如下所示，rStar2-Agent 仅用 510 个强化学习步骤 就达到了顶尖性能，而其他模型需要数千步才能接近这一水平。

一张折线图显示 rStar2-Agent-14B (青色线) 在 AIME24 基准测试中仅用 510 个训练步骤就达到超过 80% 的准确率，远远超过了规模大得多的 DeepSeek-R1-Zero (紫色线) 。

在本文中，我们将介绍 rStar2-Agent 的技术设计，解析它的工作原理、为何如此高效，以及它的成功对未来能够推理、反思、解决问题 的 AI 意味着什么。

从独白到对话: 代理式方法

传统的大语言模型 (LLM) 解决推理任务通常采用 思维链 (Chain of Thought，CoT) ——一种连续的文本流，将每一步明确写出，就像学生展示解题过程一样。

代理式模型更进一步。它们会借助外部工具 (例如 Python) 运行计算，检查输出，并根据结果决定下一步行动。这将推理过程转变为模型与工具之间的交互式 多轮对话。

示例工作流:

第 1 轮 (模型) : “我将编写一个 Python 脚本来测试质数。” → <tool_call>
第 1 轮 (环境) : 运行 Python 代码，返回输出。
第 2 轮 (模型) : “有意思，尝试用另一个脚本验证一下。” → <tool_call>
第 2 轮 (环境) : 验证通过 → 返回 True。
第 3 轮 (模型) : “很好，验证通过；最终答案是 17。”

这种 一来一回 的交互让模型能够卸载繁重计算、验证逻辑、并从错误中恢复——这是解决复杂问题的关键。

团队为工具调用设计了结构化的 JSON 格式，并配套了明确的提示词模板来引导使用:

rStar2-Agent 使用的提示词模板，展示了系统指令、工具定义和用户问题等部分。

核心方法: 用 GRPO-RoC 更聪明地学习

基础: 分组相对策略优化 (GRPO)

GRPO 使用 仅结果奖励 (outcome-only reward) 训练模型: 若最终答案正确，奖励为 1，否则为 0，从而避免复杂的奖励机制 (reward hacking) 。

模型针对每个问题生成一组解答，并根据 **组内相对表现 **(优势) 更新策略:

GRPO 目标函数的数学公式。

优势分数会将每条轨迹的奖励与组平均值归一化:

GRPO 中优势计算公式，根据组内奖励的均值和标准差进行归一化。

二元奖励:

仅结果的二元奖励公式，其中若答案等同于真实值则 r_i 为 1，否则为 0。

问题: 强化坏习惯

仅结果奖励在纯文本推理中表现良好，但在 工具使用 上会带来问题:

一条轨迹可能包含多次失败工具调用 (bug、超时等) ，但仍然侥幸得出正确答案。GRPO 会给予同等奖励，潜移默化地让模型觉得“工具出错也没关系”。

如下图所示，朴素的 GRPO 会导致成功轨迹的工具错误率进入 平台期:

两张图表显示，使用标准 GRPO (紫色线) 时成功轨迹中的工具调用错误率进入平台期，而使用 GRPO-RoC (绿色线) 时错误率持续降低。

解决方案: 正确结果重采样 (RoC)

GRPO-RoC 通过筛选训练样本优化这一过程:

过采样: 生成常规组大小 2 倍的样本。
分离: 将样本分为 *正样本 *(答案正确) 和 负样本 两堆。
非对称降采样:
- 负样本: 随机采一半，保留多样失败模式。
- 正样本:** 按质量**采一半——选择工具错误最少、格式最规范的样本。

工具错误惩罚:

工具错误惩罚公式，基于错误工具调用次数与总调用次数的比例。

格式惩罚:

格式惩罚公式，惩罚缺少或包含多个答案标签的轨迹。

惩罚低的正样本更容易被选中，从而让模型从干净、高效的推理轨迹中学习。

最终 GRPO-RoC 目标函数如下:

GRPO-RoC 最终目标函数，包含“正确结果重采样”策略。

构建引擎: 可扩展的代理式强化学习基础设施

训练此规模的代理式模型需要解决两大瓶颈。

代理式强化学习基础设施架构图，其中 Rollout 调度器管理 LLM 推理，环境服务负责工具调用。

1. 工具调用瓶颈:
大规模批处理可能触发数万次工具执行。本地运行会让 CPU 不堪重负，并且有不安全代码执行风险。

解决方案:
专用 环境服务 (Environment Service) 将工具执行与训练进程隔离，分布在集群 CPU 上，在 平均延迟仅 0.3 秒 的情况下实现 每步处理高达 45,000 次并发调用。

图表显示代码环境每步可处理多达 45,000 次并发工具调用，延迟稳定在约 0.3 秒。

2. 推演不平衡:
不同问题需要的轮次和工具调用差异很大，静态 GPU 分配会导致空闲。

解决方案:
动态负载均衡推演调度器 (rollout scheduler) 根据实时 GPU KV 缓存容量分配任务，并异步派发工具调用。

静态推演分配 (上) 和动态负载均衡调度器 (下) 的对比，前者导致大量空闲，而后者最大化 GPU 利用率。

成功的秘诀

1. 无推理冷启动

团队并未采用推理型的监督微调 (SFT) ，而是从 零推理数据 开始训练:

通用指令遵循
工具调用 JSON 格式

表格显示无推理 SFT 能提升工具使用和指令遵循能力，但未显著提升数学推理，从而为后续强化学习保持干净起点。

避免在强化学习前过拟合于特定推理风格。

2. 多阶段强化学习

训练分为 三阶段，逐步增加长度和难度:

表格比较了 rStar2-Agent 与其他模型的训练方案，突出其更短的训练长度和更精准的难度筛选。

阶段 1: 42,000 个问题，最长 8K → 学习简洁策略。
阶段 2: 最长 12K → 更深推理。
阶段 3: 仅 17,300 个最难问题 → 挑战极限。

性能稳步提升:

三张图表追踪三个强化学习阶段中 AIME24/25 的分数和平均响应长度，显示稳步提升。

结果与分析

顶尖数学推理

主要结果表显示 rStar2-Agent-14B 在竞争性数学基准上实现顶尖性能。

更聪明而非更冗长

rStar2-Agent 在取得更高准确率的同时，生成的响应更短。

表格显示 rStar2-Agent-14B 在 AIME 基准上输出比其他高性能模型更短的响应。

强泛化能力

仅用数学训练，便提升了科学任务的推理能力，并保留了通用能力:

表格展示 rStar2-Agent-14B 在科学推理及其他通用基准上的广泛泛化能力。

消融研究: RoC 的力量

没有 RoC (即 GRPO with Tool) 时，性能下降且响应更长:

消融研究结果显示 GRPO-RoC (绿色) 比无 RoC 的 GRPO with Tool (紫色) 准确率高且响应更短。

代理的思维内部

代理式强化学习培育了高级认知特征。高熵词元揭示了:

分叉词元 (Forking Tokens) : “但在我得出结论之前……”触发自我反思。
工具输出反思词元: 代理模型独有——处理环境反馈以调试或验证。

例如: 遇到 GeneratorsNeeded 错误时，模型会诊断出 SymPy 使用错误，重写更健壮的代码，并成功解决问题。

示例轨迹显示模型遇到代码错误后反思错误信息 (绿色高亮) ，生成修正代码并顺利解题。

结论与未来方向

rStar2-Agent 为高效、以推理为核心的 AI 提供了蓝图:

抗噪声强化学习算法: GRPO-RoC
可扩展基础设施: 工具调用隔离与动态负载均衡
计算高效训练: 多阶段强化学习 + 冷启动 SFT

这项工作表明，提升 推理能力——而非仅增加参数规模——才是发展路径。开源的代码和方案邀请社区将代理式训练拓展到新领域与更强工具。

代理式大语言模型时代已然到来: 它们不仅能生成文本，还能深度推理、与环境交互，并智能地适应变化。

从独白到对话: 代理式方法#

核心方法: 用 GRPO-RoC 更聪明地学习#

基础: 分组相对策略优化 (GRPO)#

问题: 强化坏习惯#

解决方案: 正确结果重采样 (RoC)#

构建引擎: 可扩展的代理式强化学习基础设施#

成功的秘诀#

1. 无推理冷启动#

2. 多阶段强化学习#

结果与分析#

顶尖数学推理#

更聪明而非更冗长#

强泛化能力#

消融研究: RoC 的力量#

代理的思维内部#

结论与未来方向#