在追求更智能 AI 的过程中,我们常常将 思考 等同于生成更长、更详细的思维链。主流观点是: 如果一个模型“思考得更久”,它最终就会得出正确答案。这种方法促进了显著的进步,但它存在一个根本性的上限。
对于真正复杂的问题——那些需要创造性跳跃、检查中间步骤或从错误路径上及时纠正的问题——仅仅延长独白是不够的。
如果我们不只是让模型思考得 更久,而是教它们思考得 更聪明,会怎么样?这正是新一波 代理式 AI (agentic AI) 的核心理念。一个代理式模型不仅会说,它还会 行动。它可以使用工具 (如 Python 解释器) 来探索、计算和验证自己的推理过程,并从收到的反馈中学习。
然而,大规模训练这样的代理模型是出了名的困难: 计算成本高昂,而且来自工具的反馈可能充满噪声或具有误导性。
于是,rStar2-Agent 问世了。这是微软研究院推出的全新 140 亿参数模型,它重新定义了高效代理式训练的可能性。尽管规模相对较小,它依然在复杂数学推理任务中实现了 最先进 的性能——甚至超过了比它大 40 倍 的模型,例如拥有 6710 亿参数的 DeepSeek-R1。
研究人员是如何做到的?通过三项关键创新:
- 高效的代理式强化学习基础设施。
- GRPO-RoC: 一种能有效利用带噪工具反馈的新型强化学习算法。
- 计算高效的训练方案: 用最少资源培养高级推理能力。
如下所示,rStar2-Agent 仅用 510 个强化学习步骤 就达到了顶尖性能,而其他模型需要数千步才能接近这一水平。
在本文中,我们将介绍 rStar2-Agent 的技术设计,解析它的工作原理、为何如此高效,以及它的成功对未来能够 推理、反思、解决问题 的 AI 意味着什么。
从独白到对话: 代理式方法
传统的大语言模型 (LLM) 解决推理任务通常采用 思维链 (Chain of Thought,CoT) ——一种连续的文本流,将每一步明确写出,就像学生展示解题过程一样。
代理式模型更进一步。它们会借助外部工具 (例如 Python) 运行计算,检查输出,并根据结果决定下一步行动。这将推理过程转变为模型与工具之间的交互式 多轮对话。
示例工作流:
- 第 1 轮 (模型) : “我将编写一个 Python 脚本来测试质数。” →
<tool_call>
- 第 1 轮 (环境) : 运行 Python 代码,返回输出。
- 第 2 轮 (模型) : “有意思,尝试用另一个脚本验证一下。” →
<tool_call>
- 第 2 轮 (环境) : 验证通过 → 返回
True
。 - 第 3 轮 (模型) : “很好,验证通过;最终答案是 17。”
这种 一来一回 的交互让模型能够卸载繁重计算、验证逻辑、并从错误中恢复——这是解决复杂问题的关键。
团队为工具调用设计了结构化的 JSON 格式,并配套了明确的提示词模板来引导使用:
核心方法: 用 GRPO-RoC 更聪明地学习
基础: 分组相对策略优化 (GRPO)
GRPO 使用 仅结果奖励 (outcome-only reward) 训练模型: 若最终答案正确,奖励为 1,否则为 0,从而避免复杂的奖励机制 (reward hacking) 。
模型针对每个问题生成一 组 解答,并根据 **组内相对表现 **(优势) 更新策略:
优势分数会将每条轨迹的奖励与组平均值归一化:
二元奖励:
问题: 强化坏习惯
仅结果奖励在纯文本推理中表现良好,但在 工具使用 上会带来问题:
一条轨迹可能包含多次失败工具调用 (bug、超时等) ,但仍然侥幸得出正确答案。GRPO 会给予同等奖励,潜移默化地让模型觉得“工具出错也没关系”。
如下图所示,朴素的 GRPO 会导致成功轨迹的工具错误率进入 平台期:
解决方案: 正确结果重采样 (RoC)
GRPO-RoC 通过筛选训练样本优化这一过程:
- 过采样: 生成常规组大小 2 倍的样本。
- 分离: 将样本分为 *正样本 *(答案正确) 和 负样本 两堆。
- 非对称降采样:
- 负样本: 随机采一半,保留多样失败模式。
- 正样本:** 按质量**采一半——选择工具错误最少、格式最规范的样本。
工具错误惩罚:
格式惩罚:
惩罚低的正样本更容易被选中,从而让模型从 干净、高效的推理轨迹中学习。
最终 GRPO-RoC 目标函数如下:
构建引擎: 可扩展的代理式强化学习基础设施
训练此规模的代理式模型需要解决两大瓶颈。
1. 工具调用瓶颈:
大规模批处理可能触发数万次工具执行。本地运行会让 CPU 不堪重负,并且有不安全代码执行风险。
解决方案:
专用 环境服务 (Environment Service) 将工具执行与训练进程隔离,分布在集群 CPU 上,在 平均延迟仅 0.3 秒 的情况下实现 每步处理高达 45,000 次并发调用。
2. 推演不平衡:
不同问题需要的轮次和工具调用差异很大,静态 GPU 分配会导致空闲。
解决方案:
动态负载均衡推演调度器 (rollout scheduler) 根据实时 GPU KV 缓存容量分配任务,并异步派发工具调用。
成功的秘诀
1. 无推理冷启动
团队并未采用推理型的监督微调 (SFT) ,而是从 零推理数据 开始训练:
- 通用指令遵循
- 工具调用 JSON 格式
避免在强化学习前过拟合于特定推理风格。
2. 多阶段强化学习
训练分为 三阶段,逐步增加长度和难度:
- 阶段 1: 42,000 个问题,最长 8K → 学习简洁策略。
- 阶段 2: 最长 12K → 更深推理。
- 阶段 3: 仅 17,300 个最难问题 → 挑战极限。
性能稳步提升:
结果与分析
顶尖数学推理
更聪明而非更冗长
rStar2-Agent 在取得更高准确率的同时,生成的响应 更短。
强泛化能力
仅用数学训练,便提升了科学任务的推理能力,并保留了通用能力:
消融研究: RoC 的力量
没有 RoC (即 GRPO with Tool
) 时,性能下降且响应更长:
代理的思维内部
代理式强化学习培育了高级认知特征。高熵词元揭示了:
- 分叉词元 (Forking Tokens) : “但在我得出结论之前……”触发自我反思。
- 工具输出反思词元: 代理模型独有——处理环境反馈以调试或验证。
例如: 遇到 GeneratorsNeeded
错误时,模型会诊断出 SymPy 使用错误,重写更健壮的代码,并成功解决问题。
结论与未来方向
rStar2-Agent 为 高效、以推理为核心的 AI 提供了蓝图:
- 抗噪声强化学习算法: GRPO-RoC
- 可扩展基础设施: 工具调用隔离与动态负载均衡
- 计算高效训练: 多阶段强化学习 + 冷启动 SFT
这项工作表明,提升 推理能力——而非仅增加参数规模——才是发展路径。开源的代码和方案邀请社区将代理式训练拓展到新领域与更强工具。
代理式大语言模型时代已然到来: 它们不仅能生成文本,还能深度推理、与环境交互,并智能地适应变化。