大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器,演变为能够处理复杂、真实世界任务的自主智能体。想象一下,一个人工智能不仅能回答你的问题,还能浏览网站预订航班、进行多步骤的科学研究,甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。
但我们如何教大语言模型做到这一点呢?就像人类一样,智能体最有效的学习方式是通过实践——与环境互动、尝试、犯错,并从结果中学习。这就是强化学习 (Reinforcement Learning, RL) 的核心思想。
然而,用强化学习训练大语言模型智能体是出了名的困难。许多现有方法仅限于简单的单轮任务,或依赖于预先存在的专家演示,而这些演示既昂贵又难以规模化。社区一直缺少一个统一、灵活且有效的框架,来在多样化和现实的场景中从零开始训练智能体。
这时,一篇新的研究论文 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 应运而生。研究人员推出了 AgentGym-RL,这是一个专为此挑战设计的强大开源框架。他们还提出了一种名为 ScalingInter-RL 的新颖训练方法,该方法显著提高了训练的稳定性和性能。
其成果令人瞩目。如图1所示,他们使用这个新框架训练的70亿参数模型,不仅超越了其他开源模型,还在一系列多样化的任务中,匹敌甚至击败了像 GPT-4o 和 Gemini-2.5-Pro 这样的大型闭源巨头。
图 1 左图: 专有模型、开源模型和我们的强化学习模型在不同智能体任务上的表现。右图: 性能与模型规模的关系,显示我们经过强化学习训练的 7B 模型可与远大于自身的专有模型相媲美甚至超越它们。
在这篇文章中,我们将深入探讨这项工作——剖析 AgentGym-RL 的运作方式、ScalingInter-RL 为何如此有效,以及这些进步对下一代人工智能智能体意味着什么。
智能体强化学习快速入门
在我们深入了解这个新框架的细节之前,让我们快速回顾一下在 LLM 智能体背景下的强化学习基础。
智能体的任务可以被建模为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 。尽管名字听起来复杂,但其概念可归结为几个核心组成部分:
- 状态 (State, \(s\)) — 环境的当前情况或配置。
- 动作 (Action, \(a\)) — 智能体做出的选择,例如点击按钮或发出命令。
- 观测 (Observation, \(o\)) — 智能体在采取行动后从环境中接收到的信息 (例如网页内容、游戏状态) 。
- 策略 (Policy, \(\pi_{\theta}\)) — 智能体的“大脑”,由模型权重 \(\theta\) 参数化,将状态映射为动作。
- 奖励 (Reward, \(r\)) — 在一条轨迹结束时表示成功 (1) 或失败 (0) 的反馈信号。
强化学习的目标是调整 \(\theta\) 以最大化期望的累积奖励。智能体与环境交互,生成轨迹 \(\tau\) (状态、动作、观测序列) ,并从中学习。
策略梯度方法是实现这一目标的常用方式。它通过直接估计 \(\theta\) 的变化如何影响期望奖励来运作:
\[ J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \right] \]\(J\) 的梯度告诉我们更新 \(\theta\) 的方向:
\[ \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \sum_{k=0}^{K} \nabla_{\theta} \log \pi_{\theta}(a_k | s_k) \right] \]简单来说: 如果一条轨迹带来成功,就增加导致成功的这些动作的概率。更新过程为:
\[ \theta_{\text{new}} = \theta_{\text{old}} - \alpha \nabla_{\theta} J(\theta) \]这个“行动–奖励–更新”的循环是强化学习的核心。让我们看看 AgentGym-RL 是如何在此基础上构建的。
AgentGym-RL 框架: 智能体的游乐场
AgentGym-RL 是一个统一、模块化、可扩展的平台,用于在真实的多轮场景中训练 LLM 智能体。
架构概览
图 2 AgentGym-RL 的解耦架构概览: 环境模块 (多样化场景) 、智能体模块 (推理与行动) 和训练模块 (强化学习流程) 。
它由三个解耦的核心组件构成:
- 环境模块 — 通过标准化的服务器–客户端架构提供多样化、逼真的场景。无需更改训练逻辑即可接入新环境。
- 智能体模块 — 封装了 LLM 的推理和决策过程,处理观测并输出动作。
- 训练模块 — 收集轨迹,计算策略更新,并使用强化学习算法优化智能体。
图 3 并行 rollout 工作流: 每个智能体对应多个环境实例,并发收集轨迹,并使用 PPO 或 GRPO 等方法进行策略更新。
并行化是关键: 多个环境客户端独立运行。智能体进行交互,产生轨迹,这些轨迹批处理后用于训练更新。这个循环不断重复,稳步提升智能体能力。
关键特性与能力
多样化场景:
- 网页导航 (WebArena) — 动态网站,如电商和论坛。
- 深度搜索 (Deep Search) — 通过搜索引擎或解释器进行多跳问答。
- 数字游戏 (TextCraft) — 基于文本的制作游戏,需要多步规划。
- 具身任务 (BabyAI) — 网格世界中的导航与操作。
- 科学任务 (SciWorld) — 模拟科学实验。
广泛的算法支持: PPO、GRPO、REINFORCE++、RLOO;以及 SFT 和离线偏好优化。
为规模与可靠性而设计: 优化的后端支持并行,修复 Bug 和内存泄漏,保障长时程任务的稳定性。
开源与易用: 框架完全开源,提供可复现的流程、标准化评估,以及用于轨迹检查的可视化界面。
图 4 AgentGym Hub 界面: 环境选择与交互式轨迹可视化,用于调试与分析。
ScalingInter-RL: 稳定高效训练的秘诀
即便有了强大的框架,强化学习训练依然面临探索与利用 (exploration vs. exploitation) 的两难:
- 过多探索 (长时程) → 信号嘈杂,动作浪费,训练崩溃。
- 过少探索 (短时程) → 早期掌握基础,但无法形成复杂策略。
ScalingInter-RL 通过渐进式交互扩展破解这一难题。
图 5 分阶段时程扩展: 初期以短轮次进行利用,然后逐步拉长时程,促进探索与高阶技能学习。
阶段:
- 早期 (短时程) : 限制每个任务的最大轮次 (\(h_t\)),迫使智能体先掌握简单任务。
- 渐进扩展: 按以下规则在训练中逐步增加 \(h_t\):
\[ h_{t+1} = h_t + \delta_h \]
更长的时程促进复杂策略、规划与反思,使任务难度匹配智能体能力。
实验结果: 真的有效吗?
在五个场景的大量实验验证了该框架和 ScalingInter-RL 都带来了显著且稳定的提升。
强化学习让开源模型跻身顶尖
图1的核心结论是: 一个经过充分强化学习训练的 7B 开源模型,能与规模远超自身的专有系统媲美甚至超越它们。这表明针对性强化学习训练的算力投入胜于单纯扩大模型规模。
图 6 训练奖励曲线: 在多个不同环境中均实现了稳定、持续提升。
ScalingInter-RL 优于固定时程
图 7 Deep Search 训练动态: ScalingInter-RL 在长期表现上优于固定短/长时程方案。
- 最大轮次 = 10: 早期提升明显,但因嘈杂探索导致崩溃。
- 最大轮次 = 5: 稳定但很快遇到瓶颈。
- ScalingInter-RL: 起步稍慢,但后程稳定攀升,超越前两者。
各环境亮点
- WebArena: ScalingInter-7B 达到 26% 准确率,超过 GPT-4o (16%) ,与 DeepSeek-R1 (28%) 接近。
- Deep Search: 得分 38.25%,优于 GPT-4o (26.75%) 和 Gemini-2.5-Pro (36.50%) 。
- TextCraft: 成功率达 91%,位居同类最佳;在最难的深度4任务上也少见地取得成功。
- BabyAI: 总体成功率 96.67%,创 SOTA,击败 OpenAI o3。
- SciWorld: 从 1.5% (基础模型) 跃升至 57% (ScalingInter-7B) ,刷新 SOTA 纪录。
案例研究: 更聪明的网页导航
在一个 WebArena 任务中,需要订阅一个热门的 “pittsburgh” 论坛帖子:
- 基础模型: 在不可交互文本上陷入点击循环,任务失败。
- 强化学习模型: 遇到“页面未找到”时,使用
go_back
返回,搜索 “pittsburgh”,找到热门帖子并成功点击“订阅”。
这体现了高级错误恢复、自适应规划与有目的导航等特性——这些都是强化学习赋能的智能体标志。
结论与关键要点
AgentGym-RL 论文带来了高影响力的框架与新颖的训练方法,拓展了开源模型作为智能体的能力边界。
关键要点:
- AgentGym-RL: 强大、开源、模块化的强化学习平台,可支持多环境与可扩展训练。
- ScalingInter-RL: 优雅且高效地平衡探索与利用,提高训练稳定性与最终性能。
- 更聪明的训练 > 更大的模型: 针对性的强化学习能让 7B 模型超越大十倍的模型。
- 迈向自主 AI: 推动 LLM 从静态转向能通过交互学习的自适应智能体。
通过开源代码,作者为社区提供了继续发展的基石。随着方法演进,智能体将能更好地泛化到新任务——让我们更接近真正能在现实世界中采取有意义行动的自主人工智能。