大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器,演变为能够处理复杂、真实世界任务的自主智能体。想象一下,一个人工智能不仅能回答你的问题,还能浏览网站预订航班、进行多步骤的科学研究,甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。

但我们如何教大语言模型做到这一点呢?就像人类一样,智能体最有效的学习方式是通过实践——与环境互动、尝试、犯错,并从结果中学习。这就是强化学习 (Reinforcement Learning, RL) 的核心思想。

然而,用强化学习训练大语言模型智能体是出了名的困难。许多现有方法仅限于简单的单轮任务,或依赖于预先存在的专家演示,而这些演示既昂贵又难以规模化。社区一直缺少一个统一、灵活且有效的框架,来在多样化和现实的场景中从零开始训练智能体。

这时,一篇新的研究论文 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 应运而生。研究人员推出了 AgentGym-RL,这是一个专为此挑战设计的强大开源框架。他们还提出了一种名为 ScalingInter-RL 的新颖训练方法,该方法显著提高了训练的稳定性和性能。

其成果令人瞩目。如图1所示,他们使用这个新框架训练的70亿参数模型,不仅超越了其他开源模型,还在一系列多样化的任务中,匹敌甚至击败了像 GPT-4o 和 Gemini-2.5-Pro 这样的大型闭源巨头。

性能对比: 分组条形图显示了在 BabyAI、TextCraft、SciWorld、WebArena 和 Deep Search 上的平均成功率 (左) ,以及整体准确率与模型大小的散点图 (右) 。“Ours-7B”模型取得了最佳结果,优于更大的模型。

图 1 左图: 专有模型、开源模型和我们的强化学习模型在不同智能体任务上的表现。右图: 性能与模型规模的关系,显示我们经过强化学习训练的 7B 模型可与远大于自身的专有模型相媲美甚至超越它们。


在这篇文章中,我们将深入探讨这项工作——剖析 AgentGym-RL 的运作方式、ScalingInter-RL 为何如此有效,以及这些进步对下一代人工智能智能体意味着什么。

智能体强化学习快速入门

在我们深入了解这个新框架的细节之前,让我们快速回顾一下在 LLM 智能体背景下的强化学习基础。

智能体的任务可以被建模为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 。尽管名字听起来复杂,但其概念可归结为几个核心组成部分:

  • 状态 (State, \(s\)) — 环境的当前情况或配置。
  • 动作 (Action, \(a\)) — 智能体做出的选择,例如点击按钮或发出命令。
  • 观测 (Observation, \(o\)) — 智能体在采取行动后从环境中接收到的信息 (例如网页内容、游戏状态) 。
  • 策略 (Policy, \(\pi_{\theta}\)) — 智能体的“大脑”,由模型权重 \(\theta\) 参数化,将状态映射为动作。
  • 奖励 (Reward, \(r\)) — 在一条轨迹结束时表示成功 (1) 或失败 (0) 的反馈信号。

强化学习的目标是调整 \(\theta\) 以最大化期望的累积奖励。智能体与环境交互,生成轨迹 \(\tau\) (状态、动作、观测序列) ,并从中学习。

策略梯度方法是实现这一目标的常用方式。它通过直接估计 \(\theta\) 的变化如何影响期望奖励来运作:

\[ J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \right] \]

\(J\) 的梯度告诉我们更新 \(\theta\) 的方向:

\[ \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \sum_{k=0}^{K} \nabla_{\theta} \log \pi_{\theta}(a_k | s_k) \right] \]

简单来说: 如果一条轨迹带来成功,就增加导致成功的这些动作的概率。更新过程为:

\[ \theta_{\text{new}} = \theta_{\text{old}} - \alpha \nabla_{\theta} J(\theta) \]

这个“行动–奖励–更新”的循环是强化学习的核心。让我们看看 AgentGym-RL 是如何在此基础上构建的。


AgentGym-RL 框架: 智能体的游乐场

AgentGym-RL 是一个统一、模块化、可扩展的平台,用于在真实的多轮场景中训练 LLM 智能体。

架构概览

AgentGym-RL 框架概览图,展示了解耦的环境、智能体和训练模块,以及网页、搜索、游戏、具身和科学等多样化场景。

图 2 AgentGym-RL 的解耦架构概览: 环境模块 (多样化场景) 、智能体模块 (推理与行动) 和训练模块 (强化学习流程) 。

它由三个解耦的核心组件构成:

  1. 环境模块 — 通过标准化的服务器–客户端架构提供多样化、逼真的场景。无需更改训练逻辑即可接入新环境。
  2. 智能体模块 — 封装了 LLM 的推理和决策过程,处理观测并输出动作。
  3. 训练模块 — 收集轨迹,计算策略更新,并使用强化学习算法优化智能体。

伪代码和工作流示意图: 并行 rollout,其中智能体与环境互动,收集轨迹,并更新策略。

图 3 并行 rollout 工作流: 每个智能体对应多个环境实例,并发收集轨迹,并使用 PPO 或 GRPO 等方法进行策略更新。

并行化是关键: 多个环境客户端独立运行。智能体进行交互,产生轨迹,这些轨迹批处理后用于训练更新。这个循环不断重复,稳步提升智能体能力。


关键特性与能力

  • 多样化场景:

    • 网页导航 (WebArena) — 动态网站,如电商和论坛。
    • 深度搜索 (Deep Search) — 通过搜索引擎或解释器进行多跳问答。
    • 数字游戏 (TextCraft) — 基于文本的制作游戏,需要多步规划。
    • 具身任务 (BabyAI) — 网格世界中的导航与操作。
    • 科学任务 (SciWorld) — 模拟科学实验。
  • 广泛的算法支持: PPO、GRPO、REINFORCE++、RLOO;以及 SFT 和离线偏好优化。

  • 为规模与可靠性而设计: 优化的后端支持并行,修复 Bug 和内存泄漏,保障长时程任务的稳定性。

  • 开源与易用: 框架完全开源,提供可复现的流程、标准化评估,以及用于轨迹检查的可视化界面

AgentGym Hub UI 截图,包含环境菜单和可视化地图导航。

图 4 AgentGym Hub 界面: 环境选择与交互式轨迹可视化,用于调试与分析。


ScalingInter-RL: 稳定高效训练的秘诀

即便有了强大的框架,强化学习训练依然面临探索与利用 (exploration vs. exploitation) 的两难:

  • 过多探索 (长时程) → 信号嘈杂,动作浪费,训练崩溃。
  • 过少探索 (短时程) → 早期掌握基础,但无法形成复杂策略。

ScalingInter-RL 通过渐进式交互扩展破解这一难题。

ScalingInter-RL 图解: 从短时程开始掌握基础,然后逐渐增加时程以鼓励探索并解决复杂任务。

图 5 分阶段时程扩展: 初期以短轮次进行利用,然后逐步拉长时程,促进探索与高阶技能学习。

阶段:

  1. 早期 (短时程) : 限制每个任务的最大轮次 (\(h_t\)),迫使智能体先掌握简单任务。
  2. 渐进扩展: 按以下规则在训练中逐步增加 \(h_t\):
    \[ h_{t+1} = h_t + \delta_h \]
    更长的时程促进复杂策略、规划与反思,使任务难度匹配智能体能力。

实验结果: 真的有效吗?

在五个场景的大量实验验证了该框架和 ScalingInter-RL 都带来了显著且稳定的提升。

强化学习让开源模型跻身顶尖

图1的核心结论是: 一个经过充分强化学习训练的 7B 开源模型,能与规模远超自身的专有系统媲美甚至超越它们。这表明针对性强化学习训练的算力投入胜于单纯扩大模型规模

WebArena、Deep Search、TextCraft、BabyAI、SciWorld 在训练步数上的奖励曲线,均呈稳定上升趋势。

图 6 训练奖励曲线: 在多个不同环境中均实现了稳定、持续提升。


ScalingInter-RL 优于固定时程

Deep Search 中的奖励–步数曲线: 长时程训练崩溃;短时程停滞;ScalingInter-RL 稳步攀升至最高点。

图 7 Deep Search 训练动态: ScalingInter-RL 在长期表现上优于固定短/长时程方案。

  • 最大轮次 = 10: 早期提升明显,但因嘈杂探索导致崩溃。
  • 最大轮次 = 5: 稳定但很快遇到瓶颈。
  • ScalingInter-RL: 起步稍慢,但后程稳定攀升,超越前两者。

各环境亮点

  • WebArena: ScalingInter-7B 达到 26% 准确率,超过 GPT-4o (16%) ,与 DeepSeek-R1 (28%) 接近。
  • Deep Search: 得分 38.25%,优于 GPT-4o (26.75%) 和 Gemini-2.5-Pro (36.50%) 。
  • TextCraft: 成功率达 91%,位居同类最佳;在最难的深度4任务上也少见地取得成功。
  • BabyAI: 总体成功率 96.67%,创 SOTA,击败 OpenAI o3。
  • SciWorld: 从 1.5% (基础模型) 跃升至 57% (ScalingInter-7B) ,刷新 SOTA 纪录。

案例研究: 更聪明的网页导航

在一个 WebArena 任务中,需要订阅一个热门的 “pittsburgh” 论坛帖子:

  • 基础模型: 在不可交互文本上陷入点击循环,任务失败。
  • 强化学习模型: 遇到“页面未找到”时,使用 go_back 返回,搜索 “pittsburgh”,找到热门帖子并成功点击“订阅”。

这体现了高级错误恢复、自适应规划与有目的导航等特性——这些都是强化学习赋能的智能体标志。


结论与关键要点

AgentGym-RL 论文带来了高影响力的框架与新颖的训练方法,拓展了开源模型作为智能体的能力边界。

关键要点:

  1. AgentGym-RL: 强大、开源、模块化的强化学习平台,可支持多环境与可扩展训练。
  2. ScalingInter-RL: 优雅且高效地平衡探索与利用,提高训练稳定性与最终性能。
  3. 更聪明的训练 > 更大的模型: 针对性的强化学习能让 7B 模型超越大十倍的模型。
  4. 迈向自主 AI: 推动 LLM 从静态转向能通过交互学习的自适应智能体。

通过开源代码,作者为社区提供了继续发展的基石。随着方法演进,智能体将能更好地泛化到新任务——让我们更接近真正能在现实世界中采取有意义行动的自主人工智能。