实践出真知：AgentGym-RL 如何教大语言模型解决真实世界问题

大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器，演变为能够处理复杂、真实世界任务的自主智能体。想象一下，一个人工智能不仅能回答你的问题，还能浏览网站预订航班、进行多步骤的科学研究，甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。

但我们如何教大语言模型做到这一点呢？就像人类一样，智能体最有效的学习方式是通过实践——与环境互动、尝试、犯错，并从结果中学习。这就是强化学习 (Reinforcement Learning, RL) 的核心思想。

然而，用强化学习训练大语言模型智能体是出了名的困难。许多现有方法仅限于简单的单轮任务，或依赖于预先存在的专家演示，而这些演示既昂贵又难以规模化。社区一直缺少一个统一、灵活且有效的框架，来在多样化和现实的场景中从零开始训练智能体。

这时，一篇新的研究论文 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 应运而生。研究人员推出了 AgentGym-RL，这是一个专为此挑战设计的强大开源框架。他们还提出了一种名为 ScalingInter-RL 的新颖训练方法，该方法显著提高了训练的稳定性和性能。

其成果令人瞩目。如图1所示，他们使用这个新框架训练的70亿参数模型，不仅超越了其他开源模型，还在一系列多样化的任务中，匹敌甚至击败了像 GPT-4o 和 Gemini-2.5-Pro 这样的大型闭源巨头。

性能对比: 分组条形图显示了在 BabyAI、TextCraft、SciWorld、WebArena 和 Deep Search 上的平均成功率 (左) ，以及整体准确率与模型大小的散点图 (右) 。“Ours-7B”模型取得了最佳结果，优于更大的模型。

图 1 左图: 专有模型、开源模型和我们的强化学习模型在不同智能体任务上的表现。右图: 性能与模型规模的关系，显示我们经过强化学习训练的 7B 模型可与远大于自身的专有模型相媲美甚至超越它们。

在这篇文章中，我们将深入探讨这项工作——剖析 AgentGym-RL 的运作方式、ScalingInter-RL 为何如此有效，以及这些进步对下一代人工智能智能体意味着什么。

智能体强化学习快速入门

在我们深入了解这个新框架的细节之前，让我们快速回顾一下在 LLM 智能体背景下的强化学习基础。

智能体的任务可以被建模为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 。尽管名字听起来复杂，但其概念可归结为几个核心组成部分:

状态 (State, \(s\)) — 环境的当前情况或配置。
动作 (Action, \(a\)) — 智能体做出的选择，例如点击按钮或发出命令。
观测 (Observation, \(o\)) — 智能体在采取行动后从环境中接收到的信息 (例如网页内容、游戏状态) 。
策略 (Policy, \(\pi_{\theta}\)) — 智能体的“大脑”，由模型权重 \(\theta\) 参数化，将状态映射为动作。
奖励 (Reward, \(r\)) — 在一条轨迹结束时表示成功 (1) 或失败 (0) 的反馈信号。

强化学习的目标是调整 \(\theta\) 以最大化期望的累积奖励。智能体与环境交互，生成轨迹 \(\tau\) (状态、动作、观测序列) ，并从中学习。

策略梯度方法是实现这一目标的常用方式。它通过直接估计 \(\theta\) 的变化如何影响期望奖励来运作:

\[ J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \right] \]

\(J\) 的梯度告诉我们更新 \(\theta\) 的方向:

\[ \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ r(\tau) \sum_{k=0}^{K} \nabla_{\theta} \log \pi_{\theta}(a_k | s_k) \right] \]

简单来说: 如果一条轨迹带来成功，就增加导致成功的这些动作的概率。更新过程为:

\[ \theta_{\text{new}} = \theta_{\text{old}} - \alpha \nabla_{\theta} J(\theta) \]

这个“行动–奖励–更新”的循环是强化学习的核心。让我们看看 AgentGym-RL 是如何在此基础上构建的。

AgentGym-RL 框架: 智能体的游乐场

AgentGym-RL 是一个统一、模块化、可扩展的平台，用于在真实的多轮场景中训练 LLM 智能体。

架构概览

AgentGym-RL 框架概览图，展示了解耦的环境、智能体和训练模块，以及网页、搜索、游戏、具身和科学等多样化场景。

图 2 AgentGym-RL 的解耦架构概览: 环境模块 (多样化场景) 、智能体模块 (推理与行动) 和训练模块 (强化学习流程) 。

它由三个解耦的核心组件构成:

环境模块 — 通过标准化的服务器–客户端架构提供多样化、逼真的场景。无需更改训练逻辑即可接入新环境。
智能体模块 — 封装了 LLM 的推理和决策过程，处理观测并输出动作。
训练模块 — 收集轨迹，计算策略更新，并使用强化学习算法优化智能体。

伪代码和工作流示意图: 并行 rollout，其中智能体与环境互动，收集轨迹，并更新策略。

图 3 并行 rollout 工作流: 每个智能体对应多个环境实例，并发收集轨迹，并使用 PPO 或 GRPO 等方法进行策略更新。

并行化是关键: 多个环境客户端独立运行。智能体进行交互，产生轨迹，这些轨迹批处理后用于训练更新。这个循环不断重复，稳步提升智能体能力。

关键特性与能力

多样化场景:
- 网页导航 (WebArena) — 动态网站，如电商和论坛。
- 深度搜索 (Deep Search) — 通过搜索引擎或解释器进行多跳问答。
- 数字游戏 (TextCraft) — 基于文本的制作游戏，需要多步规划。
- 具身任务 (BabyAI) — 网格世界中的导航与操作。
- 科学任务 (SciWorld) — 模拟科学实验。
广泛的算法支持: PPO、GRPO、REINFORCE++、RLOO；以及 SFT 和离线偏好优化。
为规模与可靠性而设计: 优化的后端支持并行，修复 Bug 和内存泄漏，保障长时程任务的稳定性。
开源与易用: 框架完全开源，提供可复现的流程、标准化评估，以及用于轨迹检查的可视化界面。

AgentGym Hub UI 截图，包含环境菜单和可视化地图导航。

图 4 AgentGym Hub 界面: 环境选择与交互式轨迹可视化，用于调试与分析。

ScalingInter-RL: 稳定高效训练的秘诀

即便有了强大的框架，强化学习训练依然面临探索与利用 (exploration vs. exploitation) 的两难:

过多探索 (长时程) → 信号嘈杂，动作浪费，训练崩溃。
过少探索 (短时程) → 早期掌握基础，但无法形成复杂策略。

ScalingInter-RL 通过渐进式交互扩展破解这一难题。

ScalingInter-RL 图解: 从短时程开始掌握基础，然后逐渐增加时程以鼓励探索并解决复杂任务。

图 5 分阶段时程扩展: 初期以短轮次进行利用，然后逐步拉长时程，促进探索与高阶技能学习。

阶段:

早期 (短时程) : 限制每个任务的最大轮次 (\(h_t\))，迫使智能体先掌握简单任务。
渐进扩展: 按以下规则在训练中逐步增加 \(h_t\):
\[ h_{t+1} = h_t + \delta_h \]
更长的时程促进复杂策略、规划与反思，使任务难度匹配智能体能力。

实验结果: 真的有效吗？

在五个场景的大量实验验证了该框架和 ScalingInter-RL 都带来了显著且稳定的提升。

强化学习让开源模型跻身顶尖

图1的核心结论是: 一个经过充分强化学习训练的 7B 开源模型，能与规模远超自身的专有系统媲美甚至超越它们。这表明针对性强化学习训练的算力投入胜于单纯扩大模型规模。

WebArena、Deep Search、TextCraft、BabyAI、SciWorld 在训练步数上的奖励曲线，均呈稳定上升趋势。

图 6 训练奖励曲线: 在多个不同环境中均实现了稳定、持续提升。

ScalingInter-RL 优于固定时程

Deep Search 中的奖励–步数曲线: 长时程训练崩溃；短时程停滞；ScalingInter-RL 稳步攀升至最高点。

图 7 Deep Search 训练动态: ScalingInter-RL 在长期表现上优于固定短/长时程方案。

最大轮次 = 10: 早期提升明显，但因嘈杂探索导致崩溃。
最大轮次 = 5: 稳定但很快遇到瓶颈。
ScalingInter-RL: 起步稍慢，但后程稳定攀升，超越前两者。

各环境亮点

WebArena: ScalingInter-7B 达到 26% 准确率，超过 GPT-4o (16%) ，与 DeepSeek-R1 (28%) 接近。
Deep Search: 得分 38.25%，优于 GPT-4o (26.75%) 和 Gemini-2.5-Pro (36.50%) 。
TextCraft: 成功率达 91%，位居同类最佳；在最难的深度4任务上也少见地取得成功。
BabyAI: 总体成功率 96.67%，创 SOTA，击败 OpenAI o3。
SciWorld: 从 1.5% (基础模型) 跃升至 57% (ScalingInter-7B) ，刷新 SOTA 纪录。

案例研究: 更聪明的网页导航

在一个 WebArena 任务中，需要订阅一个热门的 “pittsburgh” 论坛帖子:

基础模型: 在不可交互文本上陷入点击循环，任务失败。
强化学习模型: 遇到“页面未找到”时，使用 go_back 返回，搜索 “pittsburgh”，找到热门帖子并成功点击“订阅”。

这体现了高级错误恢复、自适应规划与有目的导航等特性——这些都是强化学习赋能的智能体标志。

结论与关键要点

AgentGym-RL 论文带来了高影响力的框架与新颖的训练方法，拓展了开源模型作为智能体的能力边界。

关键要点:

AgentGym-RL: 强大、开源、模块化的强化学习平台，可支持多环境与可扩展训练。
ScalingInter-RL: 优雅且高效地平衡探索与利用，提高训练稳定性与最终性能。
更聪明的训练 > 更大的模型: 针对性的强化学习能让 7B 模型超越大十倍的模型。
迈向自主 AI: 推动 LLM 从静态转向能通过交互学习的自适应智能体。

通过开源代码，作者为社区提供了继续发展的基石。随着方法演进，智能体将能更好地泛化到新任务——让我们更接近真正能在现实世界中采取有意义行动的自主人工智能。

智能体强化学习快速入门#

AgentGym-RL 框架: 智能体的游乐场#

架构概览#

关键特性与能力#

ScalingInter-RL: 稳定高效训练的秘诀#

实验结果: 真的有效吗？#

强化学习让开源模型跻身顶尖#

ScalingInter-RL 优于固定时程#

各环境亮点#

案例研究: 更聪明的网页导航#

结论与关键要点#