引言: AI 智能体的困境

想象一下,一个 AI 智能体可以为你在网站上预订旅行,通过与数字工具交互来管理你的日程,甚至为你浏览复杂的电子商务平台。这正是由大语言模型 (LLM) 驱动的自主智能体所承诺的未来。它们能够以惊人的通用性进行推理、规划和行动。然而,要真正在现实世界的任务中脱颖而出,它们必须像人类一样从经验中学习。

对于这种交互式学习, 强化学习 (RL) 是自然的选择。在强化学习中,智能体通过试错来改进,好的行为会得到奖励,差的行为会受到惩罚。正是这种方法训练出了能精通围棋等游戏的 AI 系统。然而,将强化学习应用于现实世界的 LLM 智能体已被证明既困难又昂贵。

图 1a 所示的传统设置中,智能体直接与真实环境交互。这个过程缓慢、昂贵且脆弱。

图 1a 展示了传统的智能体学习范式。一个智能体直接与真实环境交互,该环境被标注为“不可扩展”,奖励“稀疏且不稳定”,而任务“稀缺且昂贵”。

图 1a. 传统智能体学习受限于任务稀缺、奖励稀疏以及昂贵的真实交互。

主要障碍如下:

  • 昂贵的交互: 每一个现实世界动作——例如加载网页或点击按钮——都消耗时间和算力。收集强化学习所需的数百万样本几乎不切实际。
  • 任务稀缺: 任务多样性稀少。设计与验证此类任务需要大量人工成本。
  • 反馈不稳定: 真实环境常常不可预测;网站更新、API 失效以及奖励延迟或噪声频繁出现。
  • 基础设施复杂: 适用于强化学习的环境往往依赖于如 Docker 或虚拟机的重型后端系统,阻碍了扩展性。

这些限制使强化学习难以将 LLM 智能体转变为真正具备适应性的决策者。那么,如果不在真实世界中“搏斗”,而是构建一个梦境世界——一个专为学习而设的、可扩展的合成环境,会如何呢?

这就是论文 《通过经验合成扩展智能体学习》 的核心思想。研究者提出了 DreamGym , 一个通过为智能体合成高质量经验来绕过现实限制的框架。如 图 1b 所示,DreamGym 使用由推理驱动的“经验模型”生成大量、低成本且可调的交互数据,实现高效的强化学习训练。

图 1b 展示了 DreamGym 范式。智能体与一个可扩展的经验模型交互,该模型从多样且廉价的任务变体中合成丰富的经验,实现高效学习。

图 1b. DreamGym 用由统一经验模型生成的可扩展合成经验取代昂贵的真实交互。

本文将解析 DreamGym 的工作原理、意义及其对智能体未来的启示。


背景: 学习的语言

在探索 DreamGym 之前,先回顾强化学习智能体的学习基础。

一个智能体的问题可以表示为马尔可夫决策过程 (MDP) , 由元组 \((\mathcal{S}, \mathcal{A}, T, R, \gamma, \rho_0)\) 定义。

  • 状态 (\(\mathcal{S}\) )描述环境在某一时刻的情境,例如网页的文本及其可点击元素。
  • 动作 (\(\mathcal{A}\) )指智能体可执行的操作,如点击按钮或输入查询。
  • 转移函数 (\(T\) )决定执行动作后环境如何变化。
  • 奖励 (\(R\) )衡量成功或进展的程度。
  • 策略 (\(\pi_{\theta}\) )是智能体的内部决策规则;输入状态后输出针对可能动作的概率分布。

强化学习的目标是优化策略参数 \(\theta\),使智能体最大化期望累积奖励。策略梯度方法如 近端策略优化 (PPO)组相对策略优化 (GRPO) 通过将策略调整至高奖励的动作来实现该目标。

策略梯度方程,根据优势函数调整策略。

策略梯度原理——引导策略向更优行动方向调整。

其中,\(\hat{A}(s_t, a_t)\) 表示优势函数,估计动作 \(a_t\) 在状态 \(s_t\) 下比平均值好多少。

  1. 近端策略优化 (PPO) 通过约束策略更新的幅度来保持训练稳定,并利用学习得到的价值函数 \(V(s)\) 计算广义优势。 PPO 中使用的广义优势估计 (GAE) 方程。

PPO: 限制激进更新并利用广义优势估计提升稳定性。

  1. 组相对策略优化 (GRPO) 移除了价值函数环节。它在同任务的响应组内对奖励进行归一化,生成相对优势,使强化学习更易扩展到 LLM。 GRPO 优势函数,在一组响应中对奖励进行归一化。

GRPO: 通过多次尝试的奖励比较,消除对价值估计的依赖。

两种方法都依赖于海量交互数据——而这正是现实世界强化学习的瓶颈。DreamGym 的合成经验方法正是为突破此限制而设计。


核心方法: 为学习打造一个世界

DreamGym 是一个统一生态系统,由三个紧密结合的组件组成:

  1. 推理经验模型 – 生成合成环境反馈。
  2. 经验回放缓冲区 – 融合离线与在线轨迹以稳定训练。
  3. 课程任务生成器 – 逐步生成更具挑战性的任务以持续学习。

DreamGym 框架概览,展示智能体与推理经验模型交互,并由回放缓冲与课程生成器支持。

图 2. DreamGym 架构整合了基于推理的经验合成、记忆回放及自适应课程生成。

1. 推理经验模型: 语言驱动的动态

DreamGym 的核心是 推理经验模型 (\(\mathcal{M}_{exp}\) )——一个经训练以模拟环境响应与奖励的 LLM。当智能体执行动作时,经验模型会进行“分步推理”,预测下一状态及相应奖励,模拟真实环境的变化过程。

关键在于, 智能体训练无需完美的真实性 , 而需要多样、有信息且因果合理的转移,以支持稳健学习。通过在抽象的文本状态空间中运行——而非 HTML 或像素级别的原始环境——该模型保持高效。

状态转移预测

除当前的状态-动作对外,模型还结合三类上下文以增强可靠性:

  1. 交互历史: 保持多步一致性。
  2. 任务指令: 明确目标。
  3. 回放经验: 检索相关示例减少幻觉。

这些输入被送入 思维链 (CoT) 推理步骤,用于预测下一状态与奖励。

方程展示经验模型如何结合推理、历史记录、检索样本与任务指令预测下一个状态与奖励。

显式推理能提供准确的因果转移与合理奖励。

例如,若智能体点击一个不存在的按钮,推理轨迹会明确得出结论“状态无变化;奖励 = 0”,避免错误信号。

训练经验模型

训练仅需少量真实数据。离线轨迹数据集 (如 WebArena 或 ALFWorld 的日志) 由教师 LLM 注解,解释每次转移发生的原因。随后模型通过监督学习在推理生成与状态预测两个任务上联合微调。

用于训练经验模型的 SFT 损失函数,联合优化推理生成与下一状态预测。

模型学会了连贯推理与状态转移,提炼真实环境逻辑。

由此构建出强大的“虚拟环境”,可与智能体在线交互,实现真实且理性的训练。


2. 经验回放缓冲区: 让合成世界保持扎实

为确保真实感与防止偏移,DreamGym 引入 经验回放缓冲区——一个动态记忆库用于存储轨迹。它起初由离线真实数据填充,随后不断加入合成交互。随着训练推进,智能体策略与经验模型同步演化,确保数据的时效性、相关性与稳定性。

这种“共同演进”机制模拟了人类学习过程——新经验在巩固旧知识的同时推动适应与提升。


3. 课程任务生成器: 永不停止的挑战

如果任务过易或过难,学习会停滞。DreamGym 通过自动化的 课程式任务生成器 解决这一问题。

基于种子任务生成新任务的方程。

新任务基于挑选出的挑战性种子任务,经与经验模型共享参数的方式合成。

通过 奖励熵 启发式,DreamGym 识别信息增益最高的任务——即那些智能体成功率波动、既有成功又有失败的任务,被视为理想学习样本。

根据奖励方差计算任务价值的方程。

成功与失败率均衡的任务可促进最大化学习进度。

这些高熵任务被扩展为更高难度的变体,自动生成丰富课程。当智能体表现趋稳后,它将自动迁移至更高层级任务——实现持续成长而无需人工干预。


实验: DreamGym 的实践效果

研究者在三个领域检验了 DreamGym:

  • WebShop: 电商检索与购买任务。
  • ALFWorld: 文本交互式具身控制。
  • WebArena: 涉及 API、论坛及多标签浏览的真实网页环境。

表 1 比较了 DreamGym、离线 RL、在线 RL 及模拟到现实方法在不同环境与模型规模下的表现。DreamGym 与 DreamGym-S2R 在极少真实数据下表现优异。

表 1. DreamGym 在使用极少量真实交互的前提下,性能稳定优于传统强化学习方法。

关键发现

1. 强化学习在非强化学习环境中的成功

传统 RL 在复杂环境 (如 WebArena) 中常陷入崩溃。DreamGym 仅凭合成轨迹即可提升超过 30% 的成功率,证明 RL 在无法直接交互的场景中也能蓬勃发展。

2. 零真实数据即可匹敌真实表现

在强化学习适配环境 (如 WebShop 和 ALFWorld) 中,完全基于 DreamGym 合成数据训练的智能体,其表现与使用 80,000 次真实交互训练的模型几乎一致,展现出卓越的样本效率。

3. 从模拟到现实迁移 (S2R)

混合方案 DreamGym-S2R 使用仅 5,000 次真实交互微调在合成轨迹上预训练的模型,结果显著优于纯合成与纯真实两个基线。

图 3 展示性能比较: 左——DreamGym 缩短 WebArena 的训练时间;中——强泛化能力;右——更快、更平滑的 WebShop 学习曲线。

图 3. DreamGym 加速训练,提升泛化能力,稳定学习曲线。

  • 效率: 训练时间与成本减少高达 80%。
  • 泛化性: 跨环境迁移能力强。
  • 稳定性: 学习曲线更平滑、更陡峭,标志训练更可靠。

原理分析: 洞见与消融研究

为判断 DreamGym 的成功因素,团队系统分析了各组件的贡献。

课程至关重要

当去掉自适应任务生成时,智能体学习很快进入停滞期,证明持续挑战对于进步不可或缺。

表 2 展示移除关键组件 (任务生成、回放或推理) 导致性能显著下降。

表 2. 在 WebShop 和 WebArena 中,去除课程、记忆回放或推理都会显著降低成功率。

高质量经验的构成要素

通过 GPT-4o 评估发现,历史上下文与显式推理极其重要。缺乏这些因素的模型在状态一致性和信息丰富度上表现不佳,并更易出现幻觉。

图 4 条形图比较不同变体。完整 DreamGym 在一致性、多样性、信息量和低幻觉率上得分最高。

图 4. 全面推理与历史整合带来更高的经验保真度与多样性。

下例展示了推理模型如何在多状态间连贯地追踪动作,捕捉逻辑且因果关联的转移。

WebArena 案例研究展示 DreamGym 如何生成连贯的多步轨迹,模型推理从变更日志摘要到提交详情的点击过程。

图 6. DreamGym 的推理模型生成上下文一致的多轮轨迹。

数据效率与模型规模

DreamGym 的经验模型极具数据效率。仅使用 1–2 万离线样本便可取得优异表现,即便是较小规模 (3B 参数) 的模型亦高效可靠。

图 5 显示 DreamGym 随数据与模型规模扩展。成功率随少量离线样本迅速提升;小模型仍可行。

图 5. 即使在数据或计算资源有限的条件下,DreamGym 仍能表现出色。


结论: 重塑智能体的学习方式

DreamGym 重定义了语言智能体在强化学习领域的可扩展性。它不再与现实环境的复杂性纠缠,而是合成了丰富学习价值的经验——多样、推理驱动、并与课程进度匹配。

关键洞见:

  1. 合成优于模拟: 目标在于构建有意义、因果合理的经验,而非追求逼真性。
  2. 推理不可或缺: 分步逻辑推理是稳健状态转移与奖励的核心。
  3. 课程维持动力: 动态任务难度调整确保持续成长。
  4. 模拟到现实高效迁移: 合成预训练为现实微调提供强劲起点。

最终,DreamGym 揭示了 LLM 智能体强化学习的真正瓶颈并非算法复杂度,而是可获取的结构化经验数据。通过将环境视为连贯推理的生成器而非简单模拟器,DreamGym 展开了一条可扩展路径,助力构建能在数字领域中自然学习、想象并行动的智能系统。