引言: AI 智能体的困境
想象一下,一个 AI 智能体可以为你在网站上预订旅行,通过与数字工具交互来管理你的日程,甚至为你浏览复杂的电子商务平台。这正是由大语言模型 (LLM) 驱动的自主智能体所承诺的未来。它们能够以惊人的通用性进行推理、规划和行动。然而,要真正在现实世界的任务中脱颖而出,它们必须像人类一样从经验中学习。
对于这种交互式学习, 强化学习 (RL) 是自然的选择。在强化学习中,智能体通过试错来改进,好的行为会得到奖励,差的行为会受到惩罚。正是这种方法训练出了能精通围棋等游戏的 AI 系统。然而,将强化学习应用于现实世界的 LLM 智能体已被证明既困难又昂贵。
在 图 1a 所示的传统设置中,智能体直接与真实环境交互。这个过程缓慢、昂贵且脆弱。

图 1a. 传统智能体学习受限于任务稀缺、奖励稀疏以及昂贵的真实交互。
主要障碍如下:
- 昂贵的交互: 每一个现实世界动作——例如加载网页或点击按钮——都消耗时间和算力。收集强化学习所需的数百万样本几乎不切实际。
- 任务稀缺: 任务多样性稀少。设计与验证此类任务需要大量人工成本。
- 反馈不稳定: 真实环境常常不可预测;网站更新、API 失效以及奖励延迟或噪声频繁出现。
- 基础设施复杂: 适用于强化学习的环境往往依赖于如 Docker 或虚拟机的重型后端系统,阻碍了扩展性。
这些限制使强化学习难以将 LLM 智能体转变为真正具备适应性的决策者。那么,如果不在真实世界中“搏斗”,而是构建一个梦境世界——一个专为学习而设的、可扩展的合成环境,会如何呢?
这就是论文 《通过经验合成扩展智能体学习》 的核心思想。研究者提出了 DreamGym , 一个通过为智能体合成高质量经验来绕过现实限制的框架。如 图 1b 所示,DreamGym 使用由推理驱动的“经验模型”生成大量、低成本且可调的交互数据,实现高效的强化学习训练。

图 1b. DreamGym 用由统一经验模型生成的可扩展合成经验取代昂贵的真实交互。
本文将解析 DreamGym 的工作原理、意义及其对智能体未来的启示。
背景: 学习的语言
在探索 DreamGym 之前,先回顾强化学习智能体的学习基础。
一个智能体的问题可以表示为马尔可夫决策过程 (MDP) , 由元组 \((\mathcal{S}, \mathcal{A}, T, R, \gamma, \rho_0)\) 定义。
- 状态 (\(\mathcal{S}\) )描述环境在某一时刻的情境,例如网页的文本及其可点击元素。
- 动作 (\(\mathcal{A}\) )指智能体可执行的操作,如点击按钮或输入查询。
- 转移函数 (\(T\) )决定执行动作后环境如何变化。
- 奖励 (\(R\) )衡量成功或进展的程度。
- 策略 (\(\pi_{\theta}\) )是智能体的内部决策规则;输入状态后输出针对可能动作的概率分布。
强化学习的目标是优化策略参数 \(\theta\),使智能体最大化期望累积奖励。策略梯度方法如 近端策略优化 (PPO) 和 组相对策略优化 (GRPO) 通过将策略调整至高奖励的动作来实现该目标。

策略梯度原理——引导策略向更优行动方向调整。
其中,\(\hat{A}(s_t, a_t)\) 表示优势函数,估计动作 \(a_t\) 在状态 \(s_t\) 下比平均值好多少。
- 近端策略优化 (PPO) 通过约束策略更新的幅度来保持训练稳定,并利用学习得到的价值函数 \(V(s)\) 计算广义优势。

PPO: 限制激进更新并利用广义优势估计提升稳定性。
- 组相对策略优化 (GRPO) 移除了价值函数环节。它在同任务的响应组内对奖励进行归一化,生成相对优势,使强化学习更易扩展到 LLM。

GRPO: 通过多次尝试的奖励比较,消除对价值估计的依赖。
两种方法都依赖于海量交互数据——而这正是现实世界强化学习的瓶颈。DreamGym 的合成经验方法正是为突破此限制而设计。
核心方法: 为学习打造一个世界
DreamGym 是一个统一生态系统,由三个紧密结合的组件组成:
- 推理经验模型 – 生成合成环境反馈。
- 经验回放缓冲区 – 融合离线与在线轨迹以稳定训练。
- 课程任务生成器 – 逐步生成更具挑战性的任务以持续学习。

图 2. DreamGym 架构整合了基于推理的经验合成、记忆回放及自适应课程生成。
1. 推理经验模型: 语言驱动的动态
DreamGym 的核心是 推理经验模型 (\(\mathcal{M}_{exp}\) )——一个经训练以模拟环境响应与奖励的 LLM。当智能体执行动作时,经验模型会进行“分步推理”,预测下一状态及相应奖励,模拟真实环境的变化过程。
关键在于, 智能体训练无需完美的真实性 , 而需要多样、有信息且因果合理的转移,以支持稳健学习。通过在抽象的文本状态空间中运行——而非 HTML 或像素级别的原始环境——该模型保持高效。
状态转移预测
除当前的状态-动作对外,模型还结合三类上下文以增强可靠性:
- 交互历史: 保持多步一致性。
- 任务指令: 明确目标。
- 回放经验: 检索相关示例减少幻觉。
这些输入被送入 思维链 (CoT) 推理步骤,用于预测下一状态与奖励。

显式推理能提供准确的因果转移与合理奖励。
例如,若智能体点击一个不存在的按钮,推理轨迹会明确得出结论“状态无变化;奖励 = 0”,避免错误信号。
训练经验模型
训练仅需少量真实数据。离线轨迹数据集 (如 WebArena 或 ALFWorld 的日志) 由教师 LLM 注解,解释每次转移发生的原因。随后模型通过监督学习在推理生成与状态预测两个任务上联合微调。

模型学会了连贯推理与状态转移,提炼真实环境逻辑。
由此构建出强大的“虚拟环境”,可与智能体在线交互,实现真实且理性的训练。
2. 经验回放缓冲区: 让合成世界保持扎实
为确保真实感与防止偏移,DreamGym 引入 经验回放缓冲区——一个动态记忆库用于存储轨迹。它起初由离线真实数据填充,随后不断加入合成交互。随着训练推进,智能体策略与经验模型同步演化,确保数据的时效性、相关性与稳定性。
这种“共同演进”机制模拟了人类学习过程——新经验在巩固旧知识的同时推动适应与提升。
3. 课程任务生成器: 永不停止的挑战
如果任务过易或过难,学习会停滞。DreamGym 通过自动化的 课程式任务生成器 解决这一问题。

新任务基于挑选出的挑战性种子任务,经与经验模型共享参数的方式合成。
通过 奖励熵 启发式,DreamGym 识别信息增益最高的任务——即那些智能体成功率波动、既有成功又有失败的任务,被视为理想学习样本。

成功与失败率均衡的任务可促进最大化学习进度。
这些高熵任务被扩展为更高难度的变体,自动生成丰富课程。当智能体表现趋稳后,它将自动迁移至更高层级任务——实现持续成长而无需人工干预。
实验: DreamGym 的实践效果
研究者在三个领域检验了 DreamGym:
- WebShop: 电商检索与购买任务。
- ALFWorld: 文本交互式具身控制。
- WebArena: 涉及 API、论坛及多标签浏览的真实网页环境。

表 1. DreamGym 在使用极少量真实交互的前提下,性能稳定优于传统强化学习方法。
关键发现
1. 强化学习在非强化学习环境中的成功
传统 RL 在复杂环境 (如 WebArena) 中常陷入崩溃。DreamGym 仅凭合成轨迹即可提升超过 30% 的成功率,证明 RL 在无法直接交互的场景中也能蓬勃发展。
2. 零真实数据即可匹敌真实表现
在强化学习适配环境 (如 WebShop 和 ALFWorld) 中,完全基于 DreamGym 合成数据训练的智能体,其表现与使用 80,000 次真实交互训练的模型几乎一致,展现出卓越的样本效率。
3. 从模拟到现实迁移 (S2R)
混合方案 DreamGym-S2R 使用仅 5,000 次真实交互微调在合成轨迹上预训练的模型,结果显著优于纯合成与纯真实两个基线。

图 3. DreamGym 加速训练,提升泛化能力,稳定学习曲线。
- 效率: 训练时间与成本减少高达 80%。
- 泛化性: 跨环境迁移能力强。
- 稳定性: 学习曲线更平滑、更陡峭,标志训练更可靠。
原理分析: 洞见与消融研究
为判断 DreamGym 的成功因素,团队系统分析了各组件的贡献。
课程至关重要
当去掉自适应任务生成时,智能体学习很快进入停滞期,证明持续挑战对于进步不可或缺。

表 2. 在 WebShop 和 WebArena 中,去除课程、记忆回放或推理都会显著降低成功率。
高质量经验的构成要素
通过 GPT-4o 评估发现,历史上下文与显式推理极其重要。缺乏这些因素的模型在状态一致性和信息丰富度上表现不佳,并更易出现幻觉。

图 4. 全面推理与历史整合带来更高的经验保真度与多样性。
下例展示了推理模型如何在多状态间连贯地追踪动作,捕捉逻辑且因果关联的转移。

图 6. DreamGym 的推理模型生成上下文一致的多轮轨迹。
数据效率与模型规模
DreamGym 的经验模型极具数据效率。仅使用 1–2 万离线样本便可取得优异表现,即便是较小规模 (3B 参数) 的模型亦高效可靠。

图 5. 即使在数据或计算资源有限的条件下,DreamGym 仍能表现出色。
结论: 重塑智能体的学习方式
DreamGym 重定义了语言智能体在强化学习领域的可扩展性。它不再与现实环境的复杂性纠缠,而是合成了丰富学习价值的经验——多样、推理驱动、并与课程进度匹配。
关键洞见:
- 合成优于模拟: 目标在于构建有意义、因果合理的经验,而非追求逼真性。
- 推理不可或缺: 分步逻辑推理是稳健状态转移与奖励的核心。
- 课程维持动力: 动态任务难度调整确保持续成长。
- 模拟到现实高效迁移: 合成预训练为现实微调提供强劲起点。
最终,DreamGym 揭示了 LLM 智能体强化学习的真正瓶颈并非算法复杂度,而是可获取的结构化经验数据。通过将环境视为连贯推理的生成器而非简单模拟器,DreamGym 展开了一条可扩展路径,助力构建能在数字领域中自然学习、想象并行动的智能系统。
](https://deep-paper.org/en/paper/2511.03773/images/cover.png)