超越模仿: 早期经验如何让智能体从自身错误中学习
人工智能长期以来的梦想是创造一个能通过在世界中行动来学习的智能体——它可以不断试验、失败并改进,而无需人类持续指导。基于大语言模型 (LLMs) 的语言智能体是向这个梦想迈出的重要一步: 它们可以浏览网站、调用 API、串联工具,甚至协助科学工作流。然而,它们的训练仍然被困在两个极端之间。
一方面是模仿学习: 收集专家演示并教智能体去模仿。实现简单,不依赖奖励,但脆弱且扩展成本高昂。另一方面是强化学习 (RL) : 让智能体通过试错探索,以奖励为目标进行优化。当奖励可用且定义清晰时非常强大,但现实中的许多语言智能体环境要么缺乏可验证的奖励信号,要么需要极长且不稳定的交互序列。
《通过早期经验学习的智能体》一文提出了一种实用的中间路径: 早期经验。其核心思想是让智能体在训练过程中提出动作,在环境中执行这些动作,并利用由此产生的未来状态——而非奖励信号——作为监督。未来状态具有扎实的语义、丰富的信息并易于扩展: 它们揭示了非专家动作的后果,并且可以无需手工设计奖励函数而自动收集。
本文将介绍这一核心思想、论文提出的两种具体方法 (隐式世界建模与自我反思) ,以及证据显示这一看似简单的思想在众多环境中带来了显著且一致的性能提升。
图 1: 语言智能体的训练范式。左: 人类数据时代 (模仿学习) 依赖专家示范——无需奖励但难以扩展。右: 经验时代 (强化学习) 通过奖励优化,但需依赖可验证的奖励信号。中: 早期经验 (本研究) 让智能体提出动作并收集由此产生的未来状态,作为可扩展、无需奖励的监督。
问题概述
我们通常将智能体的问题形式化为一个 MDP:
\[ \mathcal{M}=(\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{R},\gamma,\rho_0), \]其中,状态 \(s\in\mathcal{S}\) 表示智能体的观察 (网页、工具输出、文本场景描述) ,动作 \(a\in\mathcal{A}\) 表示候选决策 (点击、调用工具、输入文本) ,而 \(T(s,a)\) 定义状态转移的动态。策略 \(\pi_\theta(a\mid s)\) 将状态映射到动作概率。
当存在可靠的奖励 \(R(s,a)\) 时,强化学习可以优化长期表现。但许多现实世界中的语言智能体环境要么:
- 不产生可验证的即时奖励 (例如,网站展示了页面,却没有说明表单提交是否正确) ,或
- 需要较长且延迟的交互才能显现成功与否 (例如多步工具使用) ,这使强化学习不稳定且代价高昂。
模仿学习通过在专家状态–动作对数据集上训练来绕开奖励:
\[ \mathcal{D}_{\text{expert}}=\{(s_i,a_i)\}_{i=1}^N, \]最小化
\[ \mathcal{L}_{\mathrm{IL}}(\theta) = -\sum_{i=1}^N \log \pi_\theta(a_i\mid s_i). \]但这种方式忽略了智能体自身行为的后果;智能体从未观察过偏离专家示范后会发生什么,因此在测试阶段分布偏移会被不断放大。
早期经验的核心问题是: 如果没有奖励,我们能否让智能体在训练中进行交互,并将其观察结果转化为监督信号?
早期经验: 核心思想
从专家数据集 \(\mathcal{D}_{\text{expert}}\) 开始。对于每个专家状态 \(s_i\),让智能体从当前策略中采样出 \(K\) 个备选动作:
\[ \mathcal{A}_i=\{a_i^1,\dots,a_i^K\}. \]在环境中执行这些备选动作以获得相应的下一个状态 \(s_i^j \sim T(s_i,a_i^j)\)。收集序列展开三元组:
\[ \mathcal{D}_{\text{rollout}}=\{(s_i,a_i^j,s_i^j)\mid i\in[1..N],\, j\in[1..K]\}. \]这些三元组编码了有依据的反馈: 它们展示了环境如何响应非专家动作 (错误提示、不同页面、损坏的工具输出等) 。论文探讨了两种将这些展开转换为训练信号的实用方案。
图 2: 基于专家轨迹的两条训练路径。左: 隐式世界建模通过训练策略从 (状态,动作) 预测对应结果状态来增强策略。右: 自我反思利用备选展开生成自然语言解释,对比专家与备选动作;这些解释成为模型的训练目标。
方法 A——隐式世界建模 (IWM)
核心思想: 训练基于 LLM 的同一策略,使它在给定 (状态,动作) 时,用文本形式预测下一个状态。由于状态本身即为类自然语言形式 (网页 DOM 摘要、工具输出、场景文本描述) ,预测下一状态就简化为一个标准的下一词元预测任务。
对于展开三元组 \((s,a,s')\in\mathcal{D}_{\text{rollout}}\),世界建模目标为:
\[ \mathcal{L}_{\mathrm{IWM}} = -\sum_{(s,a,s')\in\mathcal{D}_{\text{rollout}}}\log p_\theta(s'\mid s,a). \]这样做的好处:
- 策略内化了粗粒度的环境动态: 哪些动作会产生错误提示,哪些会改变页面结构,哪些有助于任务推进;
- 训练过程轻量——无需额外模拟器或规划器——因为模型本身在参数中学习预测后果;
- 在实践中,作者采用两阶段流程: 首先基于 IWM 目标训练以内化动态,然后再基于模仿学习损失 \(\mathcal{L}_{\mathrm{IL}}\) 微调,使策略保持与专家行为的一致性。
当状态转移具有可预测和结构化特征 (如事务性网页流程或具身模拟环境) ,IWM 效果尤为显著。
方法 B——自我反思 (SR)
核心思想: 利用专家执行与备选执行结果的差异生成可读性的对比性解释,并训练智能体同时预测专家动作与对应解释。
流程如下:
- 在 \(s_i\) 执行专家动作 \(a_i\) 获得 \(s_{i+1}\);
- 执行备选动作 \(a_i^j\) 获得 \(s_i^j\);
- 使用语言模型 (通常与智能体属于同一 LLM 家族) 生成一段思维链式的对比性解释 \(c_i^j\),回答: “在观察到不同结果后,为什么专家动作 \(a_i\) 比 \(a_i^j\) 更好?”;
- 收集三元组 \((s_i,a_i^j,c_i^j)\),并训练模型在条件 \(s_i\) 下生成连接目标 \(c_i^j \circ a_i\)。
训练损失为:
\[ \mathcal{L}_{\mathrm{SR}} = -\sum_{(s_i,a_i^j,c_i^j)\in\mathcal{D}_{\mathrm{refl}}}\log p_\theta(c_i^j, a_i\mid s_i). \]效果优势:
- 模型学习到选择偏好的“原因”,而不仅仅是“行动”;
- 自然语言解释传递了可迁移的原则 (如“遵守预算”、“避免格式错误查询”) ;
- 解释基于真实执行结果 \(s_{i+1}\) 与 \(s_i^j\),避免了无实际依据的合成解释可能导致的幻觉问题。
作者将 SR 与专家数据结合使用: 当专家数据中有思维链目标时,SR 样本被混合到微调数据中共同训练。
效果如何?
论文在八个多样化的环境中进行大规模实证研究:
- 具身与科学模拟器: ALFWorld、ScienceWorld
- 长时程规划: TravelPlanner
- 多轮工具使用: BFCLv3、Tau-Bench
- 搜索与检索: SearchQA
- 网页导航: WebShop、WebArena-Lite
研究评估了多个模型系列与尺度 (Llama 与 Qwen 的不同变体,规模最高达 70B 的 Llama) ,并比较三种基线:
- 指令微调的提示模型;
- 模仿学习 (在 \(\mathcal{D}_{\text{expert}}\) 上的监督微调) ;
- 两种早期经验方法: 隐式世界建模 (IWM) 与自我反思 (SR) 。
表 1 (环境概览) 与表 2 (主要结果) 在论文中有总结,整体趋势一致。
表 1: 涵盖网页导航、工具使用、具身任务、规划与检索的基准测试。
主要发现
- 在所有环境和模型尺寸上,IWM 与 SR 的表现均显著优于模仿学习。总体平均成功率提升约 +9.6%。
- IWM 在动态稳定且可预测的环境中表现突出 (如 WebShop、ALFWorld) ,因为状态预测信号较强。
- SR 在需要多步推理或约束满足的任务中提升更大 (如 TravelPlanner、ScienceWorld) ,能教会模型解决问题的原则。
- 早期经验提升了域外鲁棒性。在多个 OOD (域外) 数据划分中 (ALFWorld、SearchQA) ,早期经验的增益甚至超过域内增益,显示更强的泛化能力。
- 早期经验也为强化学习提供更优的初始点。当后续应用奖励驱动的微调 (论文中为 GRPO) 时,以 IWM/SR 初始化的模型比仅基于模仿学习的模型达到更高最终性能。
表 2: 八个基准测试的结果摘要 (依据任务使用成功率或 F1) 。IWM / SR 均持续提升性能。
表 3: 域外评估——早期经验方法在 OOD 性能上持续弥补了模仿学习的差距。
图 3: 强化学习 (GRPO) 的起始点比较。使用 IWM 或 SR 预训练的模型在 RL 调优后表现更优。早期经验提供了更强的奖励优化初始化。
深度分析
多项消融实验和分析揭示了早期经验的运行机制与适用情形。
- 数据效率: 在 WebShop 和 ALFWorld 上,仅使用一部分专家轨迹进行早期经验训练的模型就能超过使用全部数据训练的模仿学习模型。早期经验有效提升了专家数据的利用率。
- 分支因子 \(K\): IWM 随 \(K\) 增大稳定受益 (提供更多可学习的动态) ;SR 在中小 \(K\) 时表现最佳,但若太多备选动作也成功,则对比度降低,难以提取清晰的“原因”信号。
- 模型扩展性: 性能增益在不同模型规模下均存在,包括使用 LoRA 微调的大模型 (70B) 。早期经验与模型容量互补,模型越大仍能保持增益。
- 有依据 vs. 无依据的解释: 未经实际执行的无依据解释 (如 STaR 风格) 效果更差,甚至可能损害性能。核心因素是“依据真实执行结果的解释”。
图 4: (a) 成功率随专家轨迹数量变化——早期经验在各数据规模下均占优。 (b) 成功率随分支因子 \(K\) 变化——IWM 受益于较大 \(K\);SR 在中等 \(K\) 时表现最佳。
图 5: WebArena 上的模型规模性能表现。早期经验在不同模型尺寸下保持优势,证明其可与模型能力协同扩展。
在训练流程中的位置
可以将早期经验视为训练流程中的中间桥段:
- 从标准的 LLM 预训练与指令微调开始;
- 使用早期经验 (IWM 与/或 SR) 阶段进行“预热”,利用专家轨迹与智能体展开序列来内化动态与推理原则;
- 当具备可验证奖励函数时,从早期经验微调的检查点出发进行 RL 训练。
该流程实用且灵活: 早期经验无需手工奖励、能大规模生成有依据的监督信号,并能同时提升当前策略性能与后续 RL 效果。
局限与发展方向
作者指出一些当前的限制与未来机会:
- 短时程聚焦: 当前 IWM 与 SR 主要处理即时下一状态展开,未来可扩展至长时程信用分配问题 (累积长链后果的学习) 。
- 计算成本: 生成序列展开需在环境中执行智能体提议。在高代价环境中可能较贵,但多数网页和模仿环境成本可接受。
- 解释质量: SR 依靠语言模型生成清晰真实的对比性解释,质量低或误导的解释可能削弱成效。论文中采用过滤与规范化缓解此问题。
- 安全与分布: 在真实部署中,自由探索可能导致不良或不安全行为。收集早期经验时需引入安全约束与过滤机制。
未来研究方向包括结合更丰富的自监督目标、跨环境迁移学习到的动态与规则、以及部署后持续在线学习的机制,使智能体不断积累自身经验。
总结
早期经验是迈向“通过行动学习”的智能体的重要且务实的一步。通过采集智能体自身决策的结果并将其转化为预测与解释目标,这种方法:
- 提供了可扩展、无需奖励的监督;
- 让智能体理解“做什么”以及“为什么这么做”;
- 提升了域内表现与域外鲁棒性;
- 为未来奖励驱动的强化学习提供更强的初始化。
如果你希望让语言智能体更鲁棒、更具泛化能力、更能通过交互学习,那么早期经验是一个简单、坚实且经验证的理念,值得纳入训练工具箱。
论文: “Agent Learning via Early Experience” — Kai Zhang 等人 (Meta 与俄亥俄州立大学) 。