大语言模型 (LLM) 在推理任务上取得了惊人的进展——解决数学问题、回答问题、编写代码——但它们的能力通常依赖于两种关键策略: 来自可验证反馈的强化学习 (RL) 和**工具使用 **(例如调用网络搜索或执行 Python 代码) 。结合这两种策略,就能构建出强大的“LLM 智能体”,能够进行交互式推理、检索事实并执行计算。
然而,目前构建这些智能体的主流方法面临一个主要瓶颈。多数方法训练一个单一、庞大的策略模型,在一个长上下文窗口中交织推理、工具调用和答案生成。随着任务复杂度上升——工具更多、推理链更长——这种一体式设置在训练中变得不稳定,并且难以泛化到新任务。
另一种思路来自智能体系统,它将工作分配给多个专门模块——如规划器、执行器和验证器——这些模块通过共享内存进行协作。这种模块化设计更具可扩展性,但通常是静态的: 模块是预训练的 LLM,由人工编写的提示词驱动,而不是通过学习获得协作策略。因此,它们无法通过经验不断适应或改进。
AGENTFLOW 由斯坦福大学的研究人员及其合作者提出,融合了两者的优势: 一个既模块化又可训练的多智能体系统。AGENTFLOW 的核心创新在于其在策略训练算法——基于流的组精炼策略优化 (Flow-GRPO) 。该算法在系统运行的过程中实时教会规划器有效进行推理和工具使用。该框架的成果令人瞩目——其 7B 参数版本在多个推理基准上超过了更大型的专用模型,甚至超越了 GPT-4o。
图 1: AGENTFLOW 在 Flow-GRPO 微调前后的性能变化 (左) 及与顶级基准模型的比较 (右) 。Flow-GRPO 使一个 7B 规模的模型能够超越更大型系统。
使用工具的 LLM 的两种范式
在深入了解 AGENTFLOW 的工作原理之前,先看看它试图统一的两种主要使用工具的 LLM 类型。
1. 单体工具集成模型
在这种设计中,一个 LLM 负责全部流程:** 思考**、决定何时调用工具以及生成最终答案。模型可能输出带 <think>
标签的思维链,后接 <tool_call>
等工具调用,所有内容在一个连续的流中完成。反馈通常在最后给出——一般是一个强化信号,指示最终答案是否正确。
这种方法在简单的单工具任务中很有效,但随着工具多样性和推理深度增加,很快变得不稳定:
- 上下文过长,导致信度分配和优化困难。
- 泛化能力弱,智能体常对特定工具、提示或数据领域过拟合。
2. 静态智能体系统
智能体系统 (如 AutoGen 或 MetaGPT) 将推理任务分配给不同的专用模块。一个模型负责规划,另一个负责执行,另一个则验证结果。模块通过共享内存在多回合推理中交互。这种结构易扩展并允许针对性专业化——但多数系统是免训练的,依赖固定的提示词和人工规则,无法动态适应。
图 3: 单体工具集成 LLM (左) 在单一流中交替推理和工具调用。静态智能体系统 (右) 能分解任务,但缺乏可学习的协作机制。
AGENTFLOW 的设计旨在打破这一局限——同时实现模块化与可学习性。
AgentFlow 内部: 一个可训练的模块化系统
AGENTFLOW 由四个相互交互的模块构成,每个模块在迭代的推理循环中扮演独特角色。
图 2: AGENTFLOW 架构。每个推理回合包含规划、执行、验证与内存更新。规划器模块通过在策略强化学习进行训练。
行动规划器 (𝒫) :
核心决策模块,也是唯一经过训练的子模块。每回合 \(t\),读取查询 \(q\)、可用工具 \(K\)、当前内存 \(M^t\),并生成行动 \(a^t\): 包括子目标与工具选择。工具执行器 (ℰ) :
使用对应工具执行已选行动,返回执行结果 \(e^t\)。执行验证器 (𝒱) :
判断当前信息是否足够,或推理是否需要继续。发出二值信号 \(v^t\),决定循环是否终止。解决方案生成器 (𝒢) :
当验证器发出停止信号 (\(v^t = 1\)) 时,利用累积内存 \(M^T\) 生成最终答案 \(o\)。
共享内存 \(M\) 作为结构化推理记录,明确、确定且透明。迭代循环持续,直到任务完成或达到最大回合阈值。
在流中学习: Flow-GRPO
训练规划器做出正确决策并非易事: 早期错误会级联至后续步骤,而反馈通常只在最后提供。这就是长时程信度分配问题。
AGENTFLOW 通过基于流的组精炼策略优化 (Flow-GRPO) 解决这一挑战——这是一种强化学习方法,在多回合系统的实时循环中直接优化规划器。
图 4: Flow-GRPO 优化流程。算法使用完整的多回合轨迹,并将可验证的轨迹级奖励广播至每一步。
Flow-GRPO 的核心思想
最终结果奖励广播:
\[ r = R(a^t) = \bar{R}(o, q, y^*), \quad \forall t = 1, \dots, T. \]
当生成完整轨迹后,单一可验证奖励 \(r \in \{0,1\}\) (例如答案正确与否) 分配到该轨迹的每一回合:将多回合优化转化为一系列独立的单回合更新,同时与整体结果保持一致。
在策略学习:
规划器使用来自真实系统的实时轨迹更新参数,确保与多回合交互的动态保持一致。组归一化优势:
\[ A_i^t = \frac{\bar{R}(o_i) - \text{mean}(\{\bar{R}(o_k)\})}{\text{std}(\{\bar{R}(o_k)\})}. \]
在一组并行推演中对奖励进行归一化,强化学习信号并降低方差:通过 PPO 与 KL 正则化实现稳定优化:
\[ \mathcal{J}_{\mathrm{Flow-GRPO}} = \mathbb{E}\left[\min\{\rho A, \mathrm{clip}(\rho,1-\epsilon,1+\epsilon)A\}\right] - \beta D_{\mathrm{KL}}(\pi_\theta || \pi_{\mathrm{ref}}). \]
Flow-GRPO 融合词元级重要性比率、裁剪与 KL 惩罚,保持训练稳定:
该框架将稳健的信度分配、结果驱动的奖励传播与稳定性相统一,使规划器能在多回合推理的流中直接学习长时程推理策略。
实验: 检验 AgentFlow 的性能
作者在十个基准上评估了 AGENTFLOW,这些基准涵盖四个推理领域:
- 知识密集型搜索: Bamboogle、2Wiki、HotpotQA、Musique
- 智能体任务: GAIA benchmark
- 数学: AIME24、AMC23、GameOf24
- 科学: GPQA、MedQA
所有模块均采用 Qwen2.5-7B-Instruct,仅规划器通过 Flow-GRPO 训练。
对比结果
表 1: 在搜索密集与智能体任务中的准确率比较。Flow-GRPO 显著提升了 AGENTFLOW 在所有基准上的表现。
表 2: 数学与科学任务上的表现比较。AGENTFLOW 持续优于专用模型,甚至超越 GPT-4o。
主要发现:
- 平均准确率提升:** +14.9% **(搜索) | **+14.0% **(智能体) | **+14.5% **(数学) | **+4.1% **(科学)
- 仅凭 7B 骨干模型即可超越 GPT-4o (约 200B 参数) 。
Flow-GRPO 训练后,规划器学到了什么
1. 更智能的工具选择
经过微调的规划器会根据任务领域调整工具策略。例如,在一般知识任务 (2Wiki) 中 Google 搜索使用频率上升;在专业领域 (MedQA) 中,智能体更倾向于调用维基百科与 Web 搜索。
图 5: Flow-GRPO 微调后的工具选择优化。规划器主动学习符合不同领域的工具使用策略。
2. 执行更可靠
Flow-GRPO 同时提升了工具使用的稳定性。所有基准中,工具调用错误率随训练稳定下降。
图 6: 工具调用错误随训练减少,表明可靠性与参数格式化能力提升。
3. 自主探索新解法
定性分析表明,系统能通过实时经验发现新的解题路径。某个案例中,未调优智能体陷入重复失败循环;完成 Flow-GRPO 训练后,规划器成功探索出全新正确路径。
图 7: 训练后的智能体 (右) 能纠正早期错误,探索新的推理策略。
为什么“流中训练”至关重要
消融研究比较了三种规划器训练方法:
- **冻结规划器 **(无训练)
- 离线监督微调 (SFT)
- 在策略 Flow-GRPO
表 3: 仅 Flow-GRPO 可持续提升性能。离线 SFT 因监督信号错位导致性能退化。
结果表明,仅将规划器替换为 GPT-4 仅带来轻微提升,而 SFT 导致性能断崖式下跌。静态模仿无法捕捉实时系统动态。相比之下,Flow-GRPO 实现稳健的结果驱动学习,平均准确率提升超过 17%。
训练效率与扩展性
Flow-GRPO 训练既高效又可扩展。训练奖励稳步增长,响应长度稳定,表明精确性与简洁性提升。与单体工具集成强化学习基线 (ToRL) 相比,AGENTFLOW 展现更平滑、更强劲的学习曲线。
图 8: (a) 奖励随响应稳定上升。(b) Flow-GRPO 保持持续改进,明显优于单体基线。
扩展测试表明,不论模型规模或回合预算,性能提升一致。
图 9: Flow-GRPO 微调同时改善小型 (3B) 和大型 (7B) 模型性能。
图 10: 准确率随允许回合数提升——AgentFlow 有效利用更长的推理时程。
关键要点与更广泛启示
AGENTFLOW 框架为构建智能、动态 LLM 智能体开创了新范式:
可训练的模块化智能体代表未来。
将任务分解至专用模块能实现可扩展性,使系统具备可训练性则释放了静态架构无法拥有的自适应能力。“流中优化”解决了适应性挑战。
在多回合循环中直接训练,使模块能在真实条件下协同学习与适应。长时程任务的优雅信度分配。
将单一最终奖励广播给所有步骤,使局部决策与整体正确性保持一致,是处理稀疏奖励的直观且高效方法。
通过将可学习的规划器集成至模块化系统并进行实时训练,AGENTFLOW 证明了结构与策略可以胜过规模。一个 7B 参数智能体的表现超越 GPT-4o,说明更智能的训练与协作机制可能比单纯扩大模型规模更关键。
随着更强自主的大语言模型智能体到来,像 Flow-GRPO 这样的“流中优化”方法指明了未来方向: 智能体不仅能思考与使用工具,还能从自身推理中学习,不断变得更为高效。