一只愉快的探险家猴子,被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。
想象一下,你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位,并购买博物馆展览的门票。这并不是一个简单的问答任务,而是一个复杂的多步骤过程,需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。
若要让 AI 达到这种实用水平,它需要从一个纯语言模型进化为一个有能力的*智能体 *(agent) ——能使用工具采取行动并与数字世界互动的 AI。训练这类智能体的关键是数据。但并不是任何数据都行,它们需要的是**智能体数据 **(agentic data) ——即成功与这些工具交互的详细日志 (称为轨迹) 。问题在于,这类数据极为稀缺且难以获取。
这种稀缺性长期以来都是开发真正智能的智能体的一大瓶颈。如果 AI 从未见过一次成功的航班预订轨迹,它又如何学会订机票?这正是近期论文《通过环境扩展实现通用智能体智能》 (Towards General Agentic Intelligence via Environment Scaling) 要解决的挑战。研究人员提出了一个突破性的想法: 也许打造更聪明智能体的关键,不仅仅是更大的模型,而是在更丰富、更多样和更真实的环境中进行学习。
本文将深入探讨他们的方法——AgentScaler。该方法包含一个巧妙的两部分流程: 首先,自动构建海量模拟工具使用环境的系统;其次,采用两阶段学习策略,将这些模拟经验转化为现实世界能力。
智能体的困境: 经验的稀缺
训练智能体 AI 有点像“先有鸡还是先有蛋”的难题。为了学会使用工具,智能体需要看到工具使用的示例;而为了生成这些示例,你又需要一个已经会使用工具的智能体。
历史上,研究人员尝试了两种主要的变通办法:
- 逆向方法: 从一个已知的函数调用 (例如
book_flight(destination="LHR")
) 出发,反向构造一个可能触发该调用的用户请求 (如: “帮我订一张去伦敦的机票”) 。这种方式往往显得刻意,且难以捕捉真实对话的复杂性。 - 正向方法: 从一个高层次用户目标开始,让智能体通过模拟交互来尝试解决目标。这更贴近现实,但存在重大障碍——构建模拟环境 (包括智能体需交互的 API、数据库和服务) 是人工、耗时且不可扩展的过程,如果每一个 API 都要手动编码,就无法训练智能体掌握成千上万种接口。
这正是 AgentScaler 论文切入的地方。作者们意识到,要打破这个瓶颈,必须将环境的创建过程自动化。
AgentScaler 流程: 微缩宇宙的构建
这篇论文的核心是一个严谨的两阶段流程,用于大规模生成智能体数据,并用它训练出高度胜任的模型:
- 环境构建与扩展: 自动构造多样化、完全模拟且可验证的环境。
- 智能体经验学习: 利用这些环境生成高质量的交互数据,并通过结构化的两阶段课程训练智能体。
第一部分: 大规模构建模拟世界
作者们的关键洞察是一个简单却极具威力的抽象:** 任何函数调用都可以视作对数据库的读或写操作。** 检查航班可用性是一个读操作;预订航班则是一个写操作,会改变数据库的状态 (例如,可用座位减少一张) 。
这一原则使他们得以将庞大的 API 集合系统化地转化为功能完备的模拟环境。如图 1 所示,流程包括三个步骤。
图 1: 自动构建流程将原始 API 文档转化为结构化、可执行的环境,用于创建智能体任务。
步骤 1: 场景收集
流程从原材料开始。研究人员收集了来自多种来源的超过 30,000 个真实 API。在清理与优化 (包括添加明确的输入/输出定义) 之后,他们得到一个构建环境的丰富工具池。
步骤 2: 工具依赖图建模
接着,需要将这些混乱的工具归纳整理。他们将工具划分为连贯的**领域 **(domain) ,每个领域包含相关 API (如 旅行规划、项目管理 等) 。
为此,他们将工具视为图中的节点,当两个工具的参数足够相似以至于可能协同使用时,就在它们之间连一条边。例如,search_hotels
和 book_room
工具可能都拥有 location
和 date
参数,暗示它们之间存在紧密关联。相似度通过参数的向量表示计算,两个工具 \(i\) 与 \(j\) 之间存在边 \(E\) 的条件为:
随后,他们应用 Louvain 社区发现算法在图中找出簇群;每个簇即定义为一个领域,最终得到超过 1,000 个不同领域。
步骤 3: 程序化具现
最后,对于每个领域,流程会自动完成:
- 生成数据库模式: 分析领域内所有的工具参数,设计特定领域的数据库结构,作为环境的状态。
- 生成可执行代码: 为每个工具生成 Python 函数,实现对该数据库的读写,使环境可操作且可验证。
第二部分: 从模拟经验中学习
有了这个模拟环境的“宇宙”,研究人员便能通过模拟人机交互生成海量训练数据。
如图 2 所示,系统围绕高层次目标,先生成一条黄金解决路径——即从领域工具图中采样出的连贯工具调用序列——以及对应的最终“黄金”数据库状态。然后,智能体与模拟用户和环境交互,尝试实现目标,从而产出交互轨迹。
图 2: 智能体与模拟用户交互,改变模拟环境状态;通过与黄金参考比对,全程保持可验证性。
三阶段过滤漏斗
并非所有生成的轨迹都值得保留。为确保高质量经验进入训练,作者设计了三层筛选:
- 有效性控制: 移除格式错误的对话,以及推理死循环。
- 环境状态对齐: 将智能体操作后的最终数据库状态与黄金状态对比,存在不匹配则判定
写
操作失败——丢弃该轨迹。 - 函数调用精确匹配: 对于只读的轨迹 (无状态改变) ,要求工具调用及参数序列与黄金序一致。
有趣的是,他们会保留那些尽管工具调用返回错误,但智能体仍达成目标的轨迹,以培养模型应对工具失效的韧性。
两阶段智能体微调
筛选后的数据被用于微调基础大模型,训练损失函数为:
\[ \mathcal{L}(\theta) = -\frac{1}{\sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}]} \sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}] \cdot \log \pi_{\theta} \left( x_k \mid x_{课程安排:
- 阶段 1 —— 通用基础: 跨多个领域训练,习得广泛的工具使用能力。
- 阶段 2 —— 领域专精: 在选定的垂直领域 (如零售、航空) 进行微调,达到专家水准。
结果: 小体量大能力
应用此流程诞生了基于 Qwen3 的 AgentScaler 模型家族 (4B、8B、30B-A3B) 。在多项智能体基准 (τ-bench
、τ²-Bench
、ACEBench) 上的表现亮眼:
表 1: AgentScaler 模型在其规模类别中取得开源模型的最优表现——常常超越更大体量的基准模型。
亮点包括:
- AgentScaler-30B-A3B 可与万亿参数级开源模型媲美,并与 GPT-o3、Gemini-2.5-pro 等闭源顶尖模型展开竞争。
- AgentScaler-4B 表现与甚至超过不少 30B 参数模型,显示高质量、多样化环境训练带来的效率红利。
性能拆解
消融实验 (图 3) 表明: 阶段 1 相较基础模型带来显著提升,阶段 2 则进一步加分,尤其是在复杂智能体任务中。
图 3: 通用型阶段 1 与专用型阶段 2 的训练均有助于性能提升,验证了两阶段课程的有效性。
AgentScaler 在泛化上同样表现出色。在 ACEBench-zh (中文) 上,未经过针对该语言的专项训练,依然优于基础模型——其中 4B 小模型总分提升 +21.7 分。
表 2: 在分布外任务中,AgentScaler 依旧保持强劲表现与大幅优势,即便是小模型亦然。
前路挑战: 智能体智能的难题
论文同样指出了仍然存在的挑战。
稳定性挑战:pass^k
指标衡量模型在多次独立试验中重复成功的频率。如图 4 所示,随着 \(k\) 增大,分数下降——即便 AgentScaler 比基础模型稳定,依然存在下滑。
图 4: 尽管较基线有所提升,但在重复试验稳定性上仍是待解问题。
长程任务挑战:
需要大量工具调用的任务依然困难。图 5 清晰展示: 所需步骤越多,准确率越低。
图 5: 较长的调用序列与准确率下降相关,显露长程推理的局限。
结论: 迎接“经验”新时代
AgentScaler 为智能体 AI 数据瓶颈提供了极具吸引力的解法。通过自动化、可验证的模拟工具组扩展**环境 **(而不仅仅是模型) ,再配合丰富、分阶段的训练方案,使得即便规模不大的模型也能具备强大能力。
将工具抽象为数据库操作、以编程方式构建领域,以及通用到专精的课程设计,都是重要进展。未来可探索在这些稳定的模拟世界中引入强化学习、支持多模态,并推动向现实世界落地。
我们或许正在迈入 AI 的经验时代: 在这一时代,能力不仅由算力与参数量驱动,更由智能体所接受训练的交互广度、深度与逼真度决定。有了 AgentScaler,我们首次具备了以前所未有的规模来构建这种经验的能力。