一只穿着探险家服装的友好卡通猴子,周围环绕着科学和技术的图标。

一只愉快的探险家猴子,被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。

想象一下,你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位,并购买博物馆展览的门票。这并不是一个简单的问答任务,而是一个复杂的多步骤过程,需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。

若要让 AI 达到这种实用水平,它需要从一个纯语言模型进化为一个有能力的*智能体 *(agent) ——能使用工具采取行动并与数字世界互动的 AI。训练这类智能体的关键是数据。但并不是任何数据都行,它们需要的是**智能体数据 **(agentic data) ——即成功与这些工具交互的详细日志 (称为轨迹) 。问题在于,这类数据极为稀缺且难以获取。

这种稀缺性长期以来都是开发真正智能的智能体的一大瓶颈。如果 AI 从未见过一次成功的航班预订轨迹,它又如何学会订机票?这正是近期论文《通过环境扩展实现通用智能体智能》 (Towards General Agentic Intelligence via Environment Scaling) 要解决的挑战。研究人员提出了一个突破性的想法: 也许打造更聪明智能体的关键,不仅仅是更大的模型,而是在更丰富、更多样和更真实的环境中进行学习。

本文将深入探讨他们的方法——AgentScaler。该方法包含一个巧妙的两部分流程: 首先,自动构建海量模拟工具使用环境的系统;其次,采用两阶段学习策略,将这些模拟经验转化为现实世界能力。


智能体的困境: 经验的稀缺

训练智能体 AI 有点像“先有鸡还是先有蛋”的难题。为了学会使用工具,智能体需要看到工具使用的示例;而为了生成这些示例,你又需要一个已经会使用工具的智能体。

历史上,研究人员尝试了两种主要的变通办法:

  1. 逆向方法: 从一个已知的函数调用 (例如 book_flight(destination="LHR")) 出发,反向构造一个可能触发该调用的用户请求 (如: “帮我订一张去伦敦的机票”) 。这种方式往往显得刻意,且难以捕捉真实对话的复杂性。
  2. 正向方法: 从一个高层次用户目标开始,让智能体通过模拟交互来尝试解决目标。这更贴近现实,但存在重大障碍——构建模拟环境 (包括智能体需交互的 API、数据库和服务) 是人工、耗时且不可扩展的过程,如果每一个 API 都要手动编码,就无法训练智能体掌握成千上万种接口。

这正是 AgentScaler 论文切入的地方。作者们意识到,要打破这个瓶颈,必须将环境的创建过程自动化。


AgentScaler 流程: 微缩宇宙的构建

这篇论文的核心是一个严谨的两阶段流程,用于大规模生成智能体数据,并用它训练出高度胜任的模型:

  1. 环境构建与扩展: 自动构造多样化、完全模拟且可验证的环境。
  2. 智能体经验学习: 利用这些环境生成高质量的交互数据,并通过结构化的两阶段课程训练智能体。

第一部分: 大规模构建模拟世界

作者们的关键洞察是一个简单却极具威力的抽象:** 任何函数调用都可以视作对数据库的读或写操作。** 检查航班可用性是一个操作;预订航班则是一个操作,会改变数据库的状态 (例如,可用座位减少一张) 。

这一原则使他们得以将庞大的 API 集合系统化地转化为功能完备的模拟环境。如图 1 所示,流程包括三个步骤。

一张图表展示了自动构建环境与智能体任务的流程。它从工具文档流向工具图,再到环境领域与落地函数,最后生成智能体任务。

图 1: 自动构建流程将原始 API 文档转化为结构化、可执行的环境,用于创建智能体任务。

步骤 1: 场景收集

流程从原材料开始。研究人员收集了来自多种来源的超过 30,000 个真实 API。在清理与优化 (包括添加明确的输入/输出定义) 之后,他们得到一个构建环境的丰富工具池。

步骤 2: 工具依赖图建模

接着,需要将这些混乱的工具归纳整理。他们将工具划分为连贯的**领域 **(domain) ,每个领域包含相关 API (如 旅行规划项目管理 等) 。

为此,他们将工具视为图中的节点,当两个工具的参数足够相似以至于可能协同使用时,就在它们之间连一条边。例如,search_hotelsbook_room 工具可能都拥有 locationdate 参数,暗示它们之间存在紧密关联。相似度通过参数的向量表示计算,两个工具 \(i\) 与 \(j\) 之间存在边 \(E\) 的条件为:

\[ E = \left\{ (i,j) \mid \sin(\phi(P_{func_i}), \phi(P_{func_j})) > \tau,\ i \neq j \right\} \]

随后,他们应用 Louvain 社区发现算法在图中找出簇群;每个簇即定义为一个领域,最终得到超过 1,000 个不同领域。

步骤 3: 程序化具现

最后,对于每个领域,流程会自动完成:

  1. 生成数据库模式: 分析领域内所有的工具参数,设计特定领域的数据库结构,作为环境的状态
  2. 生成可执行代码: 为每个工具生成 Python 函数,实现对该数据库的读写,使环境可操作且可验证。

第二部分: 从模拟经验中学习

有了这个模拟环境的“宇宙”,研究人员便能通过模拟人机交互生成海量训练数据。

如图 2 所示,系统围绕高层次目标,先生成一条黄金解决路径——即从领域工具图中采样出的连贯工具调用序列——以及对应的最终“黄金”数据库状态。然后,智能体与模拟用户和环境交互,尝试实现目标,从而产出交互轨迹。

图示模拟用户发出请求,智能体在环境中调用函数,并将轨迹与黄金标准对比。

图 2: 智能体与模拟用户交互,改变模拟环境状态;通过与黄金参考比对,全程保持可验证性。

三阶段过滤漏斗

并非所有生成的轨迹都值得保留。为确保高质量经验进入训练,作者设计了三层筛选:

  1. 有效性控制: 移除格式错误的对话,以及推理死循环。
  2. 环境状态对齐: 将智能体操作后的最终数据库状态与黄金状态对比,存在不匹配则判定操作失败——丢弃该轨迹。
  3. 函数调用精确匹配: 对于只的轨迹 (无状态改变) ,要求工具调用及参数序列与黄金序一致。

有趣的是,他们会保留那些尽管工具调用返回错误,但智能体仍达成目标的轨迹,以培养模型应对工具失效的韧性。

两阶段智能体微调

筛选后的数据被用于微调基础大模型,训练损失函数为:

\[ \mathcal{L}(\theta) = -\frac{1}{\sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}]} \sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}] \cdot \log \pi_{\theta} \left( x_k \mid x_{此处,仅对属于工具调用 (\(\tau\)) 或助手回复 (\(y\)) 的 token 进行监督;人类输入与工具输出仅作上下文。

课程安排:

  • 阶段 1 —— 通用基础: 跨多个领域训练,习得广泛的工具使用能力。
  • 阶段 2 —— 领域专精: 在选定的垂直领域 (如零售、航空) 进行微调,达到专家水准。

结果: 小体量大能力

应用此流程诞生了基于 Qwen3 的 AgentScaler 模型家族 (4B、8B、30B-A3B) 。在多项智能体基准 (τ-benchτ²-Bench、ACEBench) 上的表现亮眼:

主要结果表,比较 AgentScaler 与各类闭源和开源 LLM 在多项基准上的成绩。

表 1: AgentScaler 模型在其规模类别中取得开源模型的最优表现——常常超越更大体量的基准模型。

亮点包括:

  • AgentScaler-30B-A3B 可与万亿参数级开源模型媲美,并与 GPT-o3、Gemini-2.5-pro 等闭源顶尖模型展开竞争。
  • AgentScaler-4B 表现与甚至超过不少 30B 参数模型,显示高质量、多样化环境训练带来的效率红利。

性能拆解

消融实验 (图 3) 表明: 阶段 1 相较基础模型带来显著提升,阶段 2 则进一步加分,尤其是在复杂智能体任务中。

条形图展示基础、阶段 1 与阶段 2 在 ACEBench 上的表现。

图 3: 通用型阶段 1 与专用型阶段 2 的训练均有助于性能提升,验证了两阶段课程的有效性。

AgentScaler 在泛化上同样表现出色。在 ACEBench-zh (中文) 上,未经过针对该语言的专项训练,依然优于基础模型——其中 4B 小模型总分提升 +21.7 分。

表格对比 AgentScaler 与基础模型在 ACEBench-zh 上的成绩。

表 2: 在分布外任务中,AgentScaler 依旧保持强劲表现与大幅优势,即便是小模型亦然。


前路挑战: 智能体智能的难题

论文同样指出了仍然存在的挑战。

稳定性挑战:
pass^k 指标衡量模型在多次独立试验中重复成功的频率。如图 4 所示,随着 \(k\) 增大,分数下降——即便 AgentScaler 比基础模型稳定,依然存在下滑。

四张折线图对比 AgentScaler 与基线在各领域的 pass^k。

图 4: 尽管较基线有所提升,但在重复试验稳定性上仍是待解问题。

长程任务挑战:
需要大量工具调用的任务依然困难。图 5 清晰展示: 所需步骤越多,准确率越低。

散点图展示准确率随着工具调用次数增加而降低。

图 5: 较长的调用序列与准确率下降相关,显露长程推理的局限。


结论: 迎接“经验”新时代

AgentScaler 为智能体 AI 数据瓶颈提供了极具吸引力的解法。通过自动化、可验证的模拟工具组扩展**环境 **(而不仅仅是模型) ,再配合丰富、分阶段的训练方案,使得即便规模不大的模型也能具备强大能力。

将工具抽象为数据库操作、以编程方式构建领域,以及通用到专精的课程设计,都是重要进展。未来可探索在这些稳定的模拟世界中引入强化学习、支持多模态,并推动向现实世界落地。

我们或许正在迈入 AI 的经验时代: 在这一时代,能力不仅由算力与参数量驱动,更由智能体所接受训练的交互广度、深度与逼真度决定。有了 AgentScaler,我们首次具备了以前所未有的规模来构建这种经验的能力。