AgentScaler：如何通过扩展环境（而非仅仅模型）来解锁高级 AI 智能体

一只穿着探险家服装的友好卡通猴子，周围环绕着科学和技术的图标。

一只愉快的探险家猴子，被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。

想象一下，你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位，并购买博物馆展览的门票。这并不是一个简单的问答任务，而是一个复杂的多步骤过程，需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。

若要让 AI 达到这种实用水平，它需要从一个纯语言模型进化为一个有能力的*智能体 *(agent) ——能使用工具采取行动并与数字世界互动的 AI。训练这类智能体的关键是数据。但并不是任何数据都行，它们需要的是**智能体数据 **(agentic data) ——即成功与这些工具交互的详细日志 (称为轨迹) 。问题在于，这类数据极为稀缺且难以获取。

这种稀缺性长期以来都是开发真正智能的智能体的一大瓶颈。如果 AI 从未见过一次成功的航班预订轨迹，它又如何学会订机票？这正是近期论文《通过环境扩展实现通用智能体智能》 (Towards General Agentic Intelligence via Environment Scaling) 要解决的挑战。研究人员提出了一个突破性的想法: 也许打造更聪明智能体的关键，不仅仅是更大的模型，而是在更丰富、更多样和更真实的环境中进行学习。

本文将深入探讨他们的方法——AgentScaler。该方法包含一个巧妙的两部分流程: 首先，自动构建海量模拟工具使用环境的系统；其次，采用两阶段学习策略，将这些模拟经验转化为现实世界能力。

智能体的困境: 经验的稀缺

训练智能体 AI 有点像“先有鸡还是先有蛋”的难题。为了学会使用工具，智能体需要看到工具使用的示例；而为了生成这些示例，你又需要一个已经会使用工具的智能体。

历史上，研究人员尝试了两种主要的变通办法:

逆向方法: 从一个已知的函数调用 (例如 book_flight(destination="LHR")) 出发，反向构造一个可能触发该调用的用户请求 (如: “帮我订一张去伦敦的机票”) 。这种方式往往显得刻意，且难以捕捉真实对话的复杂性。
正向方法: 从一个高层次用户目标开始，让智能体通过模拟交互来尝试解决目标。这更贴近现实，但存在重大障碍——构建模拟环境 (包括智能体需交互的 API、数据库和服务) 是人工、耗时且不可扩展的过程，如果每一个 API 都要手动编码，就无法训练智能体掌握成千上万种接口。

这正是 AgentScaler 论文切入的地方。作者们意识到，要打破这个瓶颈，必须将环境的创建过程自动化。

AgentScaler 流程: 微缩宇宙的构建

这篇论文的核心是一个严谨的两阶段流程，用于大规模生成智能体数据，并用它训练出高度胜任的模型:

环境构建与扩展: 自动构造多样化、完全模拟且可验证的环境。
智能体经验学习: 利用这些环境生成高质量的交互数据，并通过结构化的两阶段课程训练智能体。

第一部分: 大规模构建模拟世界

作者们的关键洞察是一个简单却极具威力的抽象:** 任何函数调用都可以视作对数据库的读或写操作。** 检查航班可用性是一个读操作；预订航班则是一个写操作，会改变数据库的状态 (例如，可用座位减少一张) 。

这一原则使他们得以将庞大的 API 集合系统化地转化为功能完备的模拟环境。如图 1 所示，流程包括三个步骤。

一张图表展示了自动构建环境与智能体任务的流程。它从工具文档流向工具图，再到环境领域与落地函数，最后生成智能体任务。

图 1: 自动构建流程将原始 API 文档转化为结构化、可执行的环境，用于创建智能体任务。

步骤 1: 场景收集

流程从原材料开始。研究人员收集了来自多种来源的超过 30,000 个真实 API。在清理与优化 (包括添加明确的输入/输出定义) 之后，他们得到一个构建环境的丰富工具池。

步骤 2: 工具依赖图建模

接着，需要将这些混乱的工具归纳整理。他们将工具划分为连贯的**领域 **(domain) ，每个领域包含相关 API (如 旅行规划、项目管理 等) 。

为此，他们将工具视为图中的节点，当两个工具的参数足够相似以至于可能协同使用时，就在它们之间连一条边。例如，search_hotels 和 book_room 工具可能都拥有 location 和 date 参数，暗示它们之间存在紧密关联。相似度通过参数的向量表示计算，两个工具 \(i\) 与 \(j\) 之间存在边 \(E\) 的条件为:

\[ E = \left\{ (i,j) \mid \sin(\phi(P_{func_i}), \phi(P_{func_j})) > \tau,\ i \neq j \right\} \]

随后，他们应用 Louvain 社区发现算法在图中找出簇群；每个簇即定义为一个领域，最终得到超过 1,000 个不同领域。

步骤 3: 程序化具现

最后，对于每个领域，流程会自动完成:

生成数据库模式: 分析领域内所有的工具参数，设计特定领域的数据库结构，作为环境的状态。
生成可执行代码: 为每个工具生成 Python 函数，实现对该数据库的读写，使环境可操作且可验证。

第二部分: 从模拟经验中学习

有了这个模拟环境的“宇宙”，研究人员便能通过模拟人机交互生成海量训练数据。

如图 2 所示，系统围绕高层次目标，先生成一条黄金解决路径——即从领域工具图中采样出的连贯工具调用序列——以及对应的最终“黄金”数据库状态。然后，智能体与模拟用户和环境交互，尝试实现目标，从而产出交互轨迹。

图示模拟用户发出请求，智能体在环境中调用函数，并将轨迹与黄金标准对比。

图 2: 智能体与模拟用户交互，改变模拟环境状态；通过与黄金参考比对，全程保持可验证性。

三阶段过滤漏斗

并非所有生成的轨迹都值得保留。为确保高质量经验进入训练，作者设计了三层筛选:

有效性控制: 移除格式错误的对话，以及推理死循环。
环境状态对齐: 将智能体操作后的最终数据库状态与黄金状态对比，存在不匹配则判定写操作失败——丢弃该轨迹。
函数调用精确匹配: 对于只读的轨迹 (无状态改变) ，要求工具调用及参数序列与黄金序一致。

有趣的是，他们会保留那些尽管工具调用返回错误，但智能体仍达成目标的轨迹，以培养模型应对工具失效的韧性。

两阶段智能体微调

筛选后的数据被用于微调基础大模型，训练损失函数为:

\[ \mathcal{L}(\theta) = -\frac{1}{\sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}]} \sum_{k=1}^{|\mathcal{H}|} \mathbb{I}[x_k \in \mathcal{T}] \cdot \log \pi_{\theta} \left( x_k \mid x_{此处，仅对属于工具调用 (\(\tau\)) 或助手回复 (\(y\)) 的 token 进行监督；人类输入与工具输出仅作上下文。

课程安排:

阶段 1 —— 通用基础: 跨多个领域训练，习得广泛的工具使用能力。
阶段 2 —— 领域专精: 在选定的垂直领域 (如零售、航空) 进行微调，达到专家水准。

结果: 小体量大能力

应用此流程诞生了基于 Qwen3 的 AgentScaler 模型家族 (4B、8B、30B-A3B) 。在多项智能体基准 (τ-bench、τ²-Bench、ACEBench) 上的表现亮眼:

主要结果表，比较 AgentScaler 与各类闭源和开源 LLM 在多项基准上的成绩。

表 1: AgentScaler 模型在其规模类别中取得开源模型的最优表现——常常超越更大体量的基准模型。

亮点包括:

AgentScaler-30B-A3B 可与万亿参数级开源模型媲美，并与 GPT-o3、Gemini-2.5-pro 等闭源顶尖模型展开竞争。
AgentScaler-4B 表现与甚至超过不少 30B 参数模型，显示高质量、多样化环境训练带来的效率红利。

性能拆解

消融实验 (图 3) 表明: 阶段 1 相较基础模型带来显著提升，阶段 2 则进一步加分，尤其是在复杂智能体任务中。

条形图展示基础、阶段 1 与阶段 2 在 ACEBench 上的表现。

图 3: 通用型阶段 1 与专用型阶段 2 的训练均有助于性能提升，验证了两阶段课程的有效性。

AgentScaler 在泛化上同样表现出色。在 ACEBench-zh (中文) 上，未经过针对该语言的专项训练，依然优于基础模型——其中 4B 小模型总分提升 +21.7 分。

表格对比 AgentScaler 与基础模型在 ACEBench-zh 上的成绩。

表 2: 在分布外任务中，AgentScaler 依旧保持强劲表现与大幅优势，即便是小模型亦然。

前路挑战: 智能体智能的难题

论文同样指出了仍然存在的挑战。

稳定性挑战:
pass^k 指标衡量模型在多次独立试验中重复成功的频率。如图 4 所示，随着 \(k\) 增大，分数下降——即便 AgentScaler 比基础模型稳定，依然存在下滑。

四张折线图对比 AgentScaler 与基线在各领域的 pass^k。

图 4: 尽管较基线有所提升，但在重复试验稳定性上仍是待解问题。

长程任务挑战:
需要大量工具调用的任务依然困难。图 5 清晰展示: 所需步骤越多，准确率越低。

散点图展示准确率随着工具调用次数增加而降低。

图 5: 较长的调用序列与准确率下降相关，显露长程推理的局限。

结论: 迎接“经验”新时代

AgentScaler 为智能体 AI 数据瓶颈提供了极具吸引力的解法。通过自动化、可验证的模拟工具组扩展**环境 **(而不仅仅是模型) ，再配合丰富、分阶段的训练方案，使得即便规模不大的模型也能具备强大能力。

将工具抽象为数据库操作、以编程方式构建领域，以及通用到专精的课程设计，都是重要进展。未来可探索在这些稳定的模拟世界中引入强化学习、支持多模态，并推动向现实世界落地。

我们或许正在迈入 AI 的经验时代: 在这一时代，能力不仅由算力与参数量驱动，更由智能体所接受训练的交互广度、深度与逼真度决定。有了 AgentScaler，我们首次具备了以前所未有的规模来构建这种经验的能力。

智能体的困境: 经验的稀缺#

AgentScaler 流程: 微缩宇宙的构建#

第一部分: 大规模构建模拟世界#

步骤 1: 场景收集#

步骤 2: 工具依赖图建模#

步骤 3: 程序化具现#

第二部分: 从模拟经验中学习#

三阶段过滤漏斗#

两阶段智能体微调#

结果: 小体量大能力#

性能拆解#

前路挑战: 智能体智能的难题#

结论: 迎接“经验”新时代#