如果你最近体验过大型语言模型 (LLMs) ,你很可能已经接触过 智能体 (Agents) 的概念。我们已经超越了简单的聊天机器人时代;现在的系统不仅拥有 LLM,还能使用工具、浏览网页、编写代码,甚至与其他 LLM 对话来解决问题。
然而,构建这些多智能体系统极其困难。像 AutoGen 或 MetaGPT 这样的早期框架依赖于人类手动设计工作流 (例如,“智能体 A 与智能体 B 交谈,然后使用工具 C”) 。这种方式既僵化又耗费人力。较新的方法试图使其自动化,搜索“完美”的智能体架构。但它们都遭受着一个致命缺陷: 它们寻找的是一个 静态的、一刀切的解决方案 。
试想一下: 回答“12 \(\times\) 21 是多少?”所需的认知负荷,是否与解决一个博士级的物理问题相同?当然不同。然而,如今大多数自动化智能体系统无论面对什么问题,都会调用同样复杂且消耗大量 Token 的工作流。
在这篇文章中,我们将深入探讨一篇新论文 《Multi-agent Architecture Search via Agentic Supernet》 (基于智能体超网络的多智能体架构搜索) , 该论文提出了 MaAS 。 这个框架不仅仅是构建一个单一的系统;它学习的是架构的概率分布——一个 智能体超网络 (Agentic Supernet) ——从而为每一个特定查询动态组建完美的智能体团队。
当前多智能体系统的困境
在理解解决方案之前,我们需要先了解问题所在。多智能体系统 (MAS) 的演变经历了三个阶段:
- 人工设计: 工程师手工编写提示词和工作流。这种方式僵化且劳动密集。
- 自动搜索 (现状) : 像 AFlow 或 ADAS 这样的系统使用算法来搜索最佳工作流。它们可能会发现“辩论 (Debate) ”结构最适合数学数据集。
- MaAS 方法: 动态的、依赖于查询的实例化。
第二阶段的问题在于 资源分配 。 如果你针对高难度的数学问题优化系统,那么它对于简单的算术来说就变得过于昂贵和缓慢。反之,如果你为了速度而优化,它在复杂的推理任务上就会失败。
这就产生了两个困境:
- 困境 1 (效率) : 静态系统无法在不同难度下平衡高性能与低 Token 成本。
- 困境 2 (泛化能力) : 针对编码优化的系统通常在创意写作或网页浏览方面表现不佳。
MaAS 背后的研究人员认为,我们不应该寻找 一个 最优系统。我们应该寻找一种能够即时生成合适系统的方法。
核心概念: 智能体超网络
MaAS 的核心是 智能体超网络 (Agentic Supernet) 。
在传统的神经架构搜索 (NAS) 中,“超网络”是一个包含所有可能神经网络连接的巨大图。MaAS 将这一概念应用于智能体。不再是固定的智能体流程图,想象一下一个由潜在智能体交互组成的概率云。

如 图 1 所示,该系统由各种构建块 (算子) 组成,例如:
- CoT: 思维链 (Chain-of-Thought) 推理。
- Reflexion: 自我反思纠错机制。
- Debate: 多个智能体通过辩论来寻找真相。
- Tool Use: 网页搜索、代码执行等。
在图 1 的右侧,你可以看到神奇的一幕。对于一个简单的算术查询 (“12 \(\times\) 21”) ,超网络激活了一条简单的路径 (绿色) 。对于一个复杂的物理推导,它激活了一个包含反思和辩论的复杂网络 (红色) 。
定义搜索空间
为了使其在数学上严谨,论文定义了 智能体算子 (Agentic Operator) \(\mathcal{O}\)。这不仅仅是一个函数;它是一个包含 LLM、提示词和工具的复合过程。

这里,\(\mathcal{M}\) 代表 LLM (如 GPT-4) ,\(\mathcal{P}\) 是提示词,\(\mathcal{T}\) 代表工具或温度设置。
一个 多智能体系统 (MAS) \(\mathcal{G}\) 随后被定义为这些算子的有向无环图 (DAG) :

智能体超网络 不是单个图,而是这些算子在各层上的概率分布序列。

这意味着在推理过程的每一“层”,系统不仅仅有一个固定的动作;它根据先前发生的事情,拥有选择特定动作的 概率。
MaAS 如何工作: 架构解析
MaAS 框架在一个采样、执行和进化的循环中运行。让我们分解 图 2 中展示的工作流。

1. 控制器与自适应采样
当一个查询 \(q\) 到来时 (图 2 左侧) ,它被送入一个 控制器网络 (Controller Network) 。 该控制器决定激活哪些算子。
生成特定多智能体系统架构 \(\mathcal{G}\) 的概率是每一层所选算子概率的乘积:

然而,MaAS 引入了一个巧妙的转折: 混合专家 (MoE) 路由 。 它不仅仅是每层选择一个算子。它计算所有可用算子的激活分数。它会选择表现最好的算子,直到它们的累积分数达到阈值。这意味着对于更难的任务,系统可能会一次性激活 多个 并行策略。
2. 早退机制
AI 智能体资源浪费的最大原因之一是对简单问题的“过度思考”。MaAS 实现了 早退算子 (Early Exit Operator) (\(\mathcal{O}_{\text{exit}}\))。
如果控制器认为问题已经解决,它会触发该算子,立即终止工作流。这使得网络的深度是动态的。

这个公式本质上是说: 如果选择了“Exit”算子,概率计算就停止。仅此功能一项就负责了大量的 Token 节省。
3. 执行
一旦架构被采样,它就会被执行。智能体互相交谈,使用工具,并生成答案。

优化超网络: 学习高效
MaAS 如何学习选择正确的智能体?它使用联合优化策略,同时针对两件事进行调整:
- 分布 (\(\pi\)): 调整控制器以选择正确的算子。
- 算子 (\(\mathbb{O}\)) : 改进智能体本身的提示词和设置。
目标函数旨在最大化正确答案 (\(a\)) 的概率,同时最小化由参数 \(\lambda\) 加权的成本 (\(C\)):

分布的梯度估计
由于工具使用和 LLM 调用是不可微的 (你无法对 Google 搜索进行反向传播) ,MaAS 使用 经验贝叶斯蒙特卡洛 (Empirical Bayes Monte Carlo) 采样。

这看起来很复杂,但直觉很简单: 系统采样 \(K\) 个不同的架构。它观察哪些架构以低成本 (\(m_k\)) 得到了正确答案。然后,它推动概率分布 \(\pi\) 在未来更倾向于这些架构。
算子的文本梯度
这是最具创新性的部分。你如何使用梯度来“优化”提示词?你不能使用标准的微积分。相反,MaAS 使用 文本梯度 (Textual Gradients) 。

如 图 3 所示,系统使用一个元智能体 (一个“优化器 LLM”) 。该智能体分析执行日志。如果一个“辩论”算子因为智能体过快达成一致而失败,优化器 LLM 会生成文本形式的“梯度”——本质上是反馈,例如,“修改提示词以鼓励更激烈的异议。”

优化更新 \(\nabla_{\mathbb{O}}\) 包括对提示词 (\(\mathbf{T}_{\mathcal{P}}\))、温度 (\(\mathbf{T}_{\mathcal{T}}\)) 和节点结构 (\(\mathbf{T}_{N}\)) 的更新。
实验结果: “Token 经济学”
研究人员在 GSM8K 和 MATH (数学) 、HumanEval (编码) 以及 GAIA (通用助手任务) 等主要基准上评估了 MaAS。
性能对比基线
结果是压倒性的。MaAS 始终优于手工设计的系统 (如 CoT 或 LLM-Debate) 和其他自动化系统 (如 GPTSwarm) 。

在 表 1 中,注意 MATH 基准测试。MaAS 达到了 51.82% 的准确率,击败了次优的自动化系统 (AFlow),并显著优于标准的思维链 (46.40%)。
它在复杂的工具使用场景中也大放异彩。在 GAIA 基准测试 (下表 2) 中 (需要网页浏览和文件处理) ,MaAS 占据主导地位。

在 GAIA Level 1 上,MaAS 得分为 25.91% , 而 AutoAgents 仅为 16.13% 。
成本分析
高准确率通常伴随着高昂的代价。然而,由于 MaAS 使用了“早退”和自适应采样,它的效率令人难以置信。

图 4 可能是论文中最重要的图表。
- 看 API Cost ($) 图 (底部) 。MaAS (大红圈) 处于“最佳击球点”: 高准确率 (y 轴) 和极低成本 (x 轴) 。
- 对比 **LLM-Debate **(紫圈) ,它的准确率尚可,但极其昂贵。
- 对比 **ADAS **(绿圈) ,它使用了大量的训练 Token,但准确率较低。
表 3 进一步量化了这种效率:

MaAS 在 MATH 基准测试上的训练成本仅需 **\(3.38 **, 而 AFlow 需要 **\)22.50 。 这相当于在获得更优性能的同时, 训练成本降低了近 7 倍 **。
可视化自适应行为
为了证明“超网络”实际上是根据难度进行适应的,研究人员可视化了不同查询的采样概率。

在 图 5 中,观察 (a) 简单 (Easy) 和 (d) 困难 (Hard) 之间的区别:
- **简单: ** 概率质量几乎立即集中在“I/O” (输入/输出) 和“Early Exit” (早退) 上。系统查看查询,解决它,然后退出。
- **困难: ** 系统启用了“Ensemble” (集成) 和“ReAct”方法,保持了多步执行。
这种动态行为在具体生成的工作流中得到了进一步说明:

图 6 展示了实际创建的图。
- **左上: ** 一个简单的编码任务获得了一个线性的“CoT”流程。
- **右上: ** 一个复杂的 GAIA 任务 (搜索亚洲君主制国家) 触发了一个复杂的图,涉及搜索工具、摘要和辩论。
迁移能力与鲁棒性
AI 中的一个常见问题是,针对 GPT-4 优化的系统在使用 Llama-3 时可能会崩溃。然而,MaAS 显示出强大的 **跨模型迁移能力 **。

如 表 7 所示,使用 gpt-4o-mini 优化的智能体超网络在迁移到开源模型 (如 Qwen-2.5-72b 或 llama-3.1-70b) 时,仍然提供了巨大的收益。
此外,MaAS 表现出了 **归纳能力 **。 研究人员进行了一项实验,在训练期间隐藏了“辩论”算子,但在推理期间允许使用它。

值得注意的是,如 **图 9 **(特别是右侧的饼图) 所示,系统找出了如何将以前未见过的“辩论”算子 (灰色部分) 整合到第 4 层逻辑中的方法,这证明了学习到的分布具有足够的泛化能力来处理新工具。
结论
MaAS 代表了我们要如何思考人工智能智能体的重大转变。我们正在从“提示工程”设计单一完美智能体的时代,迈入 智能体架构搜索 的时代。
通过将多智能体系统视为概率分布而不是静态图,MaAS 实现了以前被认为需要权衡的目标:** 在显著降低推理成本的同时,实现最先进的性能。 **
关键要点:
- **动态优于静态: ** 根据查询调整复杂性可以省钱并提高准确性。
- **智能体超网络: ** 架构连续分布的概念 (借鉴自 NAS) 强有力地适用于智能体工作流。
- **文本梯度: ** 我们可以利用反馈循环来“优化”提示词,实际上允许智能体编写自己的升级代码。
对于进入该领域的学生和研究人员来说,MaAS 强调了未来的方向不仅仅是制造更聪明的 LLM——而是制造能够有效组织这些 LLM 的更聪明的系统。
](https://deep-paper.org/en/paper/2502.04180/images/cover.png)