超越“一刀切”：利用 MaAS 动态进化 AI 智能体

如果你最近体验过大型语言模型 (LLMs) ，你很可能已经接触过 智能体 (Agents) 的概念。我们已经超越了简单的聊天机器人时代；现在的系统不仅拥有 LLM，还能使用工具、浏览网页、编写代码，甚至与其他 LLM 对话来解决问题。

然而，构建这些多智能体系统极其困难。像 AutoGen 或 MetaGPT 这样的早期框架依赖于人类手动设计工作流 (例如，“智能体 A 与智能体 B 交谈，然后使用工具 C”) 。这种方式既僵化又耗费人力。较新的方法试图使其自动化，搜索“完美”的智能体架构。但它们都遭受着一个致命缺陷: 它们寻找的是一个 静态的、一刀切的解决方案 。

试想一下: 回答“12 $\times$ 21 是多少？”所需的认知负荷，是否与解决一个博士级的物理问题相同？当然不同。然而，如今大多数自动化智能体系统无论面对什么问题，都会调用同样复杂且消耗大量 Token 的工作流。

在这篇文章中，我们将深入探讨一篇新论文 《Multi-agent Architecture Search via Agentic Supernet》 (基于智能体超网络的多智能体架构搜索) , 该论文提出了 MaAS 。这个框架不仅仅是构建一个单一的系统；它学习的是架构的概率分布——一个 智能体超网络 (Agentic Supernet) ——从而为每一个特定查询动态组建完美的智能体团队。

当前多智能体系统的困境

在理解解决方案之前，我们需要先了解问题所在。多智能体系统 (MAS) 的演变经历了三个阶段:

人工设计: 工程师手工编写提示词和工作流。这种方式僵化且劳动密集。
自动搜索 (现状) : 像 AFlow 或 ADAS 这样的系统使用算法来搜索最佳工作流。它们可能会发现“辩论 (Debate) ”结构最适合数学数据集。
MaAS 方法: 动态的、依赖于查询的实例化。

第二阶段的问题在于 资源分配 。如果你针对高难度的数学问题优化系统，那么它对于简单的算术来说就变得过于昂贵和缓慢。反之，如果你为了速度而优化，它在复杂的推理任务上就会失败。

这就产生了两个困境:

困境 1 (效率) : 静态系统无法在不同难度下平衡高性能与低 Token 成本。
困境 2 (泛化能力) : 针对编码优化的系统通常在创意写作或网页浏览方面表现不佳。

MaAS 背后的研究人员认为，我们不应该寻找一个最优系统。我们应该寻找一种能够即时生成合适系统的方法。

核心概念: 智能体超网络

MaAS 的核心是 智能体超网络 (Agentic Supernet) 。

在传统的神经架构搜索 (NAS) 中，“超网络”是一个包含所有可能神经网络连接的巨大图。MaAS 将这一概念应用于智能体。不再是固定的智能体流程图，想象一下一个由潜在智能体交互组成的概率云。

图 1. (左) MaAS 的构建块； (右) 面对不同查询时，智能体超网络以依赖于查询的方式自适应地采样定制的多智能体架构。

如 图 1 所示，该系统由各种构建块 (算子) 组成，例如:

CoT: 思维链 (Chain-of-Thought) 推理。
Reflexion: 自我反思纠错机制。
Debate: 多个智能体通过辩论来寻找真相。
Tool Use: 网页搜索、代码执行等。

在图 1 的右侧，你可以看到神奇的一幕。对于一个简单的算术查询 (“12 $\times$ 21”) ，超网络激活了一条简单的路径 (绿色) 。对于一个复杂的物理推导，它激活了一个包含反思和辩论的复杂网络 (红色) 。

定义搜索空间

为了使其在数学上严谨，论文定义了 智能体算子 (Agentic Operator) $\mathcal{O}$。这不仅仅是一个函数；它是一个包含 LLM、提示词和工具的复合过程。

定义智能体算子的公式

这里，$\mathcal{M}$ 代表 LLM (如 GPT-4) ，$\mathcal{P}$ 是提示词，$\mathcal{T}$ 代表工具或温度设置。

一个 多智能体系统 (MAS) $\mathcal{G}$ 随后被定义为这些算子的有向无环图 (DAG) :

定义多智能体系统的公式

智能体超网络 不是单个图，而是这些算子在各层上的概率分布序列。

定义智能体超网络分布的公式

这意味着在推理过程的每一“层”，系统不仅仅有一个固定的动作；它根据先前发生的事情，拥有选择特定动作的概率。

MaAS 如何工作: 架构解析

MaAS 框架在一个采样、执行和进化的循环中运行。让我们分解 图 2 中展示的工作流。

图 2. 我们提出的 MaAS 的整体框架。

1. 控制器与自适应采样

当一个查询 $q$ 到来时 (图 2 左侧) ，它被送入一个 控制器网络 (Controller Network) 。该控制器决定激活哪些算子。

生成特定多智能体系统架构 $\mathcal{G}$ 的概率是每一层所选算子概率的乘积:

系统架构概率公式

然而，MaAS 引入了一个巧妙的转折: 混合专家 (MoE) 路由 。它不仅仅是每层选择一个算子。它计算所有可用算子的激活分数。它会选择表现最好的算子，直到它们的累积分数达到阈值。这意味着对于更难的任务，系统可能会一次性激活多个并行策略。

2. 早退机制

AI 智能体资源浪费的最大原因之一是对简单问题的“过度思考”。MaAS 实现了 早退算子 (Early Exit Operator) ($\mathcal{O}_{\text{exit}}$)。

如果控制器认为问题已经解决，它会触发该算子，立即终止工作流。这使得网络的深度是动态的。

展示早退逻辑的公式

这个公式本质上是说: 如果选择了“Exit”算子，概率计算就停止。仅此功能一项就负责了大量的 Token 节省。

3. 执行

一旦架构被采样，它就会被执行。智能体互相交谈，使用工具，并生成答案。

执行公式

优化超网络: 学习高效

MaAS 如何学习选择正确的智能体？它使用联合优化策略，同时针对两件事进行调整:

分布 ($\pi$): 调整控制器以选择正确的算子。
算子 ($\mathbb{O}$) : 改进智能体本身的提示词和设置。

目标函数旨在最大化正确答案 ($a$) 的概率，同时最小化由参数 $\lambda$ 加权的成本 ($C$):

优化目标函数

分布的梯度估计

由于工具使用和 LLM 调用是不可微的 (你无法对 Google 搜索进行反向传播) ，MaAS 使用 经验贝叶斯蒙特卡洛 (Empirical Bayes Monte Carlo) 采样。

梯度估计公式

这看起来很复杂，但直觉很简单: 系统采样 $K$ 个不同的架构。它观察哪些架构以低成本 ($m_k$) 得到了正确答案。然后，它推动概率分布 $\pi$ 在未来更倾向于这些架构。

算子的文本梯度

这是最具创新性的部分。你如何使用梯度来“优化”提示词？你不能使用标准的微积分。相反，MaAS 使用 文本梯度 (Textual Gradients) 。

图 3. 文本梯度演示。

如 图 3 所示，系统使用一个元智能体 (一个“优化器 LLM”) 。该智能体分析执行日志。如果一个“辩论”算子因为智能体过快达成一致而失败，优化器 LLM 会生成文本形式的“梯度”——本质上是反馈，例如，“修改提示词以鼓励更激烈的异议。”

文本梯度公式

优化更新 $\nabla_{\mathbb{O}}$ 包括对提示词 ($\mathbf{T}_{\mathcal{P}}$)、温度 ($\mathbf{T}_{\mathcal{T}}$) 和节点结构 ($\mathbf{T}_{N}$) 的更新。

实验结果: “Token 经济学”

研究人员在 GSM8K 和 MATH (数学) 、HumanEval (编码) 以及 GAIA (通用助手任务) 等主要基准上评估了 MaAS。

性能对比基线

结果是压倒性的。MaAS 始终优于手工设计的系统 (如 CoT 或 LLM-Debate) 和其他自动化系统 (如 GPTSwarm) 。

表 1. 与单智能体、手工设计的多智能体系统以及自动化智能体工作流的性能比较。所有基线的基座 LLM 均设置为 gpt-4o-mini。我们加粗了最佳结果，并在次优结果下划线。

在 表 1 中，注意 MATH 基准测试。MaAS 达到了 51.82% 的准确率，击败了次优的自动化系统 (AFlow)，并显著优于标准的思维链 (46.40%)。

它在复杂的工具使用场景中也大放异彩。在 GAIA 基准测试 (下表 2) 中 (需要网页浏览和文件处理) ，MaAS 占据主导地位。

表 2. GAIA 基准测试上的性能。最佳和次优结果分别加粗和下划线。

在 GAIA Level 1 上，MaAS 得分为 25.91% , 而 AutoAgents 仅为 16.13% 。

成本分析

高准确率通常伴随着高昂的代价。然而，由于 MaAS 使用了“早退”和自适应采样，它的效率令人难以置信。

图 4. MaAS 在 MATH 基准测试上的成本分析。

图 4 可能是论文中最重要的图表。

看 API Cost ($) 图 (底部) 。MaAS (大红圈) 处于“最佳击球点”: 高准确率 (y 轴) 和极低成本 (x 轴) 。
对比 **LLM-Debate **(紫圈) ，它的准确率尚可，但极其昂贵。
对比 **ADAS **(绿圈) ，它使用了大量的训练 Token，但准确率较低。

表 3 进一步量化了这种效率:

表 3. MaAS 与最先进基线在 MATH 基准测试上的效率比较。我们将最低 Token/成本/挂钟时间和最高性能的数值以此背景色标出。

MaAS 在 MATH 基准测试上的训练成本仅需 **$3.38 **, 而 AFlow 需要 **$22.50 。这相当于在获得更优性能的同时, 训练成本降低了近 7 倍 **。

可视化自适应行为

为了证明“超网络”实际上是根据难度进行适应的，研究人员可视化了不同查询的采样概率。

图 5. MaAS 算子采样过程的可视化。

在 图 5 中，观察 (a) 简单 (Easy) 和 (d) 困难 (Hard) 之间的区别:

**简单: ** 概率质量几乎立即集中在“I/O” (输入/输出) 和“Early Exit” (早退) 上。系统查看查询，解决它，然后退出。
**困难: ** 系统启用了“Ensemble” (集成) 和“ReAct”方法，保持了多步执行。

这种动态行为在具体生成的工作流中得到了进一步说明:

图 6. MaAS 的案例研究和可视化。查询来自 HumanEval、MATH 和 GAIA 基准测试。

图 6 展示了实际创建的图。

**左上: ** 一个简单的编码任务获得了一个线性的“CoT”流程。
**右上: ** 一个复杂的 GAIA 任务 (搜索亚洲君主制国家) 触发了一个复杂的图，涉及搜索工具、摘要和辩论。

迁移能力与鲁棒性

AI 中的一个常见问题是，针对 GPT-4 优化的系统在使用 Llama-3 时可能会崩溃。然而，MaAS 显示出强大的 **跨模型迁移能力 **。

表 7. MaAS 的跨模型迁移能力。我们在 gpt-4o-mini 上优化智能体超网络，并报告在为 LLM 主干装备优化后的智能体超网络前后的性能。

如 表 7 所示，使用 gpt-4o-mini 优化的智能体超网络在迁移到开源模型 (如 Qwen-2.5-72b 或 llama-3.1-70b) 时，仍然提供了巨大的收益。

此外，MaAS 表现出了 **归纳能力 **。研究人员进行了一项实验，在训练期间隐藏了“辩论”算子，但在推理期间允许使用它。

图 9. 在带有辩论 (Debate) 算子的 HumanEval 基准测试上，MaAS 的层级分布。

值得注意的是，如 **图 9 **(特别是右侧的饼图) 所示，系统找出了如何将以前未见过的“辩论”算子 (灰色部分) 整合到第 4 层逻辑中的方法，这证明了学习到的分布具有足够的泛化能力来处理新工具。

结论

MaAS 代表了我们要如何思考人工智能智能体的重大转变。我们正在从“提示工程”设计单一完美智能体的时代，迈入 智能体架构搜索 的时代。

通过将多智能体系统视为概率分布而不是静态图，MaAS 实现了以前被认为需要权衡的目标:** 在显著降低推理成本的同时，实现最先进的性能。 **

关键要点:

**动态优于静态: ** 根据查询调整复杂性可以省钱并提高准确性。
**智能体超网络: ** 架构连续分布的概念 (借鉴自 NAS) 强有力地适用于智能体工作流。
**文本梯度: ** 我们可以利用反馈循环来“优化”提示词，实际上允许智能体编写自己的升级代码。

对于进入该领域的学生和研究人员来说，MaAS 强调了未来的方向不仅仅是制造更聪明的 LLM——而是制造能够有效组织这些 LLM 的更聪明的系统。

当前多智能体系统的困境#

核心概念: 智能体超网络#

定义搜索空间#

MaAS 如何工作: 架构解析#

1. 控制器与自适应采样#

2. 早退机制#

3. 执行#

优化超网络: 学习高效#

分布的梯度估计#

算子的文本梯度#

实验结果: “Token 经济学”#

性能对比基线#

成本分析#

可视化自适应行为#

迁移能力与鲁棒性#

结论#