引言
在人工智能领域,让单个智能体执行任务已非易事。而让多个智能体协同工作——比如扑灭火灾的无人机群或穿越繁忙路口的自动驾驶车队——其难度更是呈指数级上升。这正是多智能体强化学习 (MARL) 的领域。
尽管 MARL 已经取得了显著的成功,但一个主要的障碍依然存在: 离线学习 。 在许多现实世界的场景中,我们不能允许机器人通过试错来学习 (这通常意味着撞毁和失败) 。相反,我们必须在预先收集的数据集上训练它们。问题在于,离线数据是静态的,但现实世界是动态的。如果一个智能体的马达性能下降,或者一个团队成员突然掉线,在静态数据上训练出的策略往往会崩溃,因为它们以前从未“见过”这些特定的协作故障。
最近的方法尝试使用扩散模型——这正是 DALL-E 等图像生成器背后的技术——来生成智能体行为。然而,大多数此类方法将智能体视为孤立的实体,对其轨迹进行独立扩散。这种做法一叶障目,忽略了智能体之间关键且不断演变的关系。
在这篇文章中,我们将深入探讨一种名为 MCGD (基于图扩散的多智能体协作) 的新框架。这种方法从根本上改变了我们对多智能体交互建模的方式,它将团队视为一个图。通过学习如何扩散和去噪智能体之间的连接 (边) 以及它们的行为 (节点) ,MCGD 创建的策略不仅有效,而且对意外变化具有极强的鲁棒性。

如图 1 所示,传统的扩散方法 (a) 在智能体变得不可用时会失败,因为它们依赖于固定的空间模式。相比之下,MCGD (b) 能够动态调整协作图,允许剩余的智能体重新组合并取得成功。
背景: 独立性的局限
在剖析新方法之前,我们需要了解其基石: 离线 MARL 和扩散模型。
离线 MARL 与协作鸿沟
在离线 MARL 中,我们的目标是在不与环境进行进一步交互的情况下,从固定数据集 \(\mathcal{D}\) 中学习策略。主要的挑战在于分布偏移 。 当训练好的智能体遇到数据集中未充分呈现的状态 (分布外或 OOD) 时,它们的表现往往会急剧下降。这在多智能体设置中尤为严重,因为联合状态空间非常巨大。
RL 中的扩散模型
去噪扩散概率模型 (DDPMs) 通过逆转噪声过程来生成数据。它们从纯噪声开始,迭代地“去噪”以恢复结构化的输出。在强化学习中,这种输出通常是一系列动作或状态。
标准扩散遵循一个前向过程 \(q\),该过程添加高斯噪声:

以及一个逆向过程 \(p_\theta\),它学习如何移除噪声:

虽然对单个智能体有效,但这套方法独立应用于多个智能体是有缺陷的。它假设只要状态已知,智能体 A 的最佳动作就独立于智能体 B。但在协作任务中,协作的结构与个体动作同样重要。
核心方法: 用于协作的图扩散
研究人员提出了 MCGD , 这是一个将多智能体系统建模为协作图的框架。在这个图中:
- 节点代表智能体及其连续属性 (动作) 。
- 边代表它们之间的离散关系或协作通道。
其创新之处在于同时应用两种不同类型的扩散: 用于离散边的类别扩散 (Categorical Diffusion) 和用于连续节点的各向异性扩散 (Anisotropic Diffusion) 。

图 2 概述了该架构。这是一个循环过程,包括扰动数据的前向过程,以及学习从噪声中重建最佳协作图和动作的逆向过程。
1. 构建协作图
并非所有智能体都需要一直与其他人协作。全连接图计算成本高昂且往往是不必要的。作者基于观测的相似性构建了一个稀疏 K-近邻 (k-nn) 图 。 如果两个智能体看到的景象相似或距离较近,就会形成一条边。这个图 \(G_t = (A_t, E_t)\) 由节点属性 \(A_t\) (动作) 和边属性 \(E_t\) (连接) 组成。
2. 前向加噪过程
前向过程将干净的图 \(G_t\) 扰动为噪声图 \(G_K^t\)。边和节点的处理方式有所不同。
边的类别加噪
边是离散的——它们要么存在,要么不存在 (或者存在于特定类别中) 。你不能简单地给二元连接添加高斯噪声。相反,作者使用了类别扩散 。 他们定义了一个转移矩阵 \(Q_t\),该矩阵决定了边翻转其类别的概率 (例如,从“连接”变为“断开”) 。
至关重要的是,这种转换并非随机的。它由相似度矩阵 \(C\) 引导,该矩阵源自智能体观测结果的相似程度。转移矩阵的计算公式为:

该矩阵确保扩散过程尊重多智能体交互的底层结构。类别前向过程定义为:

节点的各向异性加噪
对于智能体的动作 (节点) ,作者引入了各向异性扩散 。 在标准扩散中,噪声是球形添加的 (在各个方向上均匀分布) 。然而,在一个团队中,智能体的不确定性往往受到其邻居的影响。
如果智能体 A 与智能体 B 紧密协作,那么相对于智能体 B,其动作方差应该受到约束。作者定义了一种依赖邻居的噪声分布。节点 \(a_i\) 的前向过程取决于其当前值和源自协作图的协方差矩阵 \(\Sigma_i\):

通过结合这两个过程,框架同时对整个图结构进行扩散:

3. 逆向去噪过程
训练阶段的目标是逆转这种噪声。作者采用了图 Transformer 网络 。 该网络接收噪声图 \(G_K^t\),并尝试预测干净的边属性 \(E_t\) 和节点动作 \(A_t\)。
详细架构如下图所示。请注意,“被扰动的边”和“邻居动作”是如何输入到学习过程中的,从而使模型能够理解群体的上下文。

该网络使用复合损失函数进行训练。 首先, 交叉熵损失确保模型正确预测离散的边结构:

其次, 各向异性扩散损失确保连续动作被准确恢复。该损失还结合了 Q 值函数 (来自 Critic 网络) ,以确保生成的动作不仅逼真,而且对于任务来说是最优的:

4. 策略采样
一旦训练完成,团队该如何行动?在推理 (采样) 阶段,过程从纯噪声开始。模型迭代地优化这些噪声。
- 预测干净的图结构 (谁应该与谁协作?) 。
- 为逆向链的下一步采样边。
- 使用优化后的结构对智能体的动作进行去噪。
这产生了一种去中心化的执行策略,智能体动态形成协作结构以解决任务。
实验与结果
为了验证 MCGD,研究人员在三个标准的、具有挑战性的基准上进行了测试:
- MPE (多智能体粒子环境) : Spread, Tag, 和 World 等任务。
- MAMuJoCo (多智能体 MuJoCo) : 机器人控制,不同的智能体控制机器人的不同关节 (例如,双智能体蚂蚁) 。
- SMAC (星际争霸多智能体挑战) : 星际争霸 II 中的单位微操。
有效性
该方法与最先进的基线方法进行了比较,包括其他基于扩散的方法,如 MADIFF 和 DOM2。在“Expert”和“Good”数据集上的结果令人印象深刻。

如表 1 所示,MCGD 始终取得最高分 (加粗显示) 。在像 MAMuJoCo 这样的高维控制任务中,性能差距非常大,表明显式建模图结构比独立扩散能更好地帮助智能体协调复杂的联合运动。
鲁棒性: 真正的考验
当环境遭到破坏时,MCGD 的真正威力才显现出来。研究人员创建了“偏移环境”,其中:
- 动态属性: 随机改变智能体的速度或电机功率。
- 动态协作: 强制某个智能体“断开连接” (速度/功率设为零) 。
标准的离线策略通常会在此失败,因为它们过拟合了静态的训练数据。

表 2 显示,即使在这些恶劣条件下,MCGD 仍保持卓越的性能。在“协作结构”偏移 (即智能体断开连接) 中,MCGD 显著优于基线方法 (提升高达 14.2%) 。这证明模型不仅仅是在记忆轨迹;它正在学习如何即时调整团队结构。
协作可视化
为了理解智能体如何适应,我们可以观察它们的轨迹。图 4 展示了 MPE Spread 任务 (覆盖地标) 。

在标准环境 (a) 中,智能体直接向目标移动。在协作结构发生变化的偏移环境 (c) 中 (可能是由于某个智能体故障) ,剩余的智能体显著改变了它们的路径以覆盖必要的区域,从而补偿损失。
此外,我们可以可视化学习到的图本身。图 5 显示了模型随时间推移决定创建的边。

在顶行 (标准) 中,图很快稳定下来。在底行 (偏移) ,由于协作结构是动态的,模型在整个回合中积极地修改边 (智能体之间的连接) 以保持最佳覆盖。这种动态重连是图扩散方法所独有的。
消融实验
所有这些复杂性都是必要的吗?作者进行了消融研究,以验证类别扩散 (用于边) 和各向异性扩散 (用于节点) 的贡献。

图 6 显示了结果。红色柱状图 (完整的 MCGD) 始终高于绿色 (移除各向异性扩散) 或蓝色 (移除类别扩散) 柱状图。这证实了结构学习 (边) 和感知邻居的动作生成 (节点) 对于获得最佳性能都是必不可少的。
结论与启示
MCGD 框架代表了离线多智能体强化学习向前迈出的重要一步。通过不再将智能体视为独立实体,而是将系统建模为一个图 , 研究人员创建了不仅更有效而且非常鲁棒的策略。
主要的启示包括:
- 结构至关重要: 显式建模智能体之间的边 (交互) 比孤立地建模智能体具有更好的泛化能力。
- 混合扩散: 结合类别扩散 (用于结构) 和各向异性扩散 (用于动作) 有效地捕捉了多智能体系统的双重性质。
- 适应性: 动态“重连”协作图的能力使智能体团队即使在个别组件故障或环境发生变化时也能生存并取得成功。
这项工作为在现实世界中部署多智能体系统铺平了道路,因为现实世界的条件很少像训练数据集中那样静态。无论是适应风力和电池故障的搜救无人机,还是处理意外障碍物的自动化仓库机器人,图扩散都提供了一条稳健的前进道路。
](https://deep-paper.org/en/paper/2772_graph_diffusion_for_robus-1672/images/cover.png)