打破权衡：超网络如何实现灵活的多机器人团队

引言

想象一支部署去扑灭野火的机器人团队。这并不是一队整齐划一的同型号无人机，而是一个异构团队。其中有一些是载荷有限但速度极快的空中侦察机，有一些是携带巨大水箱的重型地面漫游车，还有少数是设计用于穿越废墟的敏捷四足机器人。为了取得成功，这些机器人必须完美协作。侦察机需要为漫游车识别热点，而漫游车需要根据其缓慢的速度将自己部署在最有效的位置。

现在，想象一辆漫游车的轮子坏了，速度变慢，或者一种新型号的无人机在任务中途加入了团队。在传统的多机器人系统中，这种情况简直是噩梦。

当前用于多机器人协作的神经架构迫使研究人员做出艰难的选择。你可以通过在所有机器人之间共享单一的“大脑” (策略) 来优先考虑效率 , 但这通常无法考虑到不同机器的独特能力。或者，你可以通过为每个机器人训练单独的策略来优先考虑 多样性 , 但这在计算上极其昂贵且脆弱——一旦团队组成发生变化，系统就会崩溃。

在论文 “CASH: Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination” 中，来自佐治亚理工学院的研究人员提出了一种拒绝妥协的新颖架构。通过利用 超网络 (Hypernetworks) , 他们引入了一种名为 CASH 的方法，实现了两全其美: 既有共享学习的效率，又有独立行为的灵活性。

异构性问题

要理解 CASH 的重要性，我们首先需要定义多智能体强化学习 (MARL) 中现有的解决方案谱系。

谱系的两端

共享参数架构 (“一刀切”方法) : 在这种设置中，每个机器人运行完全相同的神经网络。这具有极高的样本效率，因为一个机器人获得的经验可以用来训练所有机器人的网络。然而，它难以应对异构性。如果你将相同的观测结果输入给无人机和重型漫游车，共享网络可能会输出相同的动作，这对其中一个来说可能是灾难性的错误。以前试图解决这个问题的尝试涉及将“唯一 ID”附加到输入中，但这通常不足以进行复杂的协调。
独立策略 (“孤岛式”方法) : 在这里，每个机器人都有自己独特的神经网络。这允许专门的行为——无人机学会飞高，漫游车学会低行。然而，这种方法的可扩展性很差。它需要大量的数据来训练，而且至关重要的是，它 无法泛化 。如果你训练了一个由 3 个机器人组成的团队，并想部署一个由 4 个机器人组成的团队，或者将侦察机换成油罐车，你必须从头开始重新训练整个系统。

CASH 解决方案: 软权重共享

研究人员不将这两种方法视为二元选择，而是视为谱系的两个端点。他们提出 CASH 来占据中间地带。它使用一种称为 *软权重共享 (soft weight sharing) * 的技术。

图 1: 我们引入了能力感知共享超网络 (CASH) (中) ，这是一种新颖的软参数共享架构，建立并跨越了共享 (左) 和独立 (右) 参数设计之间的广泛谱系。CASH 实现了有效的去中心化异构组队、对未见机器人的泛化、多样化的行为以及更高的学习效率。

如图 1 所示，CASH 介于刚性的共享策略 (左) 和分散的独立策略 (右) 之间。它允许机器人在共享知识 (参数) 的同时，根据其特定能力 (例如速度、感知半径、有效载荷) 动态生成独特的行为。

深入剖析: CASH 架构

CASH 的核心创新在于使用了 超网络 (Hypernetwork) 。在深度学习中，标准网络接收输入并产生输出。而超网络是“一个为另一个网络生成权重的网络”。

CASH 由三个主要模块组成: RNN 编码器、Hyper Adapter (超适配器) 和自适应解码器。

1. RNN 编码器 (眼)

首先，机器人需要处理其周围环境。 RNN 编码器 接收机器人的局部观测值 (\(o_i^t\)) 并使用门控循环单元 (GRU) 进行处理。这处理了部分可观测性和记忆，产生一个潜在嵌入 (\(z_i^t\)) ，代表机器人当前对世界的理解。这个模块在所有机器人之间是共享的——它们都通过相同的“眼睛”看世界。

2. Hyper Adapter (脑)

这是发生异构性处理的地方。 Hyper Adapter 是一个超网络，它接收三个特定输入:

机器人自身的能力 (\(c_i^t\)) 。
其队友的能力 (\(C_{/i}^t\)) 。
当前的局部观测值 (\(o_i^t\)) 。

基于这个上下文，Hyper Adapter 生成一组特定的权重 (\(\theta_i^t\)) 。

这就好比教练在下达指令。教练不是给出一个通用命令 (“向北移动”) ，而是看着队员 (“你速度快”) 和局势 (“敌人在左边”) ，并为该队员在那个特定时刻提供一本定制的战术手册。

3. 自适应解码器 (行动者)

自适应解码器 是一个标准的多层感知机 (MLP) ，但它没有固定的权重。相反，它的权重是由 Hyper Adapter 实时填充的。它接收来自 RNN 编码器的观测嵌入，并产生最终动作 (或价值估计) 。

因为权重 (\(\theta_i^t\)) 是动态生成的，所以两个具有不同能力的机器人将为其解码器接收不同的权重，即使它们看到的是相同的东西，也会导致不同的动作。然而，由于 Hyper Adapter 本身 是共享的，团队实际上学习了一个单一的、强大的模型，它知道如何为任何机器人配置生成专门的策略。

层归一化的重要性

作者克服的一个有趣的工程障碍是训练超网络的不稳定性。在强化学习 (RL) 设置中，超网络以难以训练而闻名。作者发现，在 Hyper Adapter 中包含 层归一化 (Layer Normalization) 是至关重要的。

图 5: 该图展示了从 CASH 的 Hyper Adapter 中移除层归一化对训练回报的影响。结果展示了两个模拟任务中的三种学习范式。很明显，LayerNorm 是稳定 CASH 中超网络训练的关键组件。

如图 5 所示，移除层归一化 (红线) 经常导致性能灾难性下降或学习失败，特别是在像 Mining 这样复杂的任务中使用 DAgger 时。这对于实施超网络的学生来说是一个宝贵的教训: 归一化不仅仅是一个微调技巧；它通常是一个结构上的必要条件。

实验设置

为了验证 CASH，研究人员在多种学习范式下对其进行了测试:

QMIX: 基于价值的多智能体 RL。
MAPPO: 策略梯度 RL。
DAgger: 模仿学习。

他们使用了两个不同的平台:

JaxMARL: 一个高速模拟环境，用于 灭火 (Firefighting) (需要协调速度和水容量) 和 采矿 (Mining) (需要协调承载能力) 等任务。
Robotarium: 佐治亚理工学院的现实世界硬件测试平台，用于 物资运输 (Material Transport) 和 捕食者-猎物 (Predator-Prey) 场景。

用于比较的基线包括:

INDV: 独立策略 (每个机器人有单独的网络) 。
RNN-IMP: 隐式能力处理 (标准共享网络，希望从历史中推断能力) 。
RNN-EXP: 显式能力处理 (标准共享网络，能力附加到输入中) 。

关键结果与分析

结果突出了 CASH 的三大优势: 样本效率、零样本泛化和鲁棒性。

1. 效率和参数数量

人们可能认为动态生成权重需要一个庞大的模型。令人惊讶的是，CASH 在实现更优性能的同时，其使用的 可学习参数比基线少 60% 到 80% 。

图 3: 在两个任务和三种学习范式中，尽管使用的可学习参数减少了 60% - 80%，CASH 始终比基线更具样本效率并产生更好的回报。

图 3 表明，CASH (绿色) 比基线更快地获得了更高的回报。这种效率源于“软共享”。网络不需要为每种机器人类型重新学习如何导航；它在编码器/适配器中学习一次导航，并在超网络中学习 如何根据能力修改 这种导航。

当具体与独立策略 (INDV) 进行比较时，差异是显而易见的。

图 2: CASH 比独立策略更具样本效率 (见回报) ，并且学习到了更有效的多样性水平 (见 SND) ，同时使用的可学习参数大幅减少 (底部) 。

图 2 显示 CASH 达到或超过了 INDV (紫色) 的性能，但参数仅为后者的一小部分。“SND”图 (系统神经多样性) 表明，INDV 往往学到了过多的多样性——即无助于任务的随机变化——而 CASH 学到了解决问题所需的“适当”数量的多样性。

2. 零样本泛化

MARL 的标准局限性在于，如果你在一个特定的团队上训练，你就被限制在那个团队中。CASH 打破了这一限制。

作者在 未见过的团队组成 上评估了模型——即具有训练集中未曾出现过的能力 (例如速度或半径) 的机器人。

INDV 根本无法处理这种情况；它无法在新的机器人上运行。
RNN-EXP (显式共享) 的性能显著下降。
CASH 保持了高成功率。

图 7: 在两个 JaxMARL 任务和三种学习范式中，针对分布外机器人能力和未见团队组成评估的任务性能指标。灭火任务 (顶行) 的指标是扑灭火灾的百分比。采矿任务 (底行) 的指标是完工时间 (Makespan) 。这些指标提供了表 1 中成功率之外的额外背景。

在图 7 中，看第一行 (灭火) ，与基线相比，CASH (绿色) 在未见团队上保持了更高的灭火率。这证明 CASH 不仅仅是在记忆 ID；它正在学习能力和策略之间的广义关系。

3. 现实世界部署和弹性

模拟结果很有希望，但现实世界的混乱才是终极考验。作者在 Robotarium 硬件上部署了 CASH。

图 4: 两个 Robotarium 任务的物理部署快照: MT (顶部) ，PCP (底部) 。

在物理实验 (物资运输和捕食者-猎物) 中，CASH 实现了最高的回报和最低的碰撞率。但最令人印象深刻的结果来自 在线适应 (Online Adaptation) 。

研究人员引入了“故障”场景，即机器人的速度或感知半径在任务中途突然被削减 75%，或者“电池耗尽”场景，即能力随时间衰减。

因为 CASH 在 每个时间步 都根据当前的能力生成策略权重，所以它立即进行了适应。

RNN-IMP/EXP 基线未能调整；它们关于能力的逻辑策略是静态的。
CASH 识别出新的能力状态，并为受损的机器人生成了一个新的、更慢/更保守的策略，从而允许团队继续并完成任务。

表 2: CASH 在硬件上实现了最高的回报、最低的完工时间和最少的碰撞。

如表 2 所示，这种适应性转化为物理硬件上显著更高的回报和更快的完成时间 (完工时间) 。

结论

CASH 架构代表了多机器人学习迈出的重要一步。通过将共享参数和独立参数之间的权衡视为一个谱系，作者利用超网络创造了一个灵活的中间地带。

对于机器人领域的学生和从业者来说，结论很明确:

异构性很重要: 简单地将“机器人 ID”附加到神经网络输入中，通常不足以进行复杂的协调。
超网络是适应的强大工具: 它们允许系统根据上下文 (能力) 动态重新配置其“大脑”，从而实现零样本泛化。
效率和多样性可以共存: 我们不必在样本高效的克隆军队和计算昂贵的多样化团队之间做出选择。

CASH 证明，有了正确的架构，我们可以构建不仅多样化和高效，而且具有足够弹性以应对现实世界不可预测性的机器人团队。

引言#

异构性问题#

谱系的两端#

CASH 解决方案: 软权重共享#

深入剖析: CASH 架构#

1. RNN 编码器 (眼)#

2. Hyper Adapter (脑)#

3. 自适应解码器 (行动者)#

层归一化的重要性#

实验设置#

关键结果与分析#

1. 效率和参数数量#

2. 零样本泛化#

3. 现实世界部署和弹性#

结论#

引言