引言

设想在一个茂密的森林中进行一次高风险的搜救任务。一支无人机编队正在扫描下方的地面。突然,其中一架无人机电池故障,必须返回基地。一架备用无人机立即升空接替它的位置。

在理想世界中,这种交接是无缝的。新来的无人机加入编队,理解当前的策略,并与现有团队完美协作。但在现实中,这对机器人技术来说是一个巨大的挑战。大多数多智能体系统都是针对特定的、预先定义的伙伴进行训练的。它们依赖于与固定团队的“过度训练” (over-training) ,形成了一种只有它们自己懂的动作和反应的“秘密语言”。当一个陌生人——一个“未见过的 (unseen) ”队友——加入时,这种协调往往会分崩离析。

这种能力被称为自适应组队 (Adaptive Teaming) 。 虽然在像《胡闹厨房》 (Overcooked) 或《花火》 (Hanabi) 这样的虚拟视频游戏环境中,这一概念已被广泛探索,但在复杂的多机器人系统物理世界中,它却在很大程度上被忽视了。

在这篇文章中,我们将深入探讨一篇名为 “AT-Drone: Benchmarking Adaptive Teaming in Multi-Drone Pursuit” 的研究论文。这项背后的研究人员创建了首个专用基准测试,旨在训练和测试无人机在追踪-逃逸场景中与陌生伙伴协作的能力。我们将探讨他们如何弥合仿真与现实之间的差距,他们开发的新颖算法 (包括一种基于超图博弈论的算法) ,以及这对自主蜂群未来的意义。

背景: 机器人技术中的“陌生人”问题

要理解为什么需要 AT-Drone,我们首先需要看看多智能体强化学习 (MARL) 的现状。

在标准的 MARL 中,智能体学习的是一种联合策略。智能体 A 学会向左转,是因为它知道智能体 B 会向右转。它们就像一对练习过无数次同样动作的花样游泳运动员。如果你把智能体 B 换成另一个没有练习过那套特定动作的游泳者,智能体 A 就不知所措了。

这种局限性在现实世界的应用中是至关重要的,例如边境监视或反恐行动,因为:

  1. 团队构成变化: 无人机可能会受损或耗尽电量。
  2. 异构性: 不同的无人机可能运行不同版本的软件,或者来自不同的制造商。
  3. 通信受限: 你不能总是依赖高带宽数据共享来同步信息。

自适应组队的两种流派

研究人员将解决这个问题的方法分为两大类,并在论文中对它们进行了基准测试:

  1. 无队友建模的自适应组队 (AT w/o TM) : 也称为零样本协作 (Zero-Shot Coordination, ZSC) 。智能体必须找出一个鲁棒的策略,该策略能与任何伙伴都配合得相当好,而不需要试图显式地猜测伙伴在想什么。
  2. 带队友建模的自适应组队 (AT w/ TM) : 也称为 Ad-Hoc 团队合作。智能体主动观察伙伴的行为以推断其意图或“类型”,然后相应地调整自己的策略。

直到现在,还没有一种标准化的方法在无人机上测试这些方法。现有的基准测试要么太简单 (具有离散移动如“上/下/左/右”的视频游戏) ,要么缺乏“未见过的队友”这一要素。

表 1: 相关工作对比。灰色行代表多无人机追踪相关文献,粉色行重点展示机器学习领域的自适应组队研究。“AT w/o TM”和“AT w/ TM”分别表示无队友建模和有队友建模的自适应组队。

如表 1 所示,以前的工作比较分散。有些专注于无人机但忽略了自适应组队 (灰色行) 。其他的专注于自适应组队但停留在视频游戏内 (粉色行) 。AT-Drone 通过将多学习者自适应组队与无人机飞行的连续、基于物理的现实相结合,填补了这一空白。

AT-Drone 基准测试架构

AT-Drone 基准不仅仅是一个软件仿真;它是一个全栈框架,旨在将算法从计算机屏幕带入物理飞行。该系统由四大支柱组成,如下图所示:

  1. 仿真 (Simulation) : 一个可定制的训练场。
  2. 部署 (Deployment) : 将代码推送到真实的 Crazyflie 无人机上的管道。
  3. 算法库 (Algorithm Zoo) : 一系列前沿算法 (包括作者提出的新算法) 。
  4. 评估 (Evaluation) : 针对“未见过的”无人机衡量成功率的标准化协议。

图 1: AT-Drone 基准测试概览,包含四个关键组件: (I) 具有可调节复杂度的多无人机追踪任务的可定制仿真环境;(II) 利用动作捕捉系统和边缘设备的简化现实世界部署管道,以促进逼真的无人机验证;(III) 配备多种自适应组队算法的分布式训练框架,用于多无人机追踪任务;以及 (IV) 标准化评估协议,利用多种未见过的队友配置来严格评估跨不同策略的自适应组队性能和鲁棒性。

1. 仿真环境

研究人员构建了一个基于 Gymnasium (RL 的标准库) 的高度可配置环境。任务是多无人机追踪 : 一队“追踪者”无人机必须在避开障碍物的同时抓住“逃跑者”目标。

这里的复杂性是关键。如果环境太开阔,任务就太简单,不需要团队合作。如果太拥挤,这就变成了导航任务而不是协作任务。作者设计了四种难度递增的环境,以追踪者 (p)、逃跑者 (e) 和障碍物 (o) 的数量进行编码。

图 4: 现实世界中四种多无人机追踪环境的示意图。环境在追踪者 (p)、逃跑者 (e) 和障碍物 (o) 的数量上有所不同,分别表示为 4p2e3o、4p2e1o、4p2e5o 和 4p3e5o。每种设置引入了不同程度的复杂性,测试智能体的适应性和协调能力。

  • 4p2e3o (简单) : 4 个追踪者,2 个逃跑者,3 个障碍物。有足够的机动空间。
  • 4p2e1o (中等) : 只有 1 个障碍物,但位于中心,给了逃跑者更多的绕圈自由,要求无人机封锁它们。
  • 4p2e5o (困难) : 5 个障碍物制造了“瓶颈点”。
  • 4p3e5o (超难) : 3 个逃跑者和高杂乱度。这需要复杂的团队分工来同时将多个目标逼入死角。

用户可以使用基于 JSON 的配置文件创建自己的场景,从而即时调整物理属性、边界和智能体数量。

图 5: 环境配置文件示例。

2. 现实世界部署

仿真是安全的;现实是混乱的。该基准测试包含一个使用由动作捕捉系统管理的 Crazyflie 无人机 (小型、敏捷的四轴飞行器) 的管道。

操作的“大脑”不在无人机本身 (其计算能力有限) 。相反,系统使用边缘设备 (如 Nvidia Jetson Orin Nano) 。动作捕捉系统将位置数据发送到边缘设备,自适应组队算法对其进行处理,然后将控制指令发回无人机。这种设置模拟了现实中的操作设置,即由地面站或母机处理繁重的计算任务。

算法库: 如何为未知进行训练

论文的核心在于算法。作者不仅提供了一个测试场;他们还引入了改进的方法来解决自适应组队问题。他们提供了一个算法“动物园”,但在处理“未见过的队友”问题上,有两个主要的贡献尤为突出。

方法 1: HOLA-Drone V2 (零样本协作)

你如何训练一个智能体与任何人合作?一种方法是在学习阶段让它与各种各样的伙伴对抗。然而,随机挑选伙伴效率低下。你需要针对那些能暴露你弱点的伙伴进行训练。

作者提出了 HOLA-Drone V2 , 一种基于超图博弈论 (Hypergraphic Game Theory) 的算法。

超图概念

在标准图中,一条边连接两个节点 (智能体 A 连接到智能体 B) 。但在多无人机团队中,互动不仅仅是两两之间的。任务的成功取决于群体组合。“超图 (Hypergraph) ”允许一条边同时连接多个节点,代表一个完整的团队构成。

研究人员使用的是偏好超图 (Preference Hypergraph) 。 想象一群不同的无人机策略。有些策略配合得很好;其他的则会撞在一起。算法会映射这些关系。

图 6: 群体中五种策略的超图表示 (左) 及其对应的偏好超图 (右) 示例。

在图 6 (左) 中,我们看到一个超图,其中的边连接着一组智能体,权重代表它们的协作得分。在右侧,这被转换成了偏好超图 。 箭头从一个节点指向它“偏好”的团队 (与之配合最好的团队) 。

为了量化一个队友有多好,他们计算偏好中心性 (Preference Centrality) (\(\eta\))。

偏好中心性公式

本质上,如果有许多其他策略“指向”你作为它们的首选伙伴,你就拥有高中心性。你就是一个好的团队合作者。

Max-Min 偏好预言机

目标是找到一组偏好最优 (Preference Optimal) 的学习者——这意味着它们能与最广泛的潜在队友良好协作。

描述偏好最优性的公式

为了实现这一点,作者引入了一个 Max-Min 偏好预言机 (Max-Min Preference Oracle) 。 这是一个从根本上改变无人机学习方式的训练循环:

  1. Min-Step (对手) : 系统分析当前种群,并找出当前学习者最差的潜在伙伴。它不只是挑一个;它创建一个概率分布 (“混合策略”) ,专注于那些学习者最难应对的伙伴。
  2. Max-Step (学习者) : 然后,学习者专门针对这些“最坏情况”的伙伴进行训练,以最大化其奖励。

Max-Min 预言机公式 展示学习者与队友之间迭代关系的公式

这创造了一个鲁棒的循环。随着学习者越来越擅长处理糟糕的队友,“最差”的队友也会发生变化,学习者必须再次适应。这个过程在下面的算法概览中可视化:

图 7: 我们提出的 HOLA-Drone (V2) 算法概览。

训练结束时,无人机不仅记住了一条路线;它还学会了处理不合作或古怪伙伴的通用技能。

方法 2: NAHT-D (队友建模)

第二个主要贡献是 NAHT-D (针对无人机的 N 智能体 Ad-Hoc 团队合作) 。与试图对所有人都鲁棒的 HOLA-Drone 不同,NAHT-D 试图理解它现在正在与之飞行的特定伙伴。

它扩展了流行的 MAPPO (多智能体近端策略优化) 算法,增加了一个队友建模网络

这个网络就像一个编码器。它接收伙伴的动作和观察历史,并将它们压缩成一个“团队编码向量” (嵌入) 。

  • *输入: * “队友向左移动,然后加速冲向逃跑者 1。”
  • *嵌入: * “队友是激进型/速度型的。”

这个嵌入随后被输入到无人机的策略网络中。无人机实际上是在说: “我和一个激进的伙伴一起飞,所以我应该扮演辅助角色以避免碰撞。”

表 3: NAHT-D 算法的实现超参数。

表 3 中的超参数显示,他们使用了很短的历史长度 (1 步) 来保持系统的反应速度,这对于快速移动的无人机至关重要,因为过时的数据可能导致坠毁。

实验与结果

为了严格测试这些算法,作者创建了“未见过的无人机库”——训练后的无人机从未遇到过的一组行为。

  1. 贪婪无人机 (Greedy Drone) : 总是追逐最近的目标。
  2. VICSEK 无人机: 使用仿生群体运动 (像鸟群) 。
  3. 自博弈无人机 (Self-Play Drone) : 使用标准强化学习训练的无人机,行为不可预测。

他们将这些分为三个测试集 (Zoo) ,其中“Unseen Zoo 3”是最难的 (所有类型的随机混合) 。

性能: 零样本协作 (无建模)

研究人员将 HOLA-Drone V2 与标准基线如自博弈 (Self-Play, SP) 和基于种群的训练 (PBT) 进行了比较。

图 2: 无队友建模的自适应组队在不同难度级别下的成功率 (SUC)。红虚线表示专门针对给定未见过的队友库训练的最佳响应基线。

在图 2 中,请看 SUC (成功率)

  • 在简单的环境中 (左侧) ,大多数方法都做得不错。
  • 在超难环境( 4p3e5o , 最右侧) 中,标准自博弈 (SP) 显著下降。
  • HOLA-Drone (V2) (紫色柱) 始终保持较高的成功率。

“红虚线”代表理论最大值 (最佳响应) ——如果你确切知道你在和谁一起玩,并且专门为他们进行了训练。尽管事先不知道伙伴是谁,HOLA-Drone 还是非常接近这个上限。

表 2 提供了详细数据。注意 COL (碰撞率)

表 2: 无队友建模的自适应组队在不同难度环境下的性能对比。H-D 表示 HOLA-Drone (V2)。

HOLA-Drone (V2) 通常能实现较低的碰撞率,同时保持高效率 (较低的 AST - 平均成功步数) ,证明它不仅靠激进取胜;它靠的是更聪明、更安全。

性能: 带队友建模

接下来,他们测试了 NAHT-D。他们将其与 MAPPO (标准 RL) 和不带解码器的 NAHT-D 版本 (消融研究) 进行了比较。

图 3: 带队友建模的自适应组队在不同难度级别下的性能对比。

图 3 的结果产生了一个有趣的见解。虽然 NAHT-D 优于标准 MAPPO,但在最困难的环境 (4p3e5o) 中,复杂的队友建模 (预测确切动作) 有时会适得其反。简化版本 (NAHT-D w/o Dec) 通常表现得稍微好一些。

这表明,在高度混乱、充满障碍的环境中,试图完美预测伙伴的下一步行动可能是“过度思考”了。对队友的概括性理解是有价值的,但过度的复杂性可能会引入噪音。

现实世界案例研究

终极测试是将其部署在物理 Crazyflie 无人机上。以下序列展示了一个“超难”场景 (4 个追踪者,3 个逃跑者,5 个障碍物) 。

图 8: 案例研究: 此示例展示了 NAHT-D 学习者与来自 Unseen Zoo 3 的未见过无人机伙伴在超难环境 4p3e5o 中执行的捕获策略。红色圆圈表示追踪者,黑色方块表示逃跑者。在这个场景中,四个追踪者协同包围所有三个逃跑者 (1),两个追踪者捕获其中一个逃跑者,而另外两个追踪者不断收紧队形 (2),剩下的两个逃跑者随后被逐一成功捕获 (3 & 4)

  1. 第 1 帧: 追踪者 (红色圆圈) 探测到逃跑者群。
  2. 第 2 帧: 它们没有全部冲向一个目标,而是分散开来。两个追踪者锁定一个逃跑者,而其他的维持包围圈。
  3. 第 3 & 4 帧: 它们系统地将剩余的逃跑者逐一逼入死角。

这种协调是自然涌现的。无人机并没有被硬编码去“分散开”;它们学到了在那个环境中与特定伙伴合作时,这是成功的唯一途径。

结论

AT-Drone 论文代表了机器人协作向前迈出的重要一步。通过将基准测试从简单的 2D 网格游戏转移到连续的、基于物理的无人机环境,作者揭示了自适应组队的真正困难。

他们的贡献提供了两条独特的前进道路:

  1. HOLA-Drone V2 表明,通过使用超图博弈论来识别和针对“最坏情况”的伙伴进行训练,我们可以构建对陌生人天生具有鲁棒性的智能体。
  2. NAHT-D 证明了在边缘设备上进行实时队友建模是可行的,允许无人机根据与之飞行的对象调整自己的“个性”。

随着我们展望自主无人机成为灾难急救人员的未来,像 AT-Drone 这样的基准测试将成为这些机器不仅学习为我们要工作,而且学习相互协作的试验场。