分而治之：分层学习如何赋能机器人蜂群穿越狭窄通道

引言

想象一下，一支机器人团队被部署到倒塌的建筑物中执行搜救任务。为了确保安全并最大化传感器覆盖范围，它们需要以特定的编队移动——也许是形成一个圆形防御圈，保护位于中心的人类救援人员。在开阔的中庭里，一切运作完美。但随后，团队遇到了一条狭窄的走廊或一座部分受阻的桥梁。

这在多机器人系统中引入了一个根本性的冲突: 协同编队的需求与环境适应性的需求之间的矛盾。如果机器人死板地坚持圆形队形，它们就无法通过这扇门。如果它们完全打散队形，就会失去保护性的协同作用。

理想的解决方案介于两者之间: 能够动态地分裂成更小的分队 (子群划分) ，挤过瓶颈区域 (自适应编队) ，并在另一侧重新集结。

在这篇文章中，我们将深入探讨一篇题为 “Subteaming and Adaptive Formation Control for Coordinated Multi-Robot Navigation” (用于多机器人协同导航的子群划分与自适应编队控制) 的研究论文。作者提出了一个名为 STAF (SubTeaming and Adaptive Formation，子群划分与自适应编队) 的新颖框架。该方法超越了标准的避障技术，引入了一个分层学习系统，赋予机器人蜂群智能，使其知道何时分散、如何像橡皮筋一样调整形状以及何时重新合并。

图 1: 当一个呈圆形编队的机器人团队遇到一座对于整个团队同时通过来说太窄的桥梁时。机器人必须分成子队，调整编队以通过桥梁，并在通过后恢复全队队形。

核心问题: 僵化与混乱

要理解这项研究的重要性，我们需要看看以往方法的局限性。

刚性编队: 传统的“领航者-跟随者 (Leader-Follower) ”方法指定一个机器人为领导者。其他机器人保持固定的距离和角度。这种方法计算效率高，但很脆弱。如果领导者穿过一个狭窄的缺口，位于“侧翼”的跟随者可能会撞到墙壁。
纯去中心化: 像去中心化图神经网络 (DGNN) 这样的方法将每个机器人视为避免碰撞的独立个体。虽然它们可以在复杂的空间中导航，但往往无法保持团队的战术形状。“团队”变成了一团混乱的点云。
任务分配: 现有的子群划分算法侧重于分配任务 (例如，“你们三个去 A 房间，你们两个去 B 房间”) 。它们很少涉及实际导航这些子队通过物理瓶颈所需的运动控制 。

STAF 通过将机器人团队视为一个流体实体来填补这些空白。它使用基于图的表示法，其中机器人是节点，它们的空间关系是边。通过在这个图上进行学习，系统可以在保持团队结构的同时，允许必要的灵活性以在环境中生存。

解决方案: 分层学习框架

研究人员将 STAF 构建为一个三层层级结构。这种职责分离至关重要，因为它允许系统在不同层级解决不同类型的问题——战略、战术和操作。

图 2: STAF 概览，它在一个统一的分层学习框架内集成了三个层级的机器人学习，以实现多机器人协同导航。

如上面的架构概览所示，系统的流程从高层决策向下流动到个体运动控制。让我们分解每个层级。

第 1 层: 高层深度图切割 (战略家)

顶层负责子群划分 (Subteaming) 。当整个团队无法继续前进时，这一层决定如何拆分团队。它不关心车轮速度，它关心的是图的拓扑结构。

研究人员将机器人团队建模为一个图 $G$。他们使用图注意力网络 (GAT) 来分析团队的状态。GAT 会查看每个机器人的位置、目标以及与障碍物的距离。然后，它计算出一个“嵌入 (embedding) ”——即机器人上下文的压缩数值摘要。

利用这些嵌入，系统执行深度图切割 。这实际上是一个分类任务，网络分配机器人 $i$ 属于子队 $j$ 的概率。

这一层的“大脑”使用复合损失函数进行训练，旨在平衡三个相互竞争的目标:

邻接性 (Adjacency) : 物理上彼此靠近的机器人应该被分在同一个子队中。
平衡性 (Balance) : 我们不希望出现一个子队有 9 个机器人，而另一个只有 1 个机器人的情况。拆分应该是大致均等的。
目标距离 (Goal Distance) : 子队的组建方式应有助于它们高效地向各自的子目标移动。

这一逻辑的数学公式优雅地体现在以下方程中:

$()\n\\mathcal { L } _ { s t } = \\overbrace { \\mathbf { Y } ( 1 - \\mathbf { Y } ) } ^ { \\mathrm { S u b t e a m ~ a d j a c e n c y } } + \\overbrace { \\sum _ { j = 1 } ^ { m } \\left( \\sum _ { i = 1 } ^ { n } y _ { i , j } - \\frac { n } { m } \\right) } ^ { \\mathrm { S u b t e a m ~ a d j a c e n c y } } + \\overbrace { \\sum _ { j = 1 } ^ { m } \\left| \\frac { \\sum _ { i = 1 } ^ { n } y _ { i , j } \\mathbf { p } _ { i } } { \\sum _ { i = 1 } ^ { n } y _ { i , j } } - \\frac { \\sum _ { i = 1 } ^ { n } y _ { i , j } \\mathbf { g } _ { i } } { \\sum _ { i = 1 } ^ { n } y _ { i , j } } \\right| _ { 2 } } ^ { = \\mathrm { S u b t e a m ~ a d j a c e n c y } }\n()$

*注意: 在上图中，尽管标注中有重复的标签，但第二项对应的是子群平衡 (Subteam Balance) , 第三项对应的是子群-目标距离 (Subteam-Goals Distance) 。 *

研究人员通过消融实验验证了这三个组成部分。他们逐一移除每一项，观察会发生什么。

图 7: 分析子群划分组成部分影响的消融研究: 子群平衡 (ST-B) 、子群邻接 (ST-A) 和子群-目标距离 (ST-G) 。

观察图 7 中的消融结果:

无平衡 (d): 团队可能会分裂成 1 对多的布局。
无邻接 (e): 子队分散且交错，使得物理上的分离在不发生碰撞的情况下变得不可能。
无目标距离 (f): 子队虽然形成了有效的聚类，但没有正确朝向它们需要去的地方。

第 2 层: 中间层自适应编队 (协调员)

一旦定义了子队，它们就需要移动。这一层处理编队适应 。

在完美的世界里，编队是一个刚性的形状。在 STAF 中，编队是使用弹簧-阻尼系统建模的。

弹簧: 试图保持机器人处于期望的距离 (理想的编队形状) 。如果它们太近，弹簧会将它们推开；如果太远，弹簧会将它们拉近。
阻尼: 平滑运动，使机器人不会剧烈震荡或抖动。

至关重要的是，这个基于物理的模型被集成到了一个图神经网络 (GNN) 中。GNN 聚合来自子队中所有队友的信息。它生成一个嵌入，编码了“相对于我的团队我在哪里，以及我们的编队目前受到墙壁多大的‘挤压’？”

这使得编队具有弹性。当进入狭窄走廊时，虚拟“弹簧”被压缩，允许编队变窄。一旦回到开阔空间，弹簧会将团队扩展回原来的形状。

第 3 层: 低层个体控制 (飞行员)

底层是实际执行操作的地方。这是一个强化学习 (RL) 策略。

它接收高层上下文 (子队分配) 和中间层上下文 (编队压力和相对位置) ，并输出直接的速度指令 ($v_x, v_y$) 。

RL 智能体基于以下几点获得奖励:

到达目标。
避开障碍物。
维持编队 (最小化虚拟弹簧上的压力) 。

这种层级结构使系统具有鲁棒性。高层规划器不需要了解避障细节，低层控制器也不需要担心全局团队战略。

实验与结果

为了测试 STAF，研究人员在 Gazebo (标准的机器人模拟器) 和 Unity (用于高保真环境) 以及物理硬件上设置了具有挑战性的场景。

仿真性能

他们将 STAF 与两个主要基线进行了比较:

L&F (领航者与跟随者) : 一种标准的刚性编队方法。
DGNN (去中心化 GNN) : 一种现代的基于学习的方法，没有显式的编队控制。

结果非常鲜明。在狭窄走廊场景中, L&F 几乎完全失败 , 因为刚性编队无法通过。 DGNN 虽然可以导航，但无法保持任何连贯的编队。

STAF 在这些场景中实现了 100% 的成功率 。它成功地拆分了团队，通过了瓶颈，并重新集结。

图 3: Gazebo 仿真中关于子群划分和自适应编队的定性结果。

在图 3 中，你可以看到整个过程。红色机器人 (子队 1) 与蓝色机器人 (子队 2) 分离。它们按顺序穿过走廊，然后合并回完整的圆形、楔形或直线队形。

可视化轨迹可以清楚地说明这种运动是多么流畅:

图 4: 十个机器人以不同编队穿越狭窄走廊的运动轨迹。在图 4(a) 到 4(c) 中，第一个子图显示了团队分裂、自适应编队导航和重新集结期间的两个子队 (红色和蓝色) 。第二和第三个子图显示了子队的轨迹，每个机器人的路径颜色各异，灰色虚线表示障碍物。

在图 4(a) 中，观察“颈缩 (necking) ”效应。圆形编队拉长成椭圆形以挤过缺口——这就是弹簧-阻尼系统的作用。

定量成功

下表详细列出了子队的表现。指标 CFI (上下文编队完整性) 衡量机器人保持队形的程度。百分比越高意味着对编队的遵守程度越好。

表 2: ROS1 Gazebo 仿真中两个子队的定量结果。

即使在严格的阈值 ($\sigma < 0.01$) 下，子队在快速移动时仍保持了较高的编队完整性 (大多 >70-80%) 。这证明编队的弹性并没有导致队形破碎；这是一种受控的变形。

鲁棒性与泛化能力

基于学习的机器人技术中的一个关键问题是: “这是否只适用于你训练的特定设置？”

作者使用不同的团队规模 (4 到 8 个机器人) 和不同的拆分配置 (2、3 或 4 个子队) 测试了 STAF。

$图 8: 定量结果表明 STAF 对不同团队规模具有泛化能力。图 (a)-(d) 显示了 4 到 8 个机器人在圆形编队下穿越狭窄走廊的轨迹。图 (e) 展示了不同团队规模和 \$\\sigma\$ 值下 CFI 值的变化。$

如图 8 所示，无论团队规模如何，轨迹都保持平滑。图 9 (如下) 进一步证明，图切割算法足够灵活，可以处理多路拆分，而不仅仅是二分。

图 9: 定性结果表明 STAF 对不同数量的子队具有泛化能力。

现实世界部署

最后，团队将代码从模拟器转移到了物理“Limo”机器人上。这些机器人通过 Wi-Fi 通信并使用板载计算机。

图 6: 使用不同数量运行 ROS2 并通过 Wi-Fi 通信的 Limo 机器人在室内狭窄空间和室外不平坦地形中的真实实验定性结果。

真实世界测试 (图 6) 涵盖了室内走廊和室外不平坦的地形 (雪地/草地) 。由于传感器噪声和车轮打滑 (特别是在雪地上) ，向真实世界的迁移通常非常困难，但 STAF 保持了编队并成功完成了子群划分。

结论与未来影响

STAF 框架代表了群体机器人技术向前迈出的重要一步。通过结合图切割的离散逻辑 (用于决策) 和强化学习的连续控制 (用于运动) ，它解决了困扰刚性编队控制多年的瓶颈导航难题。

其影响不仅仅在于让机器人通过门。这种“分而治之”的能力对于以下领域至关重要:

搜救: 团队分散搜索不同房间并重新集结。
军事/国防: 无人机调整编队以躲避防空措施。
物流: 仓库机器人在狭窄通道中进行协调。

作者指出，目前的高层决策是中心化的 (一个大脑决定拆分) 。未来的工作旨在将其去中心化，允许机器人使用共识算法自行协商拆分。但就目前而言，STAF 为复杂环境中的协同机动挑战提供了一个稳健、优雅的答案。

引言#

核心问题: 僵化与混乱#

解决方案: 分层学习框架#

第 1 层: 高层深度图切割 (战略家)#

第 2 层: 中间层自适应编队 (协调员)#

第 3 层: 低层个体控制 (飞行员)#

实验与结果#

仿真性能#

定量成功#

鲁棒性与泛化能力#

现实世界部署#

结论与未来影响#

引言