引言
想象一下,一支机器人团队被部署到倒塌的建筑物中执行搜救任务。为了确保安全并最大化传感器覆盖范围,它们需要以特定的编队移动——也许是形成一个圆形防御圈,保护位于中心的人类救援人员。在开阔的中庭里,一切运作完美。但随后,团队遇到了一条狭窄的走廊或一座部分受阻的桥梁。
这在多机器人系统中引入了一个根本性的冲突: 协同编队的需求与环境适应性的需求之间的矛盾。如果机器人死板地坚持圆形队形,它们就无法通过这扇门。如果它们完全打散队形,就会失去保护性的协同作用。
理想的解决方案介于两者之间: 能够动态地分裂成更小的分队 (子群划分) ,挤过瓶颈区域 (自适应编队) ,并在另一侧重新集结。
在这篇文章中,我们将深入探讨一篇题为 “Subteaming and Adaptive Formation Control for Coordinated Multi-Robot Navigation” (用于多机器人协同导航的子群划分与自适应编队控制) 的研究论文。作者提出了一个名为 STAF (SubTeaming and Adaptive Formation,子群划分与自适应编队) 的新颖框架。该方法超越了标准的避障技术,引入了一个分层学习系统,赋予机器人蜂群智能,使其知道何时分散、如何像橡皮筋一样调整形状以及何时重新合并。

核心问题: 僵化与混乱
要理解这项研究的重要性,我们需要看看以往方法的局限性。
- 刚性编队: 传统的“领航者-跟随者 (Leader-Follower) ”方法指定一个机器人为领导者。其他机器人保持固定的距离和角度。这种方法计算效率高,但很脆弱。如果领导者穿过一个狭窄的缺口,位于“侧翼”的跟随者可能会撞到墙壁。
- 纯去中心化: 像去中心化图神经网络 (DGNN) 这样的方法将每个机器人视为避免碰撞的独立个体。虽然它们可以在复杂的空间中导航,但往往无法保持团队的战术形状。“团队”变成了一团混乱的点云。
- 任务分配: 现有的子群划分算法侧重于分配任务 (例如,“你们三个去 A 房间,你们两个去 B 房间”) 。它们很少涉及实际导航这些子队通过物理瓶颈所需的运动控制 。
STAF 通过将机器人团队视为一个流体实体来填补这些空白。它使用基于图的表示法,其中机器人是节点,它们的空间关系是边。通过在这个图上进行学习,系统可以在保持团队结构的同时,允许必要的灵活性以在环境中生存。
解决方案: 分层学习框架
研究人员将 STAF 构建为一个三层层级结构。这种职责分离至关重要,因为它允许系统在不同层级解决不同类型的问题——战略、战术和操作。

如上面的架构概览所示,系统的流程从高层决策向下流动到个体运动控制。让我们分解每个层级。
第 1 层: 高层深度图切割 (战略家)
顶层负责子群划分 (Subteaming) 。 当整个团队无法继续前进时,这一层决定如何拆分团队。它不关心车轮速度,它关心的是图的拓扑结构。
研究人员将机器人团队建模为一个图 \(G\)。他们使用图注意力网络 (GAT) 来分析团队的状态。GAT 会查看每个机器人的位置、目标以及与障碍物的距离。然后,它计算出一个“嵌入 (embedding) ”——即机器人上下文的压缩数值摘要。
利用这些嵌入,系统执行深度图切割 。 这实际上是一个分类任务,网络分配机器人 \(i\) 属于子队 \(j\) 的概率。
这一层的“大脑”使用复合损失函数进行训练,旨在平衡三个相互竞争的目标:
- 邻接性 (Adjacency) : 物理上彼此靠近的机器人应该被分在同一个子队中。
- 平衡性 (Balance) : 我们不希望出现一个子队有 9 个机器人,而另一个只有 1 个机器人的情况。拆分应该是大致均等的。
- 目标距离 (Goal Distance) : 子队的组建方式应有助于它们高效地向各自的子目标移动。
这一逻辑的数学公式优雅地体现在以下方程中:

*注意: 在上图中,尽管标注中有重复的标签,但第二项对应的是子群平衡 (Subteam Balance) , 第三项对应的是子群-目标距离 (Subteam-Goals Distance) 。 *
研究人员通过消融实验验证了这三个组成部分。他们逐一移除每一项,观察会发生什么。

观察图 7 中的消融结果:
- 无平衡 (d): 团队可能会分裂成 1 对多的布局。
- 无邻接 (e): 子队分散且交错,使得物理上的分离在不发生碰撞的情况下变得不可能。
- 无目标距离 (f): 子队虽然形成了有效的聚类,但没有正确朝向它们需要去的地方。
第 2 层: 中间层自适应编队 (协调员)
一旦定义了子队,它们就需要移动。这一层处理编队适应 。
在完美的世界里,编队是一个刚性的形状。在 STAF 中,编队是使用弹簧-阻尼系统建模的。
- 弹簧: 试图保持机器人处于期望的距离 (理想的编队形状) 。如果它们太近,弹簧会将它们推开;如果太远,弹簧会将它们拉近。
- 阻尼: 平滑运动,使机器人不会剧烈震荡或抖动。
至关重要的是,这个基于物理的模型被集成到了一个图神经网络 (GNN) 中。GNN 聚合来自子队中所有队友的信息。它生成一个嵌入,编码了“相对于我的团队我在哪里,以及我们的编队目前受到墙壁多大的‘挤压’?”
这使得编队具有弹性。当进入狭窄走廊时,虚拟“弹簧”被压缩,允许编队变窄。一旦回到开阔空间,弹簧会将团队扩展回原来的形状。
第 3 层: 低层个体控制 (飞行员)
底层是实际执行操作的地方。这是一个强化学习 (RL) 策略。
它接收高层上下文 (子队分配) 和中间层上下文 (编队压力和相对位置) ,并输出直接的速度指令 (\(v_x, v_y\)) 。
RL 智能体基于以下几点获得奖励:
- 到达目标。
- 避开障碍物。
- 维持编队 (最小化虚拟弹簧上的压力) 。
这种层级结构使系统具有鲁棒性。高层规划器不需要了解避障细节,低层控制器也不需要担心全局团队战略。
实验与结果
为了测试 STAF,研究人员在 Gazebo (标准的机器人模拟器) 和 Unity (用于高保真环境) 以及物理硬件上设置了具有挑战性的场景。
仿真性能
他们将 STAF 与两个主要基线进行了比较:
- L&F (领航者与跟随者) : 一种标准的刚性编队方法。
- DGNN (去中心化 GNN) : 一种现代的基于学习的方法,没有显式的编队控制。
结果非常鲜明。在狭窄走廊场景中, L&F 几乎完全失败 , 因为刚性编队无法通过。 DGNN 虽然可以导航,但无法保持任何连贯的编队。
STAF 在这些场景中实现了 100% 的成功率 。 它成功地拆分了团队,通过了瓶颈,并重新集结。

在图 3 中,你可以看到整个过程。红色机器人 (子队 1) 与蓝色机器人 (子队 2) 分离。它们按顺序穿过走廊,然后合并回完整的圆形、楔形或直线队形。
可视化轨迹可以清楚地说明这种运动是多么流畅:

在图 4(a) 中,观察“颈缩 (necking) ”效应。圆形编队拉长成椭圆形以挤过缺口——这就是弹簧-阻尼系统的作用。
定量成功
下表详细列出了子队的表现。指标 CFI (上下文编队完整性) 衡量机器人保持队形的程度。百分比越高意味着对编队的遵守程度越好。

即使在严格的阈值 (\(\sigma < 0.01\)) 下,子队在快速移动时仍保持了较高的编队完整性 (大多 >70-80%) 。这证明编队的弹性并没有导致队形破碎;这是一种受控的变形。
鲁棒性与泛化能力
基于学习的机器人技术中的一个关键问题是: “这是否只适用于你训练的特定设置?”
作者使用不同的团队规模 (4 到 8 个机器人) 和不同的拆分配置 (2、3 或 4 个子队) 测试了 STAF。

如图 8 所示,无论团队规模如何,轨迹都保持平滑。图 9 (如下) 进一步证明,图切割算法足够灵活,可以处理多路拆分,而不仅仅是二分。

现实世界部署
最后,团队将代码从模拟器转移到了物理“Limo”机器人上。这些机器人通过 Wi-Fi 通信并使用板载计算机。

真实世界测试 (图 6) 涵盖了室内走廊和室外不平坦的地形 (雪地/草地) 。由于传感器噪声和车轮打滑 (特别是在雪地上) ,向真实世界的迁移通常非常困难,但 STAF 保持了编队并成功完成了子群划分。
结论与未来影响
STAF 框架代表了群体机器人技术向前迈出的重要一步。通过结合图切割的离散逻辑 (用于决策) 和强化学习的连续控制 (用于运动) ,它解决了困扰刚性编队控制多年的瓶颈导航难题。
其影响不仅仅在于让机器人通过门。这种“分而治之”的能力对于以下领域至关重要:
- 搜救: 团队分散搜索不同房间并重新集结。
- 军事/国防: 无人机调整编队以躲避防空措施。
- 物流: 仓库机器人在狭窄通道中进行协调。
作者指出,目前的高层决策是中心化的 (一个大脑决定拆分) 。未来的工作旨在将其去中心化,允许机器人使用共识算法自行协商拆分。但就目前而言,STAF 为复杂环境中的协同机动挑战提供了一个稳健、优雅的答案。
](https://deep-paper.org/en/paper/2509.16412/images/cover.png)