想象一下,你要和两个朋友一起把一张沉重的沙发搬上蜿蜒的楼梯。这需要持续不断的沟通: “向左转”、“抬高点”、“等等,手滑了”。现在,想象一下在空中做这件事,不仅要面对风的吹袭,物体仅仅通过松弛的缆绳连接,而且——最要命的是——你们之间不允许说话。

这就是协作空中操控面临的挑战。虽然单架无人机 (微型飞行器或 MAV) 通常难以承载重物,但无人机团队的协作却能举起重得多的负载。通过将多架无人机系在同一个物体上,我们可以将建筑材料或应急物资运送到偏远地区。

然而,协调一群连接在摆动钟摆上的无人机极其困难。目前最先进的解决方案通常是集中式控制 : 一台功能强大的计算机计算每架无人机的物理状态,并精确地告诉它们该做什么。虽然这种方法有效,但其计算成本高昂且脆弱。如果中央计算机发生故障,或通信带宽下降,整个系统就会崩溃。

在 CoRL 2025 上发表的一篇新论文中,研究人员提出了一项突破性进展: 一种使用多智能体强化学习 (MARL) 的完全分散式方法。他们的系统允许无人机团队在不相互通信的情况下,以高精度操控缆索悬挂的负载。

图 1: 多 MAV 举升系统对缆索悬挂负载进行全位姿控制。左: 用于训练分散式外环控制策略的仿真环境。右: 迁移到真实系统上的策略。

集中化的问题

要理解这项研究的重要性,我们首先需要看看其中的物理原理。当多架无人机通过缆绳搬运同一个物体时,它们是动力学耦合的。如果无人机 A 向左移动,它会拉动缆绳,缆绳会牵引负载,进而改变无人机 B 缆绳上的张力。

传统方法,如非线性模型预测控制 (NMPC) ,将整个小队和负载视为一个巨大的机器人。中央“大脑”需要求解复杂的微分方程,以确保无人机 A 不会把无人机 B 拉下来。

这在实验室中行之有效,但在现实世界中存在主要缺陷:

  1. 可扩展性: 随着无人机数量的增加,数学计算的难度呈指数级增长。中央计算机最终会达到计算速度的极限。
  2. 通信: 它要求所有无人机与中央计算机之间进行完美、高速的数据传输。
  3. 脆弱性: 它引入了单点故障风险。

研究人员致力于通过让每架无人机成为独立的思考者来解决这个问题。

解决方案: 分散式 MARL

该团队开发了一种方法,每架无人机都在机载运行自己的控制策略。无人机之间不共享内部状态,也不进行显式协调。相反,它们依赖于通过负载本身进行的隐式通信 。 通过观察负载的移动和旋转方式,一架无人机可以推断出其他无人机在做什么,并相应地调整自己的行为。

架构: 隐式协调

研究人员将该问题建模为分散式部分可观测马尔可夫决策过程 (Dec-POMDP) 。他们使用了一种称为集中式训练,分散式执行 (CTDE) 的训练范式。

图 2: 我们的方法概述。点线表示仅用于训练的组件;虚线表示仅用于真实系统部署的组件;实线表示两者共用的组件。训练过程涉及集中式评论家 (观察特权全局状态) ,直接访问 MAV 状态,以及将转子速度映射到推力的执行器模型。共享的演员网络基于局部观测做出决策,无法访问其他智能体的状态。输出动作 (即加速度和机身角速率) 由基于 INDI 的鲁棒模型低级控制器进行跟踪。

如图 2 所示,该系统包含两个主循环:

  1. 外环 (“大脑”) : 一个通过强化学习 (RL) 训练的神经网络,决定无人机应该做什么 (例如,“向前加速”) 。
  2. 内环 (“反射”) : 一个鲁棒的低级控制器,计算如何旋转电机以实现该加速度,处理像风或缆绳张力这样的即时干扰。

训练与执行

训练期间 (在仿真中) ,系统使用一个“评论家 (Critic) ”网络,它能看到一切——即全局状态。这包括负载、目标以及每一架无人机的精确位置和速度。

公式 1: 全局状态定义

然而,在执行期间 (实际飞行中) ,“演员 (Actor) ” (运行在无人机上的策略) 就像戴了眼罩。它只接收局部观测数据 (\(o_i\)) 。

公式 2: 局部观测定义

观测数据 \(o_i\) 包括:

  • 负载的位置和旋转 (\(p_L, R_L\)) 。
  • 相对于负载的目标状态 (\(x_G\)) 。
  • 无人机自身的状态 (\(x_{M,i}\)) 。
  • 一个标识其自身的“独热 (one-hot) ”向量 (\(e_i\)) ,这样它就知道自己是哪个智能体 (例如,“我是 1 号无人机”) 。

关键在于, 它看不到其他无人机。 它不知道它们在哪里,也不知道它们在想什么。它只知道负载的表现如何。如果负载意外倾斜,神经网络会推断出一定是另一架无人机在拉它,并进行补偿。

秘诀: 动作空间设计

在机器人技术中使用强化学习的最大障碍之一是仿真到现实的差距 (Sim-to-Real gap) 。 在完美仿真中训练出的策略往往在现实世界中失效,因为物理引擎无法完美地代表现实,尤其是在涉及复杂的空气动力学和松弛缆绳时。

为了弥补这一差距,研究人员在动作空间——即神经网络输出的命令——上进行了创新。

典型的方法通常使用:

  • 直接电机推力 (CTBR) : RL 输出精确的电机转速。这很难迁移到现实中,因为它要求仿真模型完美模拟空气动力学。
  • 速度 (Velocity) : RL 告诉无人机飞多快。这通常会导致危险的震荡。

研究人员提出了一种混合动作空间,称为 ACCBR (加速度和机身角速率) 。 策略输出:

  1. 参考线性加速度。
  2. 参考机身角速率 (无人机旋转的速度) 。

这些命令被输入到一个基于增量非线性动态逆 (INDI) 的低级控制器中。

公式 4: 加速度控制器

INDI 控制器是一个强大的反馈回路,它利用加速度计数据即时修正外力——如缆绳的拉扯或一阵风——甚至在高层 RL 策略注意到之前就已完成修正。这使得 RL 智能体可以专注于移动负载的高层策略,而数学控制器则处理保持无人机稳定的复杂物理问题。

它真的有效吗?

研究人员在仿真和现实世界实验中测试了他们的方法,使用了三架定制的四旋翼飞行器,携带 1.4 公斤的负载。

1. 精准跟踪

首先,他们将分散式 RL 方法与集中式 NMPC (数学上的“黄金标准”) 进行了比较。

图 3: 姿态跟踪结果的时间序列,比较了我们的方法和集中式 NMPC 方法 [6]。我们的方法还包括使用 4 架 MAV 的设置。

结果 (图 3) 令人印象深刻。分散式方法 (Ours) 对参考轨迹的跟踪效果几乎与集中式 NMPC 一样好。虽然 NMPC 稍微平滑一些 (因为它提前规划了完整的轨迹) ,但 RL 方法在最终定位精度上与其不相上下。

最重要的是,RL 方法的计算量是恒定的。无论你有 3 架还是 100 架无人机,每架无人机的计算时间都保持在 6 毫秒 。 相比之下,对于 3 架无人机,集中式 NMPC 需要 78 毫秒 , 并且随着智能体数量的增加,速度呈指数级下降。

2. 选择正确的动作

团队通过仿真中的消融研究验证了他们选择 ACCBR 动作空间的正确性。

图 5: 在 Gazebo 环境中测试时比较不同动作空间的位置和姿态误差。表 1: 在 Gazebo 环境中测试时不同动作空间的姿态跟踪 RMSE。

如图 5 所示:

  • ACC (仅加速度) : 无法很好地控制方向 (橙色线) 。
  • VEL (速度) : 导致危险的震荡 (蓝色线) 。
  • ACCBR (绿色线) : 在稳定性和跟踪精度之间取得了最佳平衡。

值得注意的是,其他 RL 论文中常使用的原始推力方法 (CTBR) 在这个复杂场景中甚至无法起飞,因为它无法处理来自缆绳的不可预测的力。

3. 鲁棒性: 黑客攻击与故障

这项研究最令人兴奋的部分是系统的鲁棒性。由于每架无人机都是独立的,系统产生了一种天然的弹性。

场景 A: “被黑”的无人机 研究人员故意“黑”了一架无人机,覆盖了它的 RL 策略,改用手动控制器试图将负载拉离目标。

图 4: 现实世界实验。(A) 异构智能体测试快照…… (B) 在原始负载上增加额外重量的测试快照…… (C) 一架 MAV 在飞行中发生故障的案例快照……

在图 4A (及下方详细数据) 中,我们看到当被黑的无人机 (暂称无人机 X) 向外拉时,另外两架感知到负载偏移的无人机立即反向拉动以保持负载稳定。它们并不知道无人机 X 被黑了;它们只是感觉到负载移动并进行了修正。集中式系统可能会因为与现实不再匹配的模型而相互冲突或变得不稳定。

图 7: 异构智能体场景中负载姿态的时间序列……

场景 B: 飞行中引擎故障 在一项戏剧性的测试中,研究人员在飞行过程中完全切断了一架无人机的电源 (图 4C) 。无人机坠落,变成了挂在负载上的死重。

令人惊讶的是,剩下的两架无人机恢复了过来。它们稳定了负载,并继续控制其位置和偏航。

图 8: 一架 MAV 飞行中故障案例的负载姿态时间序列……

图 8 展示了故障时刻 (紫色线) 。 部分可观测 (分散式) 策略 (蓝线) 迅速恢复。而完全可观测 (集中式) 策略 (红线) 却出人意料地发生了灾难性的失败。因为集中式策略依赖于所有智能体的状态,下坠无人机发出的突发不稳定数据混淆了整个系统,导致其坠毁。

这证明了无知有时是福: 通过忽略队友的具体状态并仅专注于任务 (负载) ,无人机对队友的故障产生了免疫力。

为什么我们不需要看到一切

人们可能会认为看到更多数据总是更好的。然而,训练曲线揭示了关于观测空间的一个有趣见解。

图 6: 完全可观测、部分增强和部分可观测观测空间的训练曲线。

研究人员将看到一切的策略 (完全可观测) 与他们的分散式策略 (部分可观测) 进行了比较。虽然完全可观测策略在最初学习得稍快一些,但分散式策略后来赶上了。这证实了负载姿态充当了充分统计量 。 负载的物理状态包含了关于其他无人机正在做什么的所有必要信息。

结论

这项研究代表了空中机器人技术迈出的重要一步。通过将多智能体强化学习与鲁棒的低级控制器相结合,作者证明了我们不需要昂贵的集中式超级计算机来执行复杂的任务。

主要结论包括:

  1. 分散式行之有效: 无人机仅利用局部信息并通过它们携带的物理对象进行隐式通信,即可协调复杂的任务。
  2. 动作空间至关重要: 选择正确的输出 (加速度 + 机身角速率) 是让仿真中学习到的 AI 在现实世界中工作的桥梁。
  3. 弹性: 分散式集群更难被摧毁。即使智能体失控或完全失效,剩余的智能体也能自然适应。

虽然该系统目前依赖动作捕捉摄像头进行精确的负载定位 (这对户外使用是一个限制) ,但转向机载视觉系统似乎是合乎逻辑的下一步。未来的建筑工地上可能就会出现一群安静、独立的无人机,完美协作,共同建设明天的天际线。