竞技体育长期以来一直是人工智能的试验场。我们已经见证了 AI 征服国际象棋、围棋、德州扑克，甚至是《星际争霸 II》这样复杂的视频游戏。但是，从像素构建的虚拟世界走向机器人的物理世界，难度呈现出了爆发式的增长。在“具身”运动中，智能体不仅需要智胜对手，还必须应对物理学、重力、空气动力学以及现实世界的混乱。

虽然多年来机器人足球一直是一个热门的基准测试项目，但一个新的、高度动态的挑战已经出现: 3v3 多无人机排球 。

在清华大学的一篇引人入胜的新论文中，研究人员提出了分层协同自博弈 (Hierarchical Co-Self-Play, HCSP) , 这是一个教四旋翼无人机团队打排球的框架。这项挑战极其巨大: 无人机必须协调完成三击组合 (传球、二传、扣杀) ，在 3D 空间中机动，用小球拍击打移动的球，并适应对手——而且所有这些都是在没有任何人类专家演示的情况下完成的。

在这篇文章中，我们将深入探讨他们是如何实现这一目标的，拆解其分层架构、三阶段训练流水线，以及无人机自行开发出的令人惊讶的涌现行为。

挑战: 为什么要选无人机排球？

在看解决方案之前，我们需要先了解问题所在。 VolleyBots 测试平台引入了一个按比例缩小的 6m x 12m 场地，网高 2.43m。规则模仿了真实的排球:

两队各三架无人机。
球必须在三次击球内回过网。
同一架无人机不能连续两次击球。
如果球落地或出界，对方得分。

Illustrations of the 3v3 multi-drone volleyball task.

对于标准的强化学习 (RL) 来说，这个任务简直是一场噩梦，原因如下:

耦合挑战: 它既需要高层策略 (谁应该击球？我们应该瞄准哪里？) ，也需要低层控制 (每个旋翼需要多少推力才能以完全正确的角度击球？) 。
长视界 (Long Horizons) : 现在采取的行动 (传球) 可能在几秒钟内都不会产生奖励 (得分) ，这使得 AI 很难学习因果关系。
欠驱动动力学: 四旋翼飞行器是“欠驱动”的，这意味着它们无法同时独立控制所有的自由度。为了向前移动，它们必须倾斜，这会改变附着在上面的球拍的角度。

解决方案: 分层协同自博弈 (HCSP)

为了解决这个问题，研究人员并没有采用“端到端”学习 (即由一个巨大的神经网络尝试做所有事情) 。相反，他们采用了一种分层强化学习 (HRL) 方法。

想象一支职业运动队。你有教练 (高层策略) ，负责布置战术并决定谁做什么。然后你有运动员 (低层技能) ，利用他们的肌肉记忆来实际执行动作。

HCSP 模仿了这种结构:

高层策略 (教练) : 一个事件驱动的策略，观察整个比赛并发布命令。它仅在特定事件发生时 (例如，球被击中或过网) 运行。
低层技能 (运动员) : 一组独特的策略池 (发球、二传、扣杀、悬停) ，以高频率 (50Hz) 控制无人机的电机。

HCSP architecture: an event-driven high-level strategy handles strategic decisions, while multiple low-level skills manage continuous control.

如上图 1 所示，工作流程是循环的。环境将观测结果发送给高层策略。策略选择一项技能 (例如，“无人机 2，执行二传”) ，并将特定参数发送给低层技能网络。然后，该网络向无人机输出连续的电机指令。

三阶段训练流水线

这篇论文的精妙之处在于作者如何训练这个系统。你不能直接把所有东西都扔进模拟器然后祈祷它能工作。研究人员设计了一个三阶段流水线 , 从零开始构建能力。

第一阶段: 低层技能获取

在球员上场比赛之前，他们需要学习基本功。在第一阶段，研究人员针对特定的运动原语训练了独立的神经网络。他们定义了七项核心技能:

Table 1: Description of seven low-level skils acquired in stage I.

过渡问题

孤立地训练这些技能是有风险的。如果你从完美的悬停状态开始训练“扣杀”策略，它在比赛中可能会失败，因为无人机实际上可能是在之前的机动动作后处于快速移动状态。

为了解决这个问题，作者使用了策略链 (Policy Chaining) 。他们按序列训练技能。例如，悬停技能是在扣杀技能刚刚结束的状态下开始训练的。这确保了一项技能的结束与下一项技能的开始相匹配，从而创造了平滑的过渡。

Ablation study on policy chaining in Stage I.

如上图 4(c) 所示，策略链至关重要。没有它 (“Single-policy”线) ，无人机根本无法学会在激进的扣杀动作后稳定下来 (悬停) 。

第二阶段: 高层策略预训练

一旦“运动员” (低层技能) 训练完毕，它们就被冻结。第二阶段的重点转移到训练“教练” (高层策略) 。

高层策略是一个多层感知机 (MLP)，具有三个“头”——对应团队中的每架无人机。它观察比赛的全局状态 (所有无人机和球的位置) ，并输出每架无人机应执行哪项技能。

事件驱动控制与样本重分配

这里的一个关键创新是团队处理时间的方式。在连续游戏中，每 0.02 秒做出一次高层战略决策既低效又充满噪声。相反，高层策略是事件驱动的。它只在以下情况被唤醒:

球拍击中了球。
球越过了网。

这创造了一个“稀疏”的决策过程。为了提高训练效率，研究人员使用了样本重分配 (Sample Reallocation) 。

Illustrations of the high-level strategy pretraining stage (Stage II).

标准的 RL 训练分批次收集数据。由于高层事件很少发生，标准批次将大部分是空的或“无操作”步骤。样本重分配 (如图 2b 所示) 仅提取有意义的转换时刻，并将等待期间累积的奖励重新分配给那个单一决策。

高层策略的奖励函数很简单: 赢得比赛。

\[ r _ { j , t } ^ { H } = c _ { 1 } \times \mathrm { w i n \_ o r \_ l o s e } _ { j } + c _ { 2 } \times \mathrm { r a c k e t \_ h i t \_ b a l l } _ { j } , \]

这种稀疏奖励 (公式 1) 就足够了，因为低层技能已经知道如何击球；高层策略只需要学习何时以及在哪里击球。

通过使用基于种群的训练 (Population-Based Training, PBT) , 具体来说是一种称为 PSRO (Policy-Space Response Oracles) 的方法，策略通过与以前版本的自己对抗来进化。

Win-rate heatmap illustrating the evolution of high-level strategy training in Stage II.

上面的热力图可视化了这一进化过程。随着训练的进行 (从策略 1 到 5) ，较新的策略始终击败较旧的策略 (下三角中的红色块) 。

第三阶段: 协同自博弈 (Co-Self-Play)

到了第二阶段结束时，团队拥有不错的技能和良好的策略。但有一个问题: “运动员”并没有改进他们的技术来配合“教练”的新战术。

第三阶段是协同自博弈发生的地方。研究人员解冻低层技能，并同时训练两个层级。

Illustration of the co-self-play stage (Stage III).

这在概念上很难。如果低层技能变化太大，高层策略会感到困惑。如果高层策略变化太快，低层技能将没有时间适应。

为了稳定这一过程，他们引入了两个关键机制:

共享高层奖励: 在第一阶段，技能是通过工程奖励 (例如，“将球击打到坐标 X”) 训练的。在第三阶段，低层技能放弃了这些特定目标，转而采用高层目标: 赢得比赛。 这允许技能以工程师未曾预料到的方式进化。
KL 散度惩罚: 为了防止技能忘记基本功，如果新策略偏离原始的第一阶段策略太远，就会受到惩罚。 \[ \begin{array} { r } { r _ { i , t } ^ { L } = r _ { j , t } ^ { H } - c _ { 3 } \times K L ( \pi _ { i } ^ { L } | | \pi _ { i , r e f } ^ { L } ) . } \end{array} \] 如公式 2 所示，低层奖励 (\(r^L\)) 结合了团队的胜利奖励 (\(r^H\)) 和偏离参考技能 (\(\pi_{ref}\)) 过远的惩罚。

涌现行为

第三阶段协同自博弈最令人兴奋的结果是出现了从未明确编程的策略。

“二次球” (Dump Shot)

在第二阶段，团队严格遵循“传球 -> 二传 -> 扣杀”的结构，因为这是技能定义的方式。然而，在第三阶段，“二传手”无人机意识到，如果对手位置不好，它可以直接将球击过网，而不是传给队友。

Sequence of six temporally sampled frames illustrating an emergent team behavior.

在图 5 中，你可以看到这种“二次球”的动作 (帧 e) 。这种行为纯粹源于获胜的欲望，证明了分层结构并没有将智能体锁定在僵化的模式中。

前空翻扣杀

也许更令人印象深刻的是一种物理机动动作。在训练扣杀技能期间，无人机发现执行前空翻可以让它们以明显更高的速度击球。

Sequence of six frames, sampled sequentially in time from the start to the completion of the front-flip attack.

这种复杂的杂技动作 (图 9) 利用了无人机的角动量来更猛烈地击球——这是 AI 通过试错 (策略链) 完全自行发现的技术。

结果与性能

那么，HCSP 到底有多好？研究人员将其与几个基线进行了比较:

SP / FSP / PSRO: 各种扁平化 (非分层) 自博弈方法。
Bot: 一个手工设计的基于规则的分层智能体。

Experiment results. (a) HCSP performance against baseline policies.

图 4(a) 中的结果令人震惊。HCSP (红条) 在对抗所有基线时取得了 82.9% 的平均胜率 。它彻底击败了非分层方法，并且轻松击败了基于规则的 Bot。

此外，“协同自博弈” (第三阶段) 被证明是必不可少的。当对比最终策略与第二阶段策略 (技能被冻结) 时，第三阶段策略赢得了 71.5% 的比赛。

Table 2: Win rates of Stage II policy and Stage III policy against different opponents.

表 2 突出了这一优势。在对抗“纳什平均”对手 (最佳策略的混合体) 时，第二阶段策略仅赢了 31.4%，而第三阶段策略达到了近 50%——基本上达到了与所有智能体的理论最佳组合势均力敌的水平。

从仿真到现实

最后，机器人技术中的一个主要问题总是“Sim-to-Real (仿真到现实) 差距”。这是否只在模拟器中有效？

虽然完整的 3v3 比赛尚未在物理环境中进行 (受限于空间和安全限制) ，但作者在真实硬件上验证了低层技能。他们为一架无人机配备了羽毛球拍，并测试了发球和单人颠球技能。

Real-world experiments.

如图 12 所示，无人机在现实世界中成功追踪并击中了球。在单人颠球任务 (图 12c/e) 中，无人机设法连续击球 29 次使其保持在空中，证明了在仿真中学到的控制策略对于现实世界来说足够鲁棒。

结论

论文“Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning”代表了具身 AI 向前迈出的重要一步。它表明，通过分解复杂问题 (分层) ，按顺序训练各部分 (三阶段流水线) ，然后允许它们共同进化 (协同自博弈) ，我们可以实现远超传统方法的性能。

“二次球”和“前空翻扣杀”的涌现有力地提醒我们: 当我们给予 AI 正确的结构和正确的激励时，它往往会找到令我们惊讶的解决方案。随着硬件的改进，我们可能很快就会看到机器人体育联盟，它们不仅仅是新奇的事物，而是真正的运动策略展示。

挑战: 为什么要选无人机排球？#

解决方案: 分层协同自博弈 (HCSP)#

三阶段训练流水线#

第一阶段: 低层技能获取#

过渡问题#

第二阶段: 高层策略预训练#

事件驱动控制与样本重分配#

第三阶段: 协同自博弈 (Co-Self-Play)#

涌现行为#

“二次球” (Dump Shot)#

前空翻扣杀#

结果与性能#

从仿真到现实#

结论#