机器人足球长期以来一直被视为人工智能和机器人领域的“宏伟挑战”。自 90 年代 RoboCup 诞生以来,人们的梦想一直是组建一支能够击败人类世界杯冠军的机器人球队。虽然我们尚未完全达成这一目标,但足球的复杂性使其成为现代机器人技术的完美试验场。它结合了机器人技术中最困难的所有要素: 既需要敏捷的、分秒必争的运动控制 (平衡、射门) ,又需要高层的认知规划 (战术、团队合作、预判) 。
对于像四足机器人这样的腿足式机器人来说,这一挑战是双倍的。与轮式机器人不同,四足机器人必须时刻管理自身的稳定性。如果四足机器人过度思考战术而忽略了脚下的控制,它就会摔倒。如果它完全专注于行走,就会错过传球机会。
在一篇引人入胜的新论文《Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams》中,来自加州大学伯克利分校、清华大学和浙江大学的研究人员提出了一种能够弥合这一差距的解决方案。他们开发了一个分层多智能体强化学习 (MARL) 框架 , 使四足机器人能够从零开始学习复杂的足球技能和战术。
在这篇深度文章中,我们将探讨他们如何将“身体”与“大脑”分离,如何通过对抗训练演化出策略,以及如何在没有外部动作捕捉系统的情况下,将这种纯粹习得的行为部署到真实的物理机器人上。
核心挑战: 肌肉与大脑
为什么机器人足球如此困难?这本质上要求同时解决两个截然不同的数学问题:
- 高频控制 (肌肉) : 机器人需要每秒调整关节角度 50 到 200 次,以保持平衡、在不丢球的情况下运球,并精准射门。这是一个具有复杂物理特性的连续控制问题。
- 长时程规划 (大脑) : 机器人需要观察球场,看清队友和对手的位置,并决定是传球、射门还是防守。这是一个需要预测未来的低频战术问题。
以往的尝试通常会在其中一方面做出妥协。它们要么使用硬编码的规则来制定策略 (这种方式很脆弱) ,要么只关注不需要团队合作的 1v1 比赛。为了在真实硬件上解决 2v1 和 2v2 比赛,研究人员采用了一种分层架构 。
解决方案: 分层框架
研究人员的方法模仿了人类进行体育运动的方式。当一名足球运动员决定“向前运球”时,他们并不会有意识地思考每一步脚踝的角度。他们的大脑发出一个高层指令 (“跑到那里”) ,而他们的肌肉记忆则负责处理具体的力学动作。
如下图 Figure 1 所示,研究人员将策略分为两个层级:
- \(\pi_{high}\) (高层策略) : “队长”。它观察比赛状态并发布命令。
- \(\pi_{low}\) (低层技能) : “运动员”。它接收命令并计算如何移动腿部。

这种分离使得研究人员可以先训练稳健的运动技能,然后再在此基础上训练策略。
第 1 层: 技能库 (低层策略)
该系统的基础是低层技能库 。 与其试图一次性学会所有东西,不如先教机器人三个截然不同的原语: 行走 (Walk)、运球 (Dribble) 和 射门 (Kick) 。
这些技能是使用近端策略优化 (PPO) 训练的,这是一种流行的强化学习 (RL) 算法。低层策略接收机器人的本体感觉 (关节角度、身体朝向) 以及球相对于机器人的位置。它输出机器人 12 个关节的目标角度。
这里的一个关键创新是在训练中使用了特权信息 (Privileged Information) 。 在模拟环境中,“老师”知道一切——地面的摩擦力、球的确切质量和外力。机器人的策略被训练为利用过去运动的历史记录来估计这些隐藏值。这使得策略足够稳健,能够应对真实世界中地面摩擦力变化和传感器噪声等问题。

如上图 Figure 2 (a) 所示,低层架构为执行动作的“行动者 (Actor)”创建了一个特定的神经网络。结果是形成了一个稳定且可重用的技能库。
- 行走: 全向行走。
- 运球: 机器人学习控制速度,在移动时保持球贴近身体。
- 射门: 机器人学习接近球并向目标发出高速击球。
这在现实中有效吗?是的。 Figure 8 展示了这些习得技能在 Unitree Go1 机器人上的部署情况。机器人可以在行走、精准运球和强力射门之间流畅切换。

第 2 层: 战术家 (高层策略)
一旦机器人知道如何移动,它们就需要学习做什么。这就是高层策略的工作。
高层策略以较低的频率运行 (5 Hz,即每秒 5 次决策) 。它观察全局比赛状态: 球在哪里、球门在哪里,以及队友和对手的相对位置。
为了提高学习效率,研究人员对动作空间进行了离散化。高层大脑不输出精确的连续速度,而是从选项菜单中进行选择,如 Table 1 所示。

例如,策略策略可能会输出 (Dribble, Down-Right) (运球,右下) 。这个命令被传递给低层的 Dribble 策略,后者随后计算出将机器人和球向右下方移动所需的腿部动作。
至关重要的是,高层策略使用了一个门控循环单元 (GRU) , 这是一种记忆网络 (如 Figure 2b 所示) 。这使得机器人能够记住刚刚过去的事情,这对于理解动量和预测对手的跑动方向至关重要。
训练大脑: 虚拟自博弈 (FSP)
训练单个机器人追球很容易。训练一支机器人球队去击败另一支球队却异常困难。如果你只是让两个 AI 智能体互相对抗 (自博弈) ,它们往往会陷入一种称为“循环制约”的陷阱。智能体 A 学会了一个击败智能体 B 的技巧。智能体 B 学会了一个特定的反制手段。智能体 A 又学会了反制的反制。它们本质上是在原地转圈,而从未学到通用的稳健策略。
为了解决这个问题,研究人员利用了虚拟自博弈 (FSP) 。

如 Figure 3 所示,FSP 不仅仅让机器人针对对手的当前版本进行训练。它将对手在不同训练阶段的快照保存到一个“策略池 (Policy Population)”中。
- 进攻方训练: 进攻方与当前防守方以及旧版本防守方的混合体进行对抗。这确保了进攻方在学习击败高级策略的同时,不会忘记如何击败基础策略。
- 防守方训练: 一旦进攻方变得足够好 (超过胜率阈值) ,它就会被冻结并添加到池中。然后防守方针对这个新的进攻方池进行训练。
这种共同进化的压力迫使智能体学习通用策略。进攻方从“只管射门”进化到“绕球过人”再到“传球给队友”。防守方从“追球”进化到“拦截传球”再到“盯防对手”。
分层真的重要吗?消融实验
你可能会问: “为什么要构建这个复杂的两层系统?为什么不直接将摄像头数据输入到一个巨大的神经网络中,告诉它去赢?”
研究人员测试了这种“端到端”的方法,结果显而易见。没有分层结构,问题就太复杂了。机器人在试图理解比分的同时,连基本的行走都学不好。

Figure 4 描绘了一幅鲜明的画面。
- 图 (a): 白色虚线显示了“End2End” (端到端) 策略。机器人几乎无法控制球的移动,导致轨迹混乱 (或者机器人跑出界外) 。红线显示了分层策略 (“Ours”) ,机器人果断地将球驱向球门。
- 图 (b): 训练曲线显示分层方法 (紫色线) 很快达到了高性能。端到端方法 (以及技能较少的版本) 很难学到东西。
涌现的策略: 2v1 比赛
这项研究最令人兴奋的结果是团队合作的涌现。研究人员设置了一个 2v1 场景: 两名进攻者对阵一名防守者。
机器人并没有因为传球而获得显式奖励 。 奖励函数只关心进球和获胜。然而,机器人自己学到了传球是击败防守者最有效的方式。
在 Figure 6 所示的模拟分析中,我们可以看到进攻者“大脑”的运作。

- 场景 (a): 进攻方看到防守方逼近。它意识到“单刀直入 (Solo Run)”有风险。它选择传球 (Pass) (蓝色箭头) 给队友。
- 场景 (c): 防守方位置不同,可能封堵了传球路线。进攻方决定控球并向球门进行单刀直入 。
这表明 FSP 训练产生了一种多模态策略——一个能够根据具体情况调整策略的大脑。
跨越鸿沟: 真实世界部署
许多强化学习论文止步于模拟。而这一篇走进了野外 (或者至少是足球场) 。
部署到真实世界很困难,因为真实的传感器充满噪声。为了处理这个问题,团队使用了完全去中心化的系统。没有中央计算机告诉机器人该做什么。每个机器人都携带一个激光雷达 (LiDAR, Livox MID-360) 和一台 NVIDIA Orin NX 计算机。

如 Figure 13 所示,机器人使用激光雷达进行定位 (知道自己在球场上的位置) 和物体检测 (寻找球和人) 。它计算自己的动作,并仅通过 Wi-Fi 与队友共享极少量的数据 (如“我在这里”) 以协助协调。
在现实中分析“机器人大脑”
研究人员可视化了真实比赛中机器人的“价值图 (Value Map)”。在强化学习中,“价值函数”代表智能体认为当前情况有多好。
Figure 7 让我们得以难得一窥机器人在真实比赛中的决策过程。

看看 Figure 7 中的 图 (b) 。 这是进攻方的视角。黄色区域代表高价值 (好位置) ,紫色区域代表低价值。
- 进攻方意识到将球移向队友 (处于空位) 比试图带球突破防守方具有更高的价值。
- 这促成了一次传球 。
在 图 (g) 中,系统的稳健性足以让一名人类作为进攻者 2 加入。机器人进攻者 1 识别出人类是队友,并协作进球。
结论
这篇论文代表了机器人系统向前迈出的重要一步。通过将问题分解为低层技能 (稳健的运动控制) 和高层策略 (战术规划) ,并通过虚拟自博弈对其进行训练,研究人员创建了一支真正会踢足球的四足机器人球队。
主要收获如下:
- 分层至关重要: 你无法端到端地学习复杂的行为;必须先建立技能基础。
- 对抗训练驱动智能: 只有当对手变强时,机器人均才会变强。
- 去中心化行之有效: 只要拥有共同的目标,像传球这样复杂的团队行为可以从基于各自观测行动的个体智能体中涌现出来。
虽然我们还没达到世界杯的水平,但看到四足机器人在真实球场上执行协调的传球战术,表明机器人体育——以及通用的多智能体机器人技术——正朝着正确的方向开球。
](https://deep-paper.org/en/paper/2505.13834/images/cover.png)