想象一下,你是一名大厨,已经和你的副厨完美掌握了一道特制汤品的食谱。你确切地知道他什么时候切洋葱,他也确切地知道你什么时候搅动肉汤。你们的配合就像一台运转良好的机器。现在,想象你走进了一个陌生人的厨房。布局完全不同,炉灶的位置很奇怪,而且你的新搭档切菜的节奏也完全不同。
突然间,你那套“完美”的流程分崩离析。你们撞在一起,同时伸手去拿长柄勺。汤糊了。
这就是人工智能中 零样本协作 (Zero-Shot Coordination, ZSC) 的根本问题。强化学习 (RL) 智能体通常被训练成超人类的专家,能在特定环境中与特定伙伴完美完成任务。但当它们与新伙伴 (无论是另一个 AI 还是人类) 配对时,往往会遭遇惨败。
在一篇引人入胜的新论文 Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination 中,研究人员提出了一个反直觉的解决方案。与其用成千上万个不同的伙伴来训练一个智能体以学习合作 (这是目前的主流方法) ,不如在数十亿个不同的 环境 中训练单个智能体。
结果表明了一种范式的转变: 要构建能够与任何人相处的智能体,我们不应该关注它们与 谁 一起工作,而应该关注它们在 哪里 工作。
问题所在: 自我博弈的脆弱性
要理解为什么合作对 AI 来说如此困难,我们首先需要看看它们通常是如何被训练的。标准方法是 自我博弈 (Self-Play, SP) 。 一个智能体与它自己 (或它的副本) 进行数百万次游戏。在像国际象棋或围棋这样的零和博弈中,这种方法非常有效。如果你找到了一种能击败克隆体的策略,你就在客观上变强了。
然而,在合作博弈中,自我博弈是一个陷阱。
在合作设定中,智能体需要就共享策略达成一致。如果智能体 A 决定“我总是向左走”,而智能体 B (它的克隆体) 学会了“我总是向右走”,它们就成功了。它们形成了一种“握手”或约定。但这种约定通常是任意的。如果智能体 A 后来与一个向左走的陌生人配对,它们就会相撞。智能体并没有学会 如何协作;它只是记住了一套特定的编排动作。
主流解决方案: 基于种群的训练
到目前为止,针对这种脆弱性的主流解决方案是 基于种群的训练 (Population-Based Training, PBT) 。 逻辑很简单: 如果一个伙伴让你变得脆弱,那么与一整个“村庄”的多样化伙伴一起训练应该会让你变得强健。

如图 1 左侧所示,PBT 涉及让一个智能体与一群多样化的伙伴进行训练。其希望在于,通过见识许多不同的游戏风格,智能体能学会一种对任何人都有效的通用“最佳响应”。
但这里有个坑。PBT 的计算成本很高 (你需要训练整个种群) ,而且关键是,它通常发生在 单一环境 中。智能体可能学会了如何应对不同的伙伴,但仅限于训练室的特定墙壁之内。正如我们将看到的,如果你稍微移动一下家具,PBT 智能体通常就会崩溃。
新范式: 跨环境合作
作者介绍了 跨环境合作 (Cross-Environment Cooperation, CEC) 。 他们的假设非常优雅: 如果你强迫一个智能体在不断变化的世界中取得成功,它就不能依赖脆弱的、特定于地图的约定 (比如“总是跑到瓦片 X”) 。相反,它必须学习通用的合作规范——比如“避免碰撞”或“传递工具”——这些规范是普遍适用的。
通过随机化环境,研究人员剥夺了智能体通过记忆布局来“作弊”的能力。智能体被迫去关注游戏结构本身。
双重目的地游戏
为了测试这一假设,作者首先设计了一个简单的玩具问题,称为 双重目的地游戏 (Dual Destination Game) 。

在这个网格世界中 (图 2) ,两个智能体 (红色和蓝色) 出生在随机位置。有绿色目标和粉色目标。为了获得奖励,它们必须导航到 不同 的绿色方块。
- 固定任务 (a): 目标总是在同一个位置。
- 程序化生成 (b): 每个回合的目标和起始位置都是随机的。
研究人员比较了这两种方法的数学目标。在基于种群的训练 (PBT) 中,目标是最大化单一环境 (\(m\)) 中分布伙伴 (\(\pi_i\)) 的预期得分:

相比之下,CEC 目标忽略了伙伴的多样性。它训练单个策略 (\(\pi_C\)) 对抗其自身,但平均了在许多不同环境 (\(m_i\)) 中的表现:

简易实验结果
在这个简单游戏上的结果非常明显。研究人员使用 IPPO (一种标准的自我博弈算法) 和 FCP (一种强大的 PBT 方法) 训练了智能体。然后,他们测试了这些智能体与从未见过的 新 伙伴协作的能力。

如图 3 所示,标准的自我博弈方法 (IPPO) 几乎完全失败 (得分约为 0) 。PBT 方法 (FCP) 在固定任务上表现较好,但在环境改变时崩溃了。
然而,CEC 智能体占据了主导地位。无论是在固定地图还是随机地图上,它在与新伙伴合作时都取得了接近最佳的性能。通过学习在变化的世界中生存,它本质上学会了该游戏的一种通用协作语言。
扩大规模: 程序化生成的胡闹厨房 (Overcooked)
为了证明这对复杂任务也有效,作者转向了 胡闹厨房 (Overcooked) , 这是 AI 协作的黄金标准基准。在《胡闹厨房》中,智能体必须在厨房中移动,捡起洋葱,放入锅中,装盘,然后上菜。这需要紧密的时机把控和路径规划。
标准研究通常集中在五个特定的、手工设计的布局上:

这些布局 (图 4) 各不相同且棘手。协调环 (Coordination Ring) 要求智能体绕圈移动而不互相阻挡。非对称优势 (Asymmetric Advantages) 将智能体隔开,迫使它们隔着柜台传递食材。
为了实施 CEC,作者构建了一个 程序化生成器 , 能够创建 \(1.16 \times 10^{17}\) 个独特的、可解的厨房布局。

利用 JAX 框架进行高性能计算,他们能够以惊人的速度 (每分钟 1000 万步) 在数十亿种变体 (图 5) 上训练智能体。
实验与主要发现
评估非常严格。研究人员将他们的 CEC 智能体与该领域的最佳方法进行了比较:
- IPPO: 标准自我博弈。
- FCP: 虚拟联合博弈 (Fictitious Co-Play) (基于种群的训练) 。
- E3T: 高效端到端训练 (Efficient End-to-End Training) (当前零样本协作的最先进技术) 。
他们测试了两种场景:
- 对伙伴的泛化: 智能体能否在原来的 5 张地图上与新伙伴一起玩?
- 对环境的泛化: 智能体能否在 全新的 程序化生成的地图上与新伙伴一起玩?
发现 1: 环境多样性 > 伙伴多样性
第一个主要发现是,在许多环境中进行训练会让你成为更好的伙伴,即使是在已知的地图上。

图 21 展示了一个“交叉博弈”矩阵。方块越亮,两种算法配合得越好。CEC (及其微调变体) 表现出了全面的强劲性能,能够与通过完全不同算法训练的智能体进行有效协作。
更令人印象深刻的是,当研究人员进行博弈论分析 (模拟一个更好的策略得以传播的进化过程) 时,“元博弈”的流向决定性地指向了 CEC。

在图 8 中,箭头代表种群动态的梯度。在几乎所有情况下,箭头都指向 CEC 和 CEC-Finetune,表明它们是击败或优于其他策略的稳健“均衡”策略。
发现 2: 泛化差距
当智能体在 100 个保留的程序化地图上进行测试时,差距变得不可否认——除了 CEC 智能体,没有任何其他智能体见过这些布局。

图 6 (右) 说明了一切。“单任务”方法 (IPPO、FCP、E3T) 得分为 零。它们无法在它们死记硬背的特定厨房之外运作。它们学会的是一条路线,而不是一项技能。
然而,CEC 智能体 (绿色条) 保持了高性能。它走进一个完全陌生的厨房,并立即开始烹饪。
发现 3: 人类更喜欢 CEC
对于协作型 AI 来说,最重要的测试也许是它能否与 我们 合作。研究人员招募了 80 名人类参与者,让他们与不同的 AI 智能体一起玩《胡闹厨房》。
虽然“最先进”的方法 (E3T) 在特定的已知地图上按交付的汤数量计算获得了略高的原始分数,但人类的体验讲述了一个不同的故事。

在图 9 (底部) 中,人类在几乎所有的主观指标上对 CEC 的评价都明显更高。他们发现 CEC 智能体更具 适应性 , 更 一致 , 且更少 令人沮丧 。
为什么即便得分略低,人类还是更喜欢 CEC?答案在于避障。

图 11 显示,与其他方法相比,CEC 智能体与人类伙伴发生碰撞的频率要低得多。因为 CEC 智能体是在不断变化的环境中训练的,它们可能学会了“不要挡路”的通用规范,而标准智能体基本上是死记硬背了一条最佳“赛车路线”,并拒绝偏离,从而撞上挡路的人类玩家。
可视化差异
我们可以通过观察“占用图”——即游戏过程中智能体停留位置的热力图——来可视化这种行为差异。
标准自我博弈 (IPPO):

图 24 和 25 展示了两个标准智能体。它们极其僵化。它们固守在特定区域 (深色斑块) ,很少外出。它们拥有高度专业化的角色。如果人类打乱了这个僵化的角色,智能体就不知所措了。
跨环境合作 (CEC):

相比之下,图 26 展示了 CEC 智能体。热力图分布得更加均匀。智能体在厨房的任何地方移动都很自如。它不是在照本宣科;它是在根据任务和伙伴进行动态反应。这种灵活性使它成为了人类更好的协作者。
结论
这项研究为 AI 机器人和助手的未来强调了一个至关重要的见解。多年来,社区一直认为合作的关键在于社会多样性——遇见许多不同的人。虽然这很重要,但这篇论文表明, 环境多样性 可能更加强大。
通过强迫智能体适应数十亿种独特的情况,我们防止了它死记硬背捷径解决方案。这剥夺了它过拟合的能力。留下的是一种提炼出的、通用的协调能力: 对个人空间、共同目标和适应性角色的理解。
当我们迈向在混乱、不可预测的家庭中运行的机器人时,像 CEC 这样的方法提供了一条充满希望的前进道路。我们不需要在模拟我们特定客厅的环境中训练机器人;我们需要在十亿个不同的客厅中训练它们,这样它们才能为我们的客厅做好准备。
](https://deep-paper.org/en/paper/2504.12714/images/cover.png)