引言
我们正见证着人工智能的黄金时代。从起草电子邮件的大型语言模型 (LLMs) ,到在围棋和 Dota 2 等复杂策略游戏中精通的强化学习智能体,AI 的能力正在飞速提升。然而,在 AI 独立解决问题的能力与协同我们解决问题的能力之间,仍存在着巨大的鸿沟。
试想一辆自动驾驶汽车。仅仅在空无一人的赛道上完美行驶是不够的;它必须在四向停车点解读与人类司机协商时的那些微妙且不成文的规则。同样,医院里的 AI 助手也不能仅仅为了最快完成程序而优化;它必须与医生和护士协作,理解他们的意图并适应他们的工作流程。
目前训练游戏智能体的主流方法——自博弈 (Self-Play, SP) ——往往在这些合作场景中失效。在自博弈中,智能体与自己进行数百万次对局。虽然这能带来超人的表现,但智能体往往会形成人类无法理解的特异性“秘密”约定。当与人类配对时,这些智能体就像说着外星语言的天才;协作会崩溃,团队会失败。
这个问题被称为 Ad-Hoc 人机协作 (Ad-Hoc Human-AI Coordination) 挑战。为了解决这个问题,研究人员需要一种标准化的方法来测试 AI 是否能与人类友好相处,而无需数千小时昂贵的实时人类测试。 Ad-Hoc 人机协作挑战赛 (AH2AC2) 应运而生,这是一个围绕纸牌游戏 Hanabi 构建的新基准和框架。这项工作引入了稳健的“人类代理 (Human Proxy) ”智能体和一个受控的评估系统,旨在推动该领域向不仅仅是聪明,而且是兼容的 AI 发展。
背景: Hanabi 测试平台
为了研究协作,作者选择了 Hanabi , 这是一款合作纸牌游戏,已成为合作 AI 研究中的“果蝇” (即模式生物) 。
Hanabi 的独特之处在于它具有 非完全信息 (imperfect information) 且需要高度的 心智理论 (Theory of Mind) 。 在 Hanabi 中,两到五名玩家试图构建不同颜色、数字递增 (1-5) 的烟花堆。转折点在于: 你可以看到其他人的牌,但看不到自己的牌。你必须依靠有限的通信代币给队友提示 (例如,“这几张牌是红色的”) ,而他们必须推断出哪些牌是可以安全打出的。
在 Hanabi 中取得成功需要识别伙伴行动背后的意图。如果伙伴提示某张特定的牌,他们不仅仅是在传达信息;他们是在发出信号,表明这张牌可能适合打出或者是关键牌。这种动态使其成为测试 Ad-Hoc 团队合作 (即在没有预先协调的情况下与新伙伴即兴合作的能力) 的完美环境。
挑战赛的架构
AH2AC2 框架解决了开源人类数据稀缺和一致性评估困难的问题。研究人员提供了一个小型的、开源的人类游戏数据集用于训练,同时保留一个庞大的数据集不公开,用于训练高质量的“人类代理 (Human Proxy) ”智能体。

如图 1 所示,该工作流允许研究人员使用有限的开放数据训练他们的智能体,然后将其提交给 API。该 API 将提交的智能体与隐藏的人类代理智能体配对以评估性能,确保 AI 不仅仅是死记硬背特定的人类动作,而是真正适应了类似人类的游戏风格。
核心方法: 构建人类代理
这项研究的核心在于 人类代理 (Human Proxy, HP) 智能体的创建。针对真人的评估既慢又贵,且充满噪音。针对其他 AI 智能体的评估通常会因为非人类的约定而导致分数虚高。解决方案是构建一个表现得完全像一个称职的人类的 AI。
作者使用一种称为 人类数据正则化 IPPO (HDR-IPPO) 的方法开发了这些代理。这是一个两阶段的过程,旨在平衡技能与人类兼容性。
第一步: 行为克隆 (BC)
首先,研究人员利用了一个庞大的、闭源的数据集,其中包含来自在线平台 hanab.live 的超过 100,000 局 Hanabi 游戏。他们使用了 行为克隆 (Behavioral Cloning, BC) , 这是一种监督学习技术,训练神经网络 (使用长短期记忆网络,即 LSTMs) 在给定特定游戏历史的情况下预测人类做出的确切动作。
虽然 BC 智能体捕捉到了人类游戏的“味道”,但它们通常很脆弱。如果游戏进入训练数据中未充分体现的状态,BC 智能体可能会感到困惑并犯下灾难性的错误。它们模仿得很好,但很难从错误中恢复。
第二步: 正则化强化学习
为了修复 BC 的脆弱性,研究人员使用 独立近端策略优化 (Independent Proximal Policy Optimization, IPPO) 优化了策略。在这个阶段,智能体与自己对弈以学习更好的策略并最大化得分。
然而,纯粹的强化学习 (RL) 会带回“外星语言”的问题;智能体可能会通过使用人类不使用的策略来获胜。为了防止这种情况,作者添加了一个 Kullback-Leibler (KL) 正则化 项。

上面的方程衡量了新策略 (\(\pi^{HP}\)) 与原始冻结的行为克隆策略 (\(\pi^{BC}\)) 之间的差异。这就像一条“缰绳”。智能体被鼓励提高分数,但如果其动作的概率分布偏离模仿人类的 BC 模型太远,就会受到惩罚。
最终的损失函数结合了标准 PPO 目标和这个 KL 惩罚:

在这里,\(\lambda\) (lambda) 是一个控制缰绳强度的超参数。如果 \(\lambda\) 太低,智能体就会变得像外星人。如果 \(\lambda\) 太高,智能体就学不到新东西,依然脆弱。
正则化的效果
作者进行了消融实验以证明这种正则化是必要的。他们训练了具有不同 \(\lambda\) 值的智能体。

图 6 显示了训练步骤中的 KL 散度。青色线条代表 \(\lambda=0\) (无正则化) 。随着智能体学习如何玩游戏,其行为迅速偏离人类基线。它为了成为一个通用的 AI 优化器而“遗忘”了如何像人一样行动。

相比之下,图 7 放大了具有适当正则化的智能体。散度保持在较低且稳定的水平,确保智能体在提高综合能力的同时保留人类的约定。
这对游戏玩法的影响是深远的。当一个未正则化的智能体 (\(\lambda=0\)) 试图与标准的人类风格 BC 智能体一起玩时,协作就会崩溃。

图 3 展示了一个“交叉博弈矩阵”。热图显示了不同智能体一起玩时的平均得分。
- BC2 vs BC2 (右下) : 得分 18.89。还可以,但由于脆弱性不够好。
- HP2 vs HP2 (左上) : 得分 23.04。人类代理 (HP) 在自博弈中非常强。
- \(\lambda=0\) vs BC2 (中右) : 得分 1.13。 灾难性失败。
未正则化的智能体 (\(\lambda=0\)) 根本无法与人类风格的 BC 智能体协作。然而,最终的人类代理 (HP2) 与 BC 智能体配对时得分达到了 21.77 。 这证实了 HDR-IPPO 创建的智能体既技艺高超又与人类策略兼容。
验证代理
在将这些代理用作挑战赛的黄金标准之前,作者必须验证它们的质量。一个好的代理不仅得分要高,还必须表现出真人的行为统计数据。
研究人员在双人和三人设置中将人类代理与原始 BC 策略进行了比较。

图 2 展示了一致的交叉博弈性能。在双人设置 (左) 中,人类代理 (HP1) 与 BC 智能体有效协作,实现了高中位数得分。三人设置 (右) 通常更难,但代理 (HP3, HP4) 在彼此配对时保持高分,在与脆弱的 BC 智能体配对时也能获得可观的分数。
此外,表 2 突出了通过该方法获得的稳健性。

虽然原始 BC 策略由于级联错误在三人设置中导致高达 75.82% 的“零分游戏” (完全失败) ,但人类代理将其减少到了接近 0% 。 它们学会了在情况变糟时“挽救”游戏,这是与不完美的人类伙伴协作的一项关键技能。
实验与结果: 排行榜
随着代理的建立,作者启动了 AH2AC2 基准测试。他们评估了几种基线方法,为未来的研究奠定基础。
参赛选手 (基线方法)
- BC (行为克隆) : 纯粹模仿小型开源数据集。
- IPPO: 从零开始的强化学习 (自博弈) ,忽略人类数据。
- BR-BC (对 BC 的最佳响应) : 专门训练用于与固定 BC 伙伴良好协作的智能体。
- FCP (虚拟协同博弈) : 针对其自身过去版本的群体进行训练的智能体。
- OBL (离信学习) : 一种零样本协作 (ZSC) 方法,假设没有可用的人类数据,并试图纯粹基于最佳、接地的逻辑约定进行游戏。
- DeepSeek-R1: 一个现代大型语言模型 (LLM) ,通过提示 Hanabi 的规则和游戏状态,测试基础模型的推理能力。
结果
表 5 展示的结果揭示了挑战的难度。

关键要点:
零样本方法的霸主地位 (目前) : OBL 智能体 (L4) 目前以 21.04 的平均分在双人设置排行榜上名列前茅。这很迷人,因为 OBL 没有使用人类训练数据。它依靠数学形式主义来防止“秘密语言”。这表明目前利用少量人类数据的方法 (如 BC 或 BR-BC) 效率还不够高,无法击败基于理论、无数据的方法。
自博弈的失败: 正如预期的那样, IPPO 智能体表现不佳 (10.16) 。在没有人类数据或 ZSC 约束的情况下,它学到了人类 (和代理) 无法解读的约定。
LLM 的差距: DeepSeek-R1 尽管是一个强大的推理模型,却表现得非常挣扎。即使在提示了“H-Group”约定 (一种标准的人类策略指南) 后,它在双人游戏中也仅获得 9.91 的平均分。虽然它在三人设置中表现稍好,但远远落后于专用算法。这表明,虽然 LLM 具有一般推理能力,但部分可观察环境中的细粒度协作需要零样本提示尚未解锁的能力。
数据效率是个难题: BR-BC 智能体表现良好 (19.41) ,但这依赖于针对人类数据的克隆体进行训练。这一挑战突出了一个主要的开放问题: 我们如何利用少量的人类互动数据集,并将其转化为稳健的协作策略?
结论与启示
Ad-Hoc 人机协作挑战赛 (AH2AC2) 代表了多智能体强化学习向前迈出的重要一步。通过摆脱自博弈分数,并提供一种严格、可重复的方法来针对“人类代理”进行测试,作者将该领域建立在现实基础之上。
代理本身的构建——使用经过 KL 正则化强化学习优化的行为克隆——为构建既称职又兼容的 AI 提供了一张蓝图。消融研究清楚地表明,如果没有连接到人类数据的“缰绳”,AI 智能体自然会偏向于外星的、不兼容的策略。
然而,排行榜的结果给我们要走的路敲响了谦逊的警钟。无数据方法 (OBL) 目前击败了试图从人类数据中学习的方法,这表明我们尚未破解 少样本协作 (few-shot coordination) 的密码。我们需要能够观察少量人类游戏并能瞬间领悟所用“氛围”或约定的算法,而不需要数百万个示例或僵化的数学证明。
此外,现成 LLM 的糟糕表现表明,仅靠通用智能不足以进行协作;需要针对共同信念和意图的动态进行专门训练。
随着 AH2AC2 向公众开放,它邀请研究人员来填补这一空白。目标不再仅仅是赢得游戏——而是要与我们一起玩游戏。
](https://deep-paper.org/en/paper/2506.21490/images/cover.png)