引言
近年来,我们见证了人工智能范式的转变。像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 已经超越了简单的文本生成,成为自主智能体的大脑——能够感知环境、做出决策并采取行动的数字实体。我们已经看到智能体模拟软件开发公司,甚至居住在虚拟的“模拟人生式”小镇中。然而,这些模拟大多集中在积极、合作的行为上。
但人类社会不仅仅是手牵手合作。它是一个包含谈判、对抗、欺骗和信任的复杂网络。要真正理解基于 LLM 的社会的潜力 (及风险) ,我们需要观察它们如何处理冲突和不完全信息。
这将我们引入了一篇引人入胜的研究论文: 《基于 LLM 的智能体社会调查: 阿瓦隆游戏中的协作与对抗》 (LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay) 。 研究人员选择了阿瓦隆 (Avalon) * (也被称为抵抗组织 (The Resistance) *) 作为测试平台——这是一个需要高度战略沟通和欺骗的社交推理游戏。与国际象棋或围棋不同,阿瓦隆的棋局状态并非完全可见,它依赖于隐藏角色、说服力和直觉。
在这篇深度文章中,我们将探索研究人员如何构建一个新的多智能体框架,使 LLM 能够玩这个复杂的游戏。我们将看看这些智能体如何从经验中学习,如何为了保护身份而撒谎,以及如何结盟以获胜。
挑战: 为什么选择阿瓦隆?
在剖析 AI 架构之前,必须先了解环境。阿瓦隆是一个由 5 到 10 名玩家参与的隐藏忠诚度游戏。在这项研究中,研究人员专注于 6 人变体。
玩家被分为两个阵营:
- 好人阵营 (忠诚仆人) : 他们的目标是成功完成三个任务。关键角色包括梅林 (Merlin) (知道谁是坏人但必须隐藏身份) 和派西维尔 (Percival) (知道谁可能是梅林) 。
- 坏人阵营 (莫德雷德的爪牙) : 他们的目标是让三个任务失败或刺杀梅林。关键角色包括莫甘娜 (Morgana) (冒充梅林) 和刺客 (Assassin) 。
AI 智能体面临的核心挑战是不完全信息 。 一个“忠诚仆人”不知道谁是队友。他们必须根据其他人的投票和发言来推断忠诚度。相反,“坏人”玩家必须积极地伪装自己,假装是好人,同时暗中破坏团队。这需要社会智力: 领导力、说服力以及识别谎言的能力。
框架: 如何构建一个会欺骗的智能体
为了使 LLM 能够应对这种复杂性,研究人员不能简单地将游戏规则输入 ChatGPT 并祈祷好运。他们需要一个结构化的认知架构。他们提出了一个由六个不同模块组成的新颖框架,旨在模拟人类的决策过程。

如图 1 所示,该框架在一个循环中运行。让我们分解这个“数字大脑”的每个组件。
1. 记忆和摘要 (Memory and Summarization)
在像阿瓦隆这样文字量大的游戏中,对话历史增长迅速。将整个记录输入 LLM 会迅速耗尽其上下文窗口 (token 限制) 并混淆模型。
解决方案是记忆模块 (Memory Module) 结合摘要器 (Summarizer) 。 智能体不会存储每一个字;它存储上一轮的结构化摘要。

在这个公式中,\(M_t\) 是当前记忆。它是上一轮的摘要记忆 (\(M_{t-1}\)) 与当前轮的具体响应和指令 (\(R_t\)) 的组合。这使得智能体能够保留关键上下文——“玩家 3 在上一轮投了反对票”——而不会陷入噪音中。
2. 分析 (Analysis)
拥有记忆后,智能体需要对其进行解读。 分析模块 (Analysis Module) 负责“察言观色”。它利用游戏历史和智能体自身的角色信息 (\(RI\)) 来生成关于其他玩家的假设。

这里,\(H_t\) 代表分析结果。例如,如果智能体是一个忠诚仆人,分析模块可能会输出: “玩家 2 很可疑,因为他拒绝了一个包含已确认好人玩家的队伍。” 这一步对于将原始数据转化为社会直觉至关重要。
3. 规划 (Planning)
了解局势是一回事;决定做什么则是另一回事。 规划模块 (Planning Module) 制定高层策略 (\(P_t\)) 。

该计划源自记忆、分析、先前的计划,以及——至关重要的是——智能体的目标 (\(G\)) 和角色特定策略 (\(S\)) 。如果智能体是莫甘娜 , 计划可能是: “我需要通过投票支持第一个任务来获得派西维尔的信任,但我会破坏第二个任务。”
4. 行动 (Action)
行动模块 (Action Module) 将高层计划转化为具体举措。在阿瓦隆中,行动包括选择队伍、对队伍进行投票,或决定任务结果 (成功/失败) 。

智能体根据所有先前的输入对行动进行采样。这种概率性方法允许变化和不可预测性——这是虚张声势游戏中的重要特征。
5. 响应生成 (Response Generation)
阿瓦隆是一个关于言语的游戏。 响应模块 (Response Module) 为智能体的行动生成自然语言解释。如果行动模块决定投“反对票”,响应模块会生成借口: “我不信任玩家 4 的投票历史,所以我不能支持这个队伍。”
6. 经验学习 (Experience Learning)
该框架最具创新性的部分也许是经验学习模块。智能体不仅仅是玩游戏;它们还在进步。
- 自身角色策略学习: 游戏结束后,智能体回顾游戏日志并为自己生成建议。例如,“作为梅林我暴露身份太早了;下次我应该更隐晦一些。”
- 他人角色策略学习: 智能体还会分析其他玩家的行为。“刺客通过假装成困惑的仆人赢了。我应该提防这种策略。”
这些见解作为“初始策略”指南反馈到系统中用于未来的游戏,从而创建一个持续改进的反馈循环。
实验结果: 统治与进化
为了测试该框架,研究人员将他们的智能体与一个强大的基线 (改编自之前的“狼人杀”游戏智能体) 进行了对决。他们使用 GPT-3.5 作为后端模型进行比赛。结果非常显著。
胜率
提出的框架显著优于基线。

如表 2 所示,在与基线的对抗中,所提出的智能体作为好人方时达到了 90% 的胜率 , 作为坏人方时达到了 100% 的胜率 。 这表明结构化的认知过程——特别是分析与规划的分离——比简单的架构提供了巨大的战术优势。
侵略性与影响力
为什么坏人阵营的智能体如此成功?数据指向了“侵略性”的游戏风格。

图 2 显示,所提出的智能体 (虚线) 更加主动。
- 任务参与度 (左) : 它们积极尝试让自己加入任务队伍 (更高的参与率) 。如果你不在队伍里,就无法破坏任务。
- 投失败票率 (右) : 一旦进入队伍,它们在让任务失败方面非常果断 (刺客接近 100%) 。它们没有犹豫或表现得过于被动。
深入探究: 社会行为
这篇论文最迷人的部分不仅仅是 AI 赢了,而是它是如何赢的。研究人员使用 ChatGPT 分析日志并对智能体的社会行为进行分类。
1. 领导力
阿瓦隆中的有效领导力意味着提议的队伍能获得批准。

图 3(a) 显示,提出的智能体 (浅蓝色) 始终获得较高的队长支持率 (Leader Approval Rate) 。 当它们发言时,其他智能体会倾听并跟随投票。这表明它们更擅长构建逻辑论证并达成共识。
这里有一个智能体展现强大领导力的例子:

这里的忠诚仆人清楚地陈述了他们的优先事项并提议了一个队伍,将决定建立在“好人方的胜利”之上。
2. 说服与欺骗
游戏要求智能体让别人相信它们的效用。这是通过“自我推荐率 (Self-recommendation Rate) ”来衡量的。
看上面的图 3(c),我们看到忠诚仆人 1 拥有极高的自我推荐成功率 (90%) 。然而,看看莫甘娜 (一个邪恶角色) 。莫甘娜也保持了很高的成功率,成功欺骗玩家信任她。
下面是忠诚仆人进行说服 , 随后是莫甘娜进行欺骗的具体例子。


在欺骗的例子中,莫甘娜巧妙地推荐玩家 3 和 4。这看起来像是一个有益的建议,但在游戏语境下,这是一个操纵队伍构成的精心算计的举动。
3. 伪装
智能体如何隐藏身份?研究人员分析了第一轮中智能体的行为。

在图 4(a) (Ours) 中,看看莫甘娜和刺客 。 它们有很大一部分“伪装 (Camouflage) ”行为 (粉色条) 。它们积极地假装成别人。有趣的是,刺客还表现出“隐瞒身份 (Withholding Identity) ”,选择保持沉默或模糊以避免被发现。这种行为不是硬编码的;它是从智能体的规划模块中涌现出来的,意识到沉默有时是最好的防御。
4. 团队合作与对抗
社会动态会根据智能体交谈对象的不同而变化。

在图 5(a) 中,观察梅林一列 (左数第三个) 。
- 当梅林与仆人 (顶行) 交谈时,条形图大部分是蓝色的 (团队合作) 。
- 当梅林与莫甘娜或刺客 (底行) 交谈时,条形图变成红色 (对抗) 或橙色 (矛盾) 。
这证明智能体正确识别了敌人并相应地调整了语气。它们与盟友“友好相处”,并攻击敌人。
下面是一段对话摘录,展示了这种动态:

底部面板中的忠诚仆人以“可疑行为”为由,主动对抗玩家 2 和玩家 4。这是一种高水平的社会推理技能——利用过去的行为来为当前的敌意辩护。
结论与启示
这项研究表明,基于 LLM 的智能体不仅仅能遵循指令。当配备了支持记忆、分析和规划的框架时,它们可以:
- 制定复杂的策略以赢得不完全信息游戏。
- 表现出独特的社会特征 , 如领导力和伪装。
- 根据扮演的角色和互动对象调整行为。
- 从经验中学习 , 随着时间的推移变得更有效率。
与其他作品的比较凸显了这种方法的全面性:

如表 1 所示,该框架 (“Ours”) 的独特之处在于它涵盖了社会智能体设计的各个方面——从记忆和规划到领导力、说服和对抗。
这对未来意味着什么?
虽然这项研究是在游戏中进行的,但其影响延伸到了现实世界的模拟。如果我们能够建立有效地谈判、欺骗和领导的智能体,我们就可以为经济学、社会科学和组织心理学构建更好的模拟。我们可以训练人类识别欺骗,或在受控的智能体社会中模拟虚假信息的传播。
然而,这也引发了伦理问题。随着 AI 越来越擅长说服和伪装,得力助手与操纵者之间的界限变得模糊。在像阿瓦隆这样的游戏中理解这些行为,是理解——并管理——现实世界中这些行为的第一步。
](https://deep-paper.org/en/paper/2310.14985/images/cover.png)