引言

近年来,我们见证了人工智能范式的转变。像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 已经超越了简单的文本生成,成为自主智能体的大脑——能够感知环境、做出决策并采取行动的数字实体。我们已经看到智能体模拟软件开发公司,甚至居住在虚拟的“模拟人生式”小镇中。然而,这些模拟大多集中在积极、合作的行为上。

但人类社会不仅仅是手牵手合作。它是一个包含谈判、对抗、欺骗和信任的复杂网络。要真正理解基于 LLM 的社会的潜力 (及风险) ,我们需要观察它们如何处理冲突和不完全信息。

这将我们引入了一篇引人入胜的研究论文: 《基于 LLM 的智能体社会调查: 阿瓦隆游戏中的协作与对抗》 (LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay) 。 研究人员选择了阿瓦隆 (Avalon) * (也被称为抵抗组织 (The Resistance) *) 作为测试平台——这是一个需要高度战略沟通和欺骗的社交推理游戏。与国际象棋或围棋不同,阿瓦隆的棋局状态并非完全可见,它依赖于隐藏角色、说服力和直觉。

在这篇深度文章中,我们将探索研究人员如何构建一个新的多智能体框架,使 LLM 能够玩这个复杂的游戏。我们将看看这些智能体如何从经验中学习,如何为了保护身份而撒谎,以及如何结盟以获胜。

挑战: 为什么选择阿瓦隆?

在剖析 AI 架构之前,必须先了解环境。阿瓦隆是一个由 5 到 10 名玩家参与的隐藏忠诚度游戏。在这项研究中,研究人员专注于 6 人变体。

玩家被分为两个阵营:

  1. 好人阵营 (忠诚仆人) : 他们的目标是成功完成三个任务。关键角色包括梅林 (Merlin) (知道谁是坏人但必须隐藏身份) 和派西维尔 (Percival) (知道谁可能是梅林) 。
  2. 坏人阵营 (莫德雷德的爪牙) : 他们的目标是让三个任务失败或刺杀梅林。关键角色包括莫甘娜 (Morgana) (冒充梅林) 和刺客 (Assassin)

AI 智能体面临的核心挑战是不完全信息 。 一个“忠诚仆人”不知道谁是队友。他们必须根据其他人的投票和发言来推断忠诚度。相反,“坏人”玩家必须积极地伪装自己,假装是好人,同时暗中破坏团队。这需要社会智力: 领导力、说服力以及识别谎言的能力。

框架: 如何构建一个会欺骗的智能体

为了使 LLM 能够应对这种复杂性,研究人员不能简单地将游戏规则输入 ChatGPT 并祈祷好运。他们需要一个结构化的认知架构。他们提出了一个由六个不同模块组成的新颖框架,旨在模拟人类的决策过程。

图 1: 我们的框架有六个模块: 摘要、分析、规划、行动、响应和体验学习。这种设计遵循人类思维,帮助 LLM 智能体有效地玩阿瓦隆,并揭示它们的社会行为。

如图 1 所示,该框架在一个循环中运行。让我们分解这个“数字大脑”的每个组件。

1. 记忆和摘要 (Memory and Summarization)

在像阿瓦隆这样文字量大的游戏中,对话历史增长迅速。将整个记录输入 LLM 会迅速耗尽其上下文窗口 (token 限制) 并混淆模型。

解决方案是记忆模块 (Memory Module) 结合摘要器 (Summarizer) 。 智能体不会存储每一个字;它存储上一轮的结构化摘要。

描述记忆更新的公式

在这个公式中,\(M_t\) 是当前记忆。它是上一轮的摘要记忆 (\(M_{t-1}\)) 与当前轮的具体响应和指令 (\(R_t\)) 的组合。这使得智能体能够保留关键上下文——“玩家 3 在上一轮投了反对票”——而不会陷入噪音中。

2. 分析 (Analysis)

拥有记忆后,智能体需要对其进行解读。 分析模块 (Analysis Module) 负责“察言观色”。它利用游戏历史和智能体自身的角色信息 (\(RI\)) 来生成关于其他玩家的假设。

描述分析过程的公式

这里,\(H_t\) 代表分析结果。例如,如果智能体是一个忠诚仆人,分析模块可能会输出: “玩家 2 很可疑,因为他拒绝了一个包含已确认好人玩家的队伍。” 这一步对于将原始数据转化为社会直觉至关重要。

3. 规划 (Planning)

了解局势是一回事;决定做什么则是另一回事。 规划模块 (Planning Module) 制定高层策略 (\(P_t\)) 。

描述规划过程的公式

该计划源自记忆、分析、先前的计划,以及——至关重要的是——智能体的目标 (\(G\)) 和角色特定策略 (\(S\)) 。如果智能体是莫甘娜 , 计划可能是: “我需要通过投票支持第一个任务来获得派西维尔的信任,但我会破坏第二个任务。”

4. 行动 (Action)

行动模块 (Action Module) 将高层计划转化为具体举措。在阿瓦隆中,行动包括选择队伍、对队伍进行投票,或决定任务结果 (成功/失败) 。

描述行动选择的公式

智能体根据所有先前的输入对行动进行采样。这种概率性方法允许变化和不可预测性——这是虚张声势游戏中的重要特征。

5. 响应生成 (Response Generation)

阿瓦隆是一个关于言语的游戏。 响应模块 (Response Module) 为智能体的行动生成自然语言解释。如果行动模块决定投“反对票”,响应模块会生成借口: “我不信任玩家 4 的投票历史,所以我不能支持这个队伍。”

6. 经验学习 (Experience Learning)

该框架最具创新性的部分也许是经验学习模块。智能体不仅仅是玩游戏;它们还在进步。

  • 自身角色策略学习: 游戏结束后,智能体回顾游戏日志并为自己生成建议。例如,“作为梅林我暴露身份太早了;下次我应该更隐晦一些。”
  • 他人角色策略学习: 智能体还会分析其他玩家的行为。“刺客通过假装成困惑的仆人赢了。我应该提防这种策略。”

这些见解作为“初始策略”指南反馈到系统中用于未来的游戏,从而创建一个持续改进的反馈循环。

实验结果: 统治与进化

为了测试该框架,研究人员将他们的智能体与一个强大的基线 (改编自之前的“狼人杀”游戏智能体) 进行了对决。他们使用 GPT-3.5 作为后端模型进行比赛。结果非常显著。

胜率

提出的框架显著优于基线。

表 2: 我们的方法与基线之间的游戏结果。我们展示了我们的方法作为好人方和坏人方的胜率 (WR) 。

如表 2 所示,在与基线的对抗中,所提出的智能体作为好人方时达到了 90% 的胜率 , 作为坏人方时达到了 100% 的胜率 。 这表明结构化的认知过程——特别是分析与规划的分离——比简单的架构提供了巨大的战术优势。

侵略性与影响力

为什么坏人阵营的智能体如此成功?数据指向了“侵略性”的游戏风格。

图 2: (a): 扮演坏人方时参与任务率的比较。较高的参与任务率意味着玩家有更多机会影响游戏结果。(b): 扮演坏人方时投失败票率的比较。基线表现较差。

图 2 显示,所提出的智能体 (虚线) 更加主动。

  • 任务参与度 (左) : 它们积极尝试让自己加入任务队伍 (更高的参与率) 。如果你不在队伍里,就无法破坏任务。
  • 投失败票率 (右) : 一旦进入队伍,它们在让任务失败方面非常果断 (刺客接近 100%) 。它们没有犹豫或表现得过于被动。

深入探究: 社会行为

这篇论文最迷人的部分不仅仅是 AI 赢了,而是它是如何赢的。研究人员使用 ChatGPT 分析日志并对智能体的社会行为进行分类。

1. 领导力

阿瓦隆中的有效领导力意味着提议的队伍能获得批准。

图 3: (a): 领导行为。拥有较高队长支持率的玩家在决定任务队伍时会获得更多其他玩家的同意。

图 3(a) 显示,提出的智能体 (浅蓝色) 始终获得较高的队长支持率 (Leader Approval Rate) 。 当它们发言时,其他智能体会倾听并跟随投票。这表明它们更擅长构建逻辑论证并达成共识。

这里有一个智能体展现强大领导力的例子:

图 10: 领导力示例

这里的忠诚仆人清楚地陈述了他们的优先事项并提议了一个队伍,将决定建立在“好人方的胜利”之上。

2. 说服与欺骗

游戏要求智能体让别人相信它们的效用。这是通过“自我推荐率 (Self-recommendation Rate) ”来衡量的。

看上面的图 3(c),我们看到忠诚仆人 1 拥有极高的自我推荐成功率 (90%) 。然而,看看莫甘娜 (一个邪恶角色) 。莫甘娜也保持了很高的成功率,成功欺骗玩家信任她。

下面是忠诚仆人进行说服 , 随后是莫甘娜进行欺骗的具体例子。

图 7: 说服示例

图 8: 伪装示例

在欺骗的例子中,莫甘娜巧妙地推荐玩家 3 和 4。这看起来像是一个有益的建议,但在游戏语境下,这是一个操纵队伍构成的精心算计的举动。

3. 伪装

智能体如何隐藏身份?研究人员分析了第一轮中智能体的行为。

图 4: 扮演不同角色时的伪装行为: 在每场游戏的第一轮,选择自我披露、伪装或隐瞒身份的玩家分布。

在图 4(a) (Ours) 中,看看莫甘娜刺客 。 它们有很大一部分“伪装 (Camouflage) ”行为 (粉色条) 。它们积极地假装成别人。有趣的是,刺客还表现出“隐瞒身份 (Withholding Identity) ”,选择保持沉默或模糊以避免被发现。这种行为不是硬编码的;它是从智能体的规划模块中涌现出来的,意识到沉默有时是最好的防御。

4. 团队合作与对抗

社会动态会根据智能体交谈对象的不同而变化。

图 5: 扮演不同角色时的团队合作和对抗行为。每个子图显示了扮演特定角色的玩家 (顶部) 对其他角色玩家 (左侧) 的态度分布。

在图 5(a) 中,观察梅林一列 (左数第三个) 。

  • 当梅林与仆人 (顶行) 交谈时,条形图大部分是蓝色的 (团队合作) 。
  • 当梅林与莫甘娜刺客 (底行) 交谈时,条形图变成红色 (对抗) 或橙色 (矛盾) 。

这证明智能体正确识别了敌人并相应地调整了语气。它们与盟友“友好相处”,并攻击敌人。

下面是一段对话摘录,展示了这种动态:

图 9: 团队合作与对抗示例

底部面板中的忠诚仆人以“可疑行为”为由,主动对抗玩家 2 和玩家 4。这是一种高水平的社会推理技能——利用过去的行为来为当前的敌意辩护。

结论与启示

这项研究表明,基于 LLM 的智能体不仅仅能遵循指令。当配备了支持记忆、分析和规划的框架时,它们可以:

  1. 制定复杂的策略以赢得不完全信息游戏。
  2. 表现出独特的社会特征 , 如领导力和伪装。
  3. 根据扮演的角色和互动对象调整行为。
  4. 从经验中学习 , 随着时间的推移变得更有效率。

与其他作品的比较凸显了这种方法的全面性:

表 1: 我们的工作与相关工作在智能体框架和社会行为分析方面的比较

如表 1 所示,该框架 (“Ours”) 的独特之处在于它涵盖了社会智能体设计的各个方面——从记忆和规划到领导力、说服和对抗。

这对未来意味着什么?

虽然这项研究是在游戏中进行的,但其影响延伸到了现实世界的模拟。如果我们能够建立有效地谈判、欺骗和领导的智能体,我们就可以为经济学、社会科学和组织心理学构建更好的模拟。我们可以训练人类识别欺骗,或在受控的智能体社会中模拟虚假信息的传播。

然而,这也引发了伦理问题。随着 AI 越来越擅长说服和伪装,得力助手与操纵者之间的界限变得模糊。在像阿瓦隆这样的游戏中理解这些行为,是理解——并管理——现实世界中这些行为的第一步。