AI 能保守秘密吗？在阿瓦隆游戏中测试社会智能

大型语言模型 (LLM) 已经掌握了对话的艺术。它们可以写诗、调试代码并总结历史。但它们能策略性地撒谎吗？它们能推断出朋友中谁是叛徒吗？它们能理解某人所说的话与其实际意图之间的细微差别吗？

这些能力属于社会智能 (Social Intelligence) 的范畴。虽然我们在数学和编码方面有很多基准测试，但评估 AI 是否能应对复杂的社会动态要困难得多。目前大多数测试都是静态的——即选择题，无法反映真实人类互动中流动且高风险的本质。

在这篇文章中，我们将深入探讨一篇引人入胜的论文，题为**“INTERINTENT: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context”** 。研究人员开发了一个新颖的框架，在社交推理游戏*阿瓦隆 (Avalon) *中测试 LLM (特别是 GPT-3.5 和 GPT-4) 。

结果令人惊讶: 虽然 LLM 擅长规划自己的行动，但在试图理解他人想法时却面临巨大困难。

挑战: 测量社会智慧

社会智能不仅仅是一件事。心理学定义通常将其分解为四个关键组成部分:

情境意识 (Situational Awareness) : 理解环境和背景。
自我调节 (Self-Regulation) : 控制自己的思想和行为以实现目标。
自我意识 (Self-Awareness) : 理解自己的动机和欲望。
心智理论 (Theory of Mind, ToM) : 将信念、意图和思想归因于他人的能力 (即“我知道你知道我在撒谎”) 。

为了测试这些能力，研究人员选择了阿瓦隆 , 这是一款包含隐藏身份、欺骗和推理的游戏。在阿瓦隆中，玩家要么是亚瑟王的忠臣 (好人) ，要么是莫德雷德的爪牙 (坏人) 。好人团队想要完成任务；坏人团队想要破坏任务。关键点在于？坏人玩家知道彼此是谁，但好人玩家不知道。

这款游戏是一个完美的测试平台，因为它需要意图理解 。你不能仅仅靠说流利的英语来赢得阿瓦隆；你必须有一个计划 (一个意图) ，并且你必须通过他人的言语破译他们背后的意图。

INTERINTENT 框架

这篇论文的核心贡献是 INTERINTENT , 这是一个旨在利用“意图”概念系统评估上述四个社会智能维度的框架。

研究人员没有只是要求 LLM “玩游戏”，而是强制模型在每一步都明确表达其意图。他们将四个社会智能维度映射到了四个特定的游戏任务中:

此图说明了在阿瓦隆游戏中用于评估社会智能的四个维度: 情境意识、自我调节、自我意识和心智理论。

如上图 1 所示，该框架分解了认知过程:

意图选择 (情境意识) : 模型能否根据游戏状态选择一个合乎逻辑的目标？
意图遵循 (自我调节) : 模型在思考和发言时能否真正坚持这一目标？
意图总结 (自我意识) : 模型能否回顾自己的发言并准确描述自己试图做什么？
意图猜测 (心智理论) : 模型能否观察另一个玩家的发言并猜测其隐藏的议程？

意图引导的游戏流程

为了实现这一目标，研究人员没有使用标准的提示词 (prompt) 。他们构建了一个复杂的游戏管道，强制 LLM 在行动前“停下来思考”。

阿瓦隆游戏一轮的流程。左: 整个游戏管道。右: 生成单个玩家发言的程序。

图 2 展示了这一流程。注意右侧的“内部步骤”。在玩家发言之前，他们会经历一个严格的认知过程:

一阶推理 (First-Order Reasoning) : 推断关于游戏的事实 (例如，“玩家 1 可能是梅林”) 。
意图选择 (Intention Selection) : 从预定义的列表中选择特定目标 (例如，“支持队友”) 。
思考与发言 (Thinking & Speaking) : 起草内部思维过程和公开演讲。
二阶推理 (Second-Order Reasoning) : 预测其他人将如何对该演讲做出反应。
意图修改 (Intention Modification) : 如果预期的反应不好，则调整计划。

这种结构使研究人员能够准确地分离出 AI 失败的地方。如果 AI 输了，是因为它选择了错误的目标吗？还是因为它选择了正确的目标但在发言执行时失败了？

意图菜单

为了标准化评估，研究人员整理了一份玩家可以选择的具体意图列表。这些不是像“赢得游戏”这样模糊的目标，而是像“向无辜玩家投射怀疑”或“假装是梅林”这样的战术举动。

表 9: 我们要提出的意图集。有影响力的意图用红色标记。

通过强制 LLM 从此列表 (表 9) 中进行选择，研究人员将抽象的社交策略转化为可以衡量准确性的分类任务。

评估模型: 评分标准

评估 LLM 最困难的部分之一是主观性。为了解决这个问题，研究人员制定了严格的人工标注标准，特别是针对意图遵循 。

仅仅尝试遵循一个意图是不够的。模型必须有效地做到这一点，并且不能“产生幻觉” (即编造游戏中未发生的事实) 。

表 1: 标注意图遵循 (发言) 的标准，附带示例。

如表 1 所示，5 分要求内容在信息清晰的情况下很好地遵循了意图。3 分是临界情况，即模型进行了尝试，但使用了错误的上下文或过于含糊。

关键发现

研究人员使用 GPT-3.5 运行了 40 场游戏，使用 GPT-4 运行了 5 场游戏。以下是他们关于这些模型社会智能的发现。

1. 情境意识: 它们知道发生了什么

LLM 在意图选择方面表现出奇地好。

GPT-3.5 准确率: 87.5%
GPT-4 准确率: 88.8%

这意味着模型通常理解游戏状态。如果任务失败了，它们知道不应该信任那个团队的人。它们很少选择与事实完全矛盾的意图。

2. 自我调节: 思想与言语之间的鸿沟

知道做什么是一回事；做到是另一回事。研究人员分两个阶段测量了意图遵循 : “思考” (内部独白) 和“发言” (公开输出) 。

图 3: 自我调节结果。结果显示了所有数据样本中每个分数的百分比。

图 3 揭示了一个有趣的下降:

思考 (左) : 两个模型 (尤其是蓝色/浅蓝色部分的 GPT-3.5) 在内部规划方面都还不错。
发言 (右) : 表现下降。GPT-4 (右下) 比 GPT-3.5 (右上) 强得多，其 64.8% 的口语输出得分为“5”，而 GPT-3.5 只有 47.5%。

这表明自我调节是一个瓶颈。模型可能会暗自想，“我需要保护我的队友”，但在构建一个令人信服的句子来实现这一目标而不暴露身份时却失败了。

3. 意图理解真的能帮你赢吗？

研究人员分析了高意图理解得分与实际游戏胜利之间的相关性。

图 4: 意图选择/遵循与游戏表现之间的相关性。

图 4 中的图表显示了对于“好人”玩家 (绿色条) 来说至关重要的一点。

看“成功 (Success) ”一栏。绿色条 (好人) 非常高。
这意味着在好人团队获胜的游戏/任务中，他们的意图理解能力明显优于坏人团队。
结论: 坏人玩家通常可以通过混淆视听来获胜，但好人玩家必须拥有高超的社会智能和精确的意图理解才能穿透迷雾并获胜。

4. 心智理论: 阿喀琉斯之踵

这是最关键的发现。虽然 LLM 擅长理解自己 (自我意识) ，但它们在理解他人 (心智理论) 方面表现糟糕。

研究人员比较了模型与人类在意图总结 (解释自己的行动) 与意图猜测 (解释他人的行动) 方面的表现。

表 5: GPT-3.5 和 GPT-4 的 ToM 结果，以及人类结果。

表 5 显示了差距。

人类表现 (ToM) : ~61-65% F1 分数。
GPT-4 猜测 GPT-4: 46.87%
GPT-3.5 猜测 GPT-3.5: 31.73%

模型落后人类表现大约 20% 。它们难以“察言观色”。

此外，为模型提供更多上下文 (前几轮的历史记录) 并不一定有帮助。

图 5: 随回合变化的 ToM 结果。

如图 5 所示，人类的表现 (蓝线) 在整个游戏回合中保持持续的高水平。然而，GPT-3.5 的表现 (深绿色方块) 呈现出“锯齿状”模式或下降趋势。这意味着随着游戏变得更加复杂和聊天记录变长，LLM 变得困惑而不是更聪明。它遭受信息过载的困扰，无法从积累的噪音中提取隐藏的意图。

结论与启示

INTERINTENT 框架为 AI 的社会智能提供了一次现实检验。通过阿瓦隆的视角，我们了解到:

LLM 具有情境意识: 它们知道规则和当前状态。
执行力参差不齐: GPT-4 是比 GPT-3.5 更好的演员 (自我调节) 。
心智理论缺失: 这是一个主要的前沿领域。LLM 无法可靠地推断其他代理的隐藏意图。

这在棋盘游戏之外有什么意义？如果我们想在现实世界中部署 AI 代理——谈判合同、协助法律纠纷，甚至充当私人导师——它们需要心智理论 。它们不仅需要理解用户在说什么，还需要理解用户为什么这么说。

这篇论文强调，虽然 LLM 可以模仿社交互动，但它们尚未掌握真正的社会智能所需的深度认知共情。事实证明，像阿瓦隆这样的社交推理游戏是训练下一代 AI 弥补这一差距的完美健身房。

挑战: 测量社会智慧#

INTERINTENT 框架#

意图引导的游戏流程#

意图菜单#

评估模型: 评分标准#

关键发现#

1. 情境意识: 它们知道发生了什么#

2. 自我调节: 思想与言语之间的鸿沟#

3. 意图理解真的能帮你赢吗？#

4. 心智理论: 阿喀琉斯之踵#

结论与启示#