引言
在经典文学的殿堂里,谋杀悬疑小说独树一帜。从阿加莎·克里斯蒂笔下的赫尔克里·波洛,到亚瑟·柯南·道尔创造的夏洛克·福尔摩斯,破案需要一种独特的混合技能: 收集零散信息、看穿复杂的欺骗网络、理解人类心理,并在压力下进行逻辑推演。
对于人工智能研究人员来说,这带来了一个迷人的挑战。我们知道像 GPT-4 这样的大语言模型 (LLM) 擅长处理文本和通过标准化测试。但它们能扮演一个角色、为了保守秘密而撒谎,或者在一屋子嫌疑人中找出凶手吗?
这正是 MIRAGE (Multiverse Interactive Role-play Ability General Evaluation,多重宇宙交互式角色扮演能力通用评估) 背后的核心问题,这是由复旦大学和小红书的研究人员推出的一个新框架。以往尝试模拟 AI 社会行为的研究通常依赖于规则严格的棋盘游戏,如《狼人杀》 (Werewolf) 或《阿瓦隆》 (Avalon) ,而 MIRAGE 则向前迈进了一步,利用了谋杀谜案游戏 (在中国通常被称为“ 剧本杀 ”) 。这些半结构化、叙事性强的游戏为测试 AI 的“社会化思考”和欺骗能力提供了更为严格的考验。
在本文中,我们将拆解 MIRAGE 框架,探索研究人员如何量化各种 LLM 的“侦探技能”,并分析为什么即使是最先进的模型也难以抓获凶手。
背景: 为什么要用谋杀谜案?
要理解 MIRAGE 的重要性,我们首先要看看当前基准测试的局限性。
现有模拟的问题
长期以来,研究人员一直使用游戏来测试 AI 智能体 (Agent) 。“智能体”本质上是被包裹在软件循环中的 LLM,这使它们能够感知环境、做出决策并采取行动。
- 沙盒模拟 (如《模拟人生》风格) : 这些模拟测量社会互动,但往往缺乏明确的目标或竞争压力。
- 逻辑游戏 (如《狼人杀》) : 这些游戏涉及欺骗,但通常遵循严格的机械流程 (例如具有二元投票选择的“白天/黑夜”阶段) 。它们缺乏叙事深度。
真实的人类社会互动是混乱的。它涉及信息不对称 (我知道你不知道的事情) 、长期记忆以及信任与怀疑的权衡。
解决方案: 剧本杀
谋杀谜案游戏是一个完美的中间地带。它们需要:
- 角色扮演: AI 必须保持在角色中 (例如,一个嫉妒的爱人或一个贪婪的商业伙伴) 。
- 信息收集: 玩家必须主动“搜查”房间或“审讯”其他人。
- 复杂推理: 解决方案没有明确写出来;必须从碎片化的线索中推断出来。
MIRAGE 框架
研究人员构建了一个场景的“多重宇宙”,以确保评估结果不是偶然的。该框架由剧本、模拟引擎以及让 AI 智能体保持正轨的辅助模块组成。
1. 模拟流程
一个典型的 MIRAGE 会话涉及多个 AI 智能体互相对抗。游戏分为三个明显的阶段。

如图 1 所示,流程模仿了现实生活中的桌面游戏:
- A 阶段: 公开对话 (Open Conversation): 智能体进行自然语言对话。它们可以撒谎、分享信息或互相指责。
- B 阶段: 环境交互 (Interaction with Environment): 这是侦探工作发生的地方。智能体选择询问 (Ask) 其他玩家特定问题,或搜查 (Investigate) 地点以寻找线索 (例如,在嫌疑人的房间里发现硫酸) 。
- C 阶段: 凶手投票 (Murder Voting): 基于收集到的证据,智能体必须投票选出罪魁祸首。如果平民指认出凶手,他们获胜。如果凶手在投票中幸存,则凶手获胜。
2. 剧本
这篇论文的一个主要贡献是创作了八个独特的剧本。这些不仅仅是简单的提示词 (prompt) ;它们是包含角色背景故事、关系和隐藏目标的详细叙事。

如表 1 详述,剧本在多个维度上有所不同,以测试不同的能力:
- 正统 (Orthodox) vs. 非正统 (Unorthodox): “正统”剧本是现实主义的 (例如游轮上的犯罪) ,而“非正统”剧本涉及奇幻或超自然元素 (例如“狐狸旅馆”或“博物馆奇妙夜”) 。
- 单阶段 (Single) vs. 多阶段 (Multi-Stage): 有些剧本一次性给出所有信息;其他的则分章节展开,测试 AI 适应新信息的能力。
- 开放式 (Open) vs. 封闭式 (Close) 结局: 开放式结局允许玩家的行为显著改变结果,而封闭式结局有一个固定的真相等待发现。
3. 幕后机制: 辅助模块
LLM 有其局限性——它们可能会忘记上下文、感到困惑或脱离角色 (OOC) 。为了让模拟正常进行,研究人员为 LLM 封装了几个辅助模块:
- 摘要模块: 压缩旧的对话,以免 LLM 耗尽内存 (上下文窗口限制) 。
- 怀疑与信任模块: 这是一个巧妙的设计。每次对话后,系统都会要求 LLM 秘密地对自己对他人的信任度和怀疑度进行评分。这种内心独白对其他玩家是隐藏的,但对研究人员的评估至关重要。
- 重运行模块: 如果 LLM 输出无意义的内容或未能遵循游戏格式,该模块会强制其重试。
衡量侦探技能: 评估指标
如何给侦探打分?仅仅“获胜”是不够的,因为玩家可能靠运气获胜。研究人员开发了四个具体的指标来评估推理的过程。
1. 信任倾向指数 (Trust Inclination Index, TII)
这个指标衡量一个智能体是容易轻信还是多疑。它比较了由辅助模块生成的内部“信任”分数和“怀疑”分数。

高 TII 意味着该模型倾向于轻易相信他人。低 TII 意味着怀疑。正如我们将看到的,这种平衡对 AI 来说是最难的部分。
2. 线索搜查能力 (Clue Investigation Capability, CIC)
这衡量了智能体收集物理证据的效率。

它的计算方式是发现的线索数与可发现的总线索数之比。一个把所有时间都花在聊天而从不搜查犯罪现场的智能体,其 CIC 会很低。
3. 交互能力指数 (Interactivity Capability Index, ICI)
这是一个定性指标。一个强大的中立 LLM (GPT-4-Turbo) 充当裁判,阅读游戏日志并对智能体进行评分,评分维度包括:
- 推理与分析
- 沟通与合作
- 观察力
- 思维创新
4. 剧本依从指数 (Script Compliance Index, SCI)
AI 真的在进行角色扮演吗?如果一个角色设定是一个粗鲁的海盗,但 AI 说话像个礼貌的客服机器人,那它在这个指标上就失败了。SCI 衡量智能体对其分配的角色和背景故事的遵守程度。
实验与结果
研究人员将多个模型放入 MIRAGE 框架中进行测试,包括 GPT-4, GPT-4o, GPT-3.5, Qwen-2-7B, 和 GLM-4-9B 。 结果为了解 AI 社会智能的现状提供了令人惊讶的见解。
整体表现

综合结果 (如上表所示) 凸显了一个清晰的层级。 GPT-4o 总体上表现出最一致的优势,在线索搜查 (CIC) 、交互性 (ICI) 和剧本依从性 (SCI) 方面均获得了最高分。
然而,原始智力并不总是转化为胜利。令人惊讶的是,开源模型 Qwen-2-7B 在某些综合指标中获得了最高的“胜率 (Victory)” (51.81%) ,尽管其推理得分低于 GPT-4。为什么?这很可能归结于信任的动态变化。
轻信问题
最引人注目的发现之一是 LLM 明显缺乏怀疑精神。大多数模型表现出很高的 信任倾向指数 (TII) 。 在一个关于谋杀和欺骗的游戏中,LLM 天生就“太好了”。
为了证明这一点,研究人员进行了一项压力测试: 他们强迫扮演“凶手”的智能体自爆身份或表现出明显的反常行为。

如 表 3 所示,即使当角色实际上被“强迫”揭示其犯罪性质时 (由 “w/ E” 列表示) ,像 Qwen-1.5-7B 和 GLM-4-9B 这样的模型几乎没有降低它们的信任水平。
Yi-1.5-9B 是这里的一个特例。它是唯一一个在面对确凿证据时显著增加怀疑 (降低 TII) 的模型。这表明,虽然模型可以推理,但它们的安全训练或对齐可能会使它们偏向于合作,即使在上下文要求对抗的时候也是如此。
“话痨侦探”现象
LLM 在长时间的游戏过程中表现如何?它们会坚持寻找线索,还是会分心?

图 2 揭示了一个有趣的行为模式。蓝线 (线索) 在开始时急剧上升。在最初的几轮中,LLM 是热情的调查员,探索环境并收集数据。
然而,随着游戏的进行,斜率下降。智能体的注意力从搜查转移到了对话 。 比起寻找确凿证据,它们更喜欢与其他嫌疑人聊天。关键在于,绿线 (关键线索——解决谋杀案实际需要的线索) 上升缓慢且颠簸。这表明,虽然 LLM 擅长寻找一般信息,但它们难以识别哪些信息是关键的,往往直到太晚才发现“铁证”。
场景类型的影响
MIRAGE 的“多重宇宙”特性使研究人员能够观察 LLM 最擅长哪种类型的故事。
1. 剧本长度 (单阶段 vs. 多阶段)

如 图 3 所示,模型在多阶段剧本 (黄色/方格条) 中的交互性 (ICI) 通常表现更好。这是反直觉的;人们可能认为单一、简短的剧本更容易。然而,将故事分成章节可能有助于 LLM 更好地管理上下文,防止信息过载,并允许在每个阶段进行更集中的推理。
2. 现实主义 vs. 奇幻 (正统 vs. 非正统)


从设定来看, 图 5 显示 LLM 在非正统 (奇幻) 剧本中的交互性 (ICI) 得分通常更高。奇幻设定的创造性自由似乎发挥了生成式 AI 的优势。
然而, 图 6 显示,在这些奇幻剧本中,剧本依从性 (SCI) 有所下降 (深色方格条通常较低) 。虽然 LLM 喜欢奇幻设定,但与现实谋杀谜案的扎实逻辑相比,它们难以严格遵守超自然世界中复杂的虚构规则。它们倾向于“产生幻觉”或偏向一般的人类行为,而不是坚持剧本的特定设定。
3. 开放式 vs. 封闭式结局


最后,对比封闭式 (固定结局) 与开放式 (可变结局) 剧本,我们看到模型在封闭式剧本上表现通常更好( 图 8 中的浅色条) 。当环境稳定且目标明确时,AI 表现出色。当结局是动态的且严重依赖复杂的社会操纵 (开放式) 时,AI 维持连贯叙事弧线的能力就会下降。
结论与启示
MIRAGE 论文表明,虽然大语言模型已经变得非常复杂,但它们还不是神探。
该研究强调了当前 LLM 的三个主要“认知”差距:
- 社会化轻信: 它们难以保持怀疑和检测欺骗,这可能是促进乐于助人的安全对齐带来的副作用。
- 注意力漂移: 随着任务的进行,它们优先考虑社交闲聊而不是硬性调查。
- 上下文脆弱性: 它们在结构化、现实的环境中表现良好,但在复杂、开放式或超自然场景中难以保持剧本的一致性。
这为什么重要? 除了棋盘游戏,这些发现对现实世界中的 AI 智能体也有影响。如果我们希望 AI 能够进行合同谈判、协助法律取证或处理复杂的社会动态,它们需要的不仅仅是生成流畅的文本。它们需要权衡证据、辨别真伪,并在不被谈话分心的情况下保持长期目标——这些技能目前最好还是去平装推理小说里寻找。
对于学生和研究人员来说,MIRAGE 提供了一个强大的新游乐场。代码和数据集已经公开,为下一代“数字侦探”磨练演绎推理能力奠定了基础。
](https://deep-paper.org/en/paper/2501.01652/images/cover.png)