数字侦探：大语言模型能破解复杂的谋杀谜案吗？

引言

在经典文学的殿堂里，谋杀悬疑小说独树一帜。从阿加莎·克里斯蒂笔下的赫尔克里·波洛，到亚瑟·柯南·道尔创造的夏洛克·福尔摩斯，破案需要一种独特的混合技能: 收集零散信息、看穿复杂的欺骗网络、理解人类心理，并在压力下进行逻辑推演。

对于人工智能研究人员来说，这带来了一个迷人的挑战。我们知道像 GPT-4 这样的大语言模型 (LLM) 擅长处理文本和通过标准化测试。但它们能扮演一个角色、为了保守秘密而撒谎，或者在一屋子嫌疑人中找出凶手吗？

这正是 MIRAGE (Multiverse Interactive Role-play Ability General Evaluation，多重宇宙交互式角色扮演能力通用评估) 背后的核心问题，这是由复旦大学和小红书的研究人员推出的一个新框架。以往尝试模拟 AI 社会行为的研究通常依赖于规则严格的棋盘游戏，如《狼人杀》 (Werewolf) 或《阿瓦隆》 (Avalon) ，而 MIRAGE 则向前迈进了一步，利用了谋杀谜案游戏 (在中国通常被称为“ 剧本杀 ”) 。这些半结构化、叙事性强的游戏为测试 AI 的“社会化思考”和欺骗能力提供了更为严格的考验。

在本文中，我们将拆解 MIRAGE 框架，探索研究人员如何量化各种 LLM 的“侦探技能”，并分析为什么即使是最先进的模型也难以抓获凶手。

背景: 为什么要用谋杀谜案？

要理解 MIRAGE 的重要性，我们首先要看看当前基准测试的局限性。

现有模拟的问题

长期以来，研究人员一直使用游戏来测试 AI 智能体 (Agent) 。“智能体”本质上是被包裹在软件循环中的 LLM，这使它们能够感知环境、做出决策并采取行动。

沙盒模拟 (如《模拟人生》风格) : 这些模拟测量社会互动，但往往缺乏明确的目标或竞争压力。
逻辑游戏 (如《狼人杀》) : 这些游戏涉及欺骗，但通常遵循严格的机械流程 (例如具有二元投票选择的“白天/黑夜”阶段) 。它们缺乏叙事深度。

真实的人类社会互动是混乱的。它涉及信息不对称 (我知道你不知道的事情) 、长期记忆以及信任与怀疑的权衡。

解决方案: 剧本杀

谋杀谜案游戏是一个完美的中间地带。它们需要:

角色扮演: AI 必须保持在角色中 (例如，一个嫉妒的爱人或一个贪婪的商业伙伴) 。
信息收集: 玩家必须主动“搜查”房间或“审讯”其他人。
复杂推理: 解决方案没有明确写出来；必须从碎片化的线索中推断出来。

MIRAGE 框架

研究人员构建了一个场景的“多重宇宙”，以确保评估结果不是偶然的。该框架由剧本、模拟引擎以及让 AI 智能体保持正轨的辅助模块组成。

1. 模拟流程

一个典型的 MIRAGE 会话涉及多个 AI 智能体互相对抗。游戏分为三个明显的阶段。

图 1: MIRAGE 的三个主要阶段以及这些阶段中的主要组成部分。

如图 1 所示，流程模仿了现实生活中的桌面游戏:

A 阶段: 公开对话 (Open Conversation): 智能体进行自然语言对话。它们可以撒谎、分享信息或互相指责。
B 阶段: 环境交互 (Interaction with Environment): 这是侦探工作发生的地方。智能体选择询问 (Ask) 其他玩家特定问题，或搜查 (Investigate) 地点以寻找线索 (例如，在嫌疑人的房间里发现硫酸) 。
C 阶段: 凶手投票 (Murder Voting): 基于收集到的证据，智能体必须投票选出罪魁祸首。如果平民指认出凶手，他们获胜。如果凶手在投票中幸存，则凶手获胜。

2. 剧本

这篇论文的一个主要贡献是创作了八个独特的剧本。这些不仅仅是简单的提示词 (prompt) ；它们是包含角色背景故事、关系和隐藏目标的详细叙事。

表 1: MIRAGE 模拟中八个环境的统计信息。

如表 1 详述，剧本在多个维度上有所不同，以测试不同的能力:

正统 (Orthodox) vs. 非正统 (Unorthodox): “正统”剧本是现实主义的 (例如游轮上的犯罪) ，而“非正统”剧本涉及奇幻或超自然元素 (例如“狐狸旅馆”或“博物馆奇妙夜”) 。
单阶段 (Single) vs. 多阶段 (Multi-Stage): 有些剧本一次性给出所有信息；其他的则分章节展开，测试 AI 适应新信息的能力。
开放式 (Open) vs. 封闭式 (Close) 结局: 开放式结局允许玩家的行为显著改变结果，而封闭式结局有一个固定的真相等待发现。

3. 幕后机制: 辅助模块

LLM 有其局限性——它们可能会忘记上下文、感到困惑或脱离角色 (OOC) 。为了让模拟正常进行，研究人员为 LLM 封装了几个辅助模块:

摘要模块: 压缩旧的对话，以免 LLM 耗尽内存 (上下文窗口限制) 。
怀疑与信任模块: 这是一个巧妙的设计。每次对话后，系统都会要求 LLM 秘密地对自己对他人的信任度和怀疑度进行评分。这种内心独白对其他玩家是隐藏的，但对研究人员的评估至关重要。
重运行模块: 如果 LLM 输出无意义的内容或未能遵循游戏格式，该模块会强制其重试。

衡量侦探技能: 评估指标

如何给侦探打分？仅仅“获胜”是不够的，因为玩家可能靠运气获胜。研究人员开发了四个具体的指标来评估推理的过程。

1. 信任倾向指数 (Trust Inclination Index, TII)

这个指标衡量一个智能体是容易轻信还是多疑。它比较了由辅助模块生成的内部“信任”分数和“怀疑”分数。

方程 1 展示了 TII 的计算公式。

高 TII 意味着该模型倾向于轻易相信他人。低 TII 意味着怀疑。正如我们将看到的，这种平衡对 AI 来说是最难的部分。

2. 线索搜查能力 (Clue Investigation Capability, CIC)

这衡量了智能体收集物理证据的效率。

方程 2 展示了 CIC 的计算公式。

它的计算方式是发现的线索数与可发现的总线索数之比。一个把所有时间都花在聊天而从不搜查犯罪现场的智能体，其 CIC 会很低。

3. 交互能力指数 (Interactivity Capability Index, ICI)

这是一个定性指标。一个强大的中立 LLM (GPT-4-Turbo) 充当裁判，阅读游戏日志并对智能体进行评分，评分维度包括:

推理与分析
沟通与合作
观察力
思维创新

4. 剧本依从指数 (Script Compliance Index, SCI)

AI 真的在进行角色扮演吗？如果一个角色设定是一个粗鲁的海盗，但 AI 说话像个礼貌的客服机器人，那它在这个指标上就失败了。SCI 衡量智能体对其分配的角色和背景故事的遵守程度。

实验与结果

研究人员将多个模型放入 MIRAGE 框架中进行测试，包括 GPT-4, GPT-4o, GPT-3.5, Qwen-2-7B, 和 GLM-4-9B 。结果为了解 AI 社会智能的现状提供了令人惊讶的见解。

整体表现

表 11: MIRAGE 的主要实验结果

综合结果 (如上表所示) 凸显了一个清晰的层级。 GPT-4o 总体上表现出最一致的优势，在线索搜查 (CIC) 、交互性 (ICI) 和剧本依从性 (SCI) 方面均获得了最高分。

然而，原始智力并不总是转化为胜利。令人惊讶的是，开源模型 Qwen-2-7B 在某些综合指标中获得了最高的“胜率 (Victory)” (51.81%) ，尽管其推理得分低于 GPT-4。为什么？这很可能归结于信任的动态变化。

轻信问题

最引人注目的发现之一是 LLM 明显缺乏怀疑精神。大多数模型表现出很高的 信任倾向指数 (TII) 。在一个关于谋杀和欺骗的游戏中，LLM 天生就“太好了”。

为了证明这一点，研究人员进行了一项压力测试: 他们强迫扮演“凶手”的智能体自爆身份或表现出明显的反常行为。

表 3: 当 Qwen-2-7B 扮演凶手时，各模型作为平民时的 TI 分数，其中 E 表示强制自爆的情况。

如 表 3 所示，即使当角色实际上被“强迫”揭示其犯罪性质时 (由 “w/ E” 列表示) ，像 Qwen-1.5-7B 和 GLM-4-9B 这样的模型几乎没有降低它们的信任水平。

Yi-1.5-9B 是这里的一个特例。它是唯一一个在面对确凿证据时显著增加怀疑 (降低 TII) 的模型。这表明，虽然模型可以推理，但它们的安全训练或对齐可能会使它们偏向于合作，即使在上下文要求对抗的时候也是如此。

“话痨侦探”现象

LLM 在长时间的游戏过程中表现如何？它们会坚持寻找线索，还是会分心？

图 2: 使用 Qwen-2-7B 进行 100 轮 MIRAGE 时，线索 (Clues) 和关键线索 (Key Clues) 的 CIC 变化

图 2 揭示了一个有趣的行为模式。蓝线 (线索) 在开始时急剧上升。在最初的几轮中，LLM 是热情的调查员，探索环境并收集数据。

然而，随着游戏的进行，斜率下降。智能体的注意力从搜查转移到了对话。比起寻找确凿证据，它们更喜欢与其他嫌疑人聊天。关键在于，绿线 (关键线索——解决谋杀案实际需要的线索) 上升缓慢且颠簸。这表明，虽然 LLM 擅长寻找一般信息，但它们难以识别哪些信息是关键的，往往直到太晚才发现“铁证”。

场景类型的影响

MIRAGE 的“多重宇宙”特性使研究人员能够观察 LLM 最擅长哪种类型的故事。

1. 剧本长度 (单阶段 vs. 多阶段)

图 3: 单阶段与多阶段类型剧本的 ICI 对比

如 图 3 所示，模型在多阶段剧本 (黄色/方格条) 中的交互性 (ICI) 通常表现更好。这是反直觉的；人们可能认为单一、简短的剧本更容易。然而，将故事分成章节可能有助于 LLM 更好地管理上下文，防止信息过载，并允许在每个阶段进行更集中的推理。

2. 现实主义 vs. 奇幻 (正统 vs. 非正统)

图 5: 正统与非正统类型剧本的 ICI 对比

图 6: 正统与非正统类型剧本的 SCI 对比

从设定来看, 图 5 显示 LLM 在非正统 (奇幻) 剧本中的交互性 (ICI) 得分通常更高。奇幻设定的创造性自由似乎发挥了生成式 AI 的优势。

然而, 图 6 显示，在这些奇幻剧本中，剧本依从性 (SCI) 有所下降 (深色方格条通常较低) 。虽然 LLM 喜欢奇幻设定，但与现实谋杀谜案的扎实逻辑相比，它们难以严格遵守超自然世界中复杂的虚构规则。它们倾向于“产生幻觉”或偏向一般的人类行为，而不是坚持剧本的特定设定。

3. 开放式 vs. 封闭式结局

图 7: 封闭式与开放式类型剧本的 ICI 对比

图 8: 封闭式与开放式类型剧本的 SCI 对比

最后，对比封闭式 (固定结局) 与开放式 (可变结局) 剧本，我们看到模型在封闭式剧本上表现通常更好( 图 8 中的浅色条) 。当环境稳定且目标明确时，AI 表现出色。当结局是动态的且严重依赖复杂的社会操纵 (开放式) 时，AI 维持连贯叙事弧线的能力就会下降。

结论与启示

MIRAGE 论文表明，虽然大语言模型已经变得非常复杂，但它们还不是神探。

该研究强调了当前 LLM 的三个主要“认知”差距:

社会化轻信: 它们难以保持怀疑和检测欺骗，这可能是促进乐于助人的安全对齐带来的副作用。
注意力漂移: 随着任务的进行，它们优先考虑社交闲聊而不是硬性调查。
上下文脆弱性: 它们在结构化、现实的环境中表现良好，但在复杂、开放式或超自然场景中难以保持剧本的一致性。

这为什么重要? 除了棋盘游戏，这些发现对现实世界中的 AI 智能体也有影响。如果我们希望 AI 能够进行合同谈判、协助法律取证或处理复杂的社会动态，它们需要的不仅仅是生成流畅的文本。它们需要权衡证据、辨别真伪，并在不被谈话分心的情况下保持长期目标——这些技能目前最好还是去平装推理小说里寻找。

对于学生和研究人员来说，MIRAGE 提供了一个强大的新游乐场。代码和数据集已经公开，为下一代“数字侦探”磨练演绎推理能力奠定了基础。

引言#

背景: 为什么要用谋杀谜案？#

现有模拟的问题#

解决方案: 剧本杀#

MIRAGE 框架#

1. 模拟流程#

2. 剧本#

3. 幕后机制: 辅助模块#

衡量侦探技能: 评估指标#

1. 信任倾向指数 (Trust Inclination Index, TII)#

2. 线索搜查能力 (Clue Investigation Capability, CIC)#

3. 交互能力指数 (Interactivity Capability Index, ICI)#

4. 剧本依从指数 (Script Compliance Index, SCI)#

实验与结果#

整体表现#

轻信问题#

“话痨侦探”现象#

场景类型的影响#

结论与启示#

引言