如果你玩过“角色扮演智能体” (Role-Playing Agent,简称 RPA) ——也就是那种旨在扮演哈利·波特、夏洛克·福尔摩斯或你最喜欢的动漫角色的 AI 聊天机器人——你可能会对它模仿角色说话风格的能力印象深刻。但你是否想过: AI 真的理解这个角色吗?还是说它只是在机械地模仿口头禅和表面特征?

随着像 GPT-4 和 Claude 3 这样的大型语言模型 (LLM) 不断进化,对复杂 RPA 的需求也在激增。然而,确得这些智能体真正掌握角色的深度——他们复杂的人际关系、不断发展的性格以及隐藏的动机——仍然是一个巨大的挑战。

在一篇题为 “Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works” (通过虚构作品的角色侧写评估大型语言模型的角色理解能力) 的引人入胜的论文中,复旦大学的研究人员提出了一种测试这种“角色素养”的新方法。他们不再只是要求 AI “像蝙蝠侠一样行事”,而是要求它直接从小说原文中构建该角色的全面心理和生平侧写 (Profile) ,然后利用该侧写来解释角色为什么会做出某些决定。

在这篇深度文章中,我们将探索这种“角色侧写”框架是如何工作的,研究人员构建的独特数据集,以及实验结果告诉我们要达到真正的 AI 文学理解还有多远。

问题所在: 超越单纯的模仿

在这项研究之前,评估 LLM 对虚构角色的理解程度通常通过基本的分类任务或模仿任务来完成。

  1. 分类: 模型能否根据一句台词猜出是谁在说话?
  2. 模仿: 模型能否生成听起来像该角色的文本?

虽然有用,但这些方法都很肤浅。模型可能知道尤达大师说话喜欢用倒装句,但却不理解为什么他要警告卢克·天行者警惕黑暗面。真正的理解需要掌握角色的细微差别——他们的历史、他们变化的人际关系以及他们行动背后的心理驱动力。

研究人员认为,如果一个 LLM 真正理解一个角色,它应该能够执行角色侧写 (Character Profiling) : 即从书本的原始文本中总结角色的生活和心理状态。然后,这个侧写就成为了解角色决策的基础。

解决方案: 角色侧写框架

这篇论文的核心贡献是一个新的评估框架,它模拟了文学学者分析文本的方式。该过程分为两部分: 生成侧写,然后测试该侧写的实用性。

1. 构建侧写

研究人员将高质量的角色侧写定义为这就包含了四个不同维度的结构化摘要,而不仅仅是简单的简介:

  • 属性 (Attributes) : 基本信息——性别、技能、天赋、目标和背景。
  • 关系 (Relationships) : 角色如何与他人 (朋友、敌人、家人) 互动。
  • 事件 (Events) : 角色经历的关键体验的按时间顺序摘要。
  • 性格 (Personality) : 定义他们是谁的内在特征和行为。

图 1: LLM 角色侧写概述及我们提出的两个评估任务,包括事实一致性检查和动机识别。

图 1 所示,该过程首先将小说 (如《哈利·波特》) 的原始文本输入到 LLM 中。LLM 必须将文本综合成四个侧写维度。一旦生成了侧写,它就要接受两种类型的严格测试:

  1. 事实一致性检查 (FCE) : 生成的侧写是否忠实于原著?
  2. 动机识别 (MR) : AI 能否利用这个侧写正确识别特定情节决策背后的动机? (例如,哈利为什么决定保守老魔杖归属的秘密?)

2. CROSS 数据集

为了评估这些侧写,你需要一个“标准答案”——即基准真值。研究人员创建了 CROSS 数据集 (Character Profiles from SuperSummary) 。

他们选择了 126 本出版于 2022 年和 2023 年的小说 (以尽量减少旧版 LLM 在预训练期间记住这些书的可能性) 。然后,他们使用 SuperSummary——一个由文学专家提供详细书籍摘要和角色分析的平台——作为黄金标准。通过将 AI 生成的侧写与这些专家撰写的分析进行比较,他们可以客观地衡量性能。

处理长篇小说: 上下文窗口的挑战

这项研究中最大的技术障碍之一是小说的篇幅。一本典型的小说可能包含超过 100,000 个 Token (单词和标点符号) 。虽然一些现代模型拥有巨大的上下文窗口,但许多模型并没有。如何将整本书放入模型中以生成侧写?

研究人员测试了三种不同的摘要策略,如图 2 所示:

图 2: 基于 LLM 的角色侧写长文本处理的三种方法。

  • (a) 层级合并 (Hierarchical Merging) : 将书分成块。模型总结每个块 (第 1 层) ,然后总结这些摘要 (第 2 层) ,依此类推,直到创建一个最终的“总摘要”。这种方法效率很高,但在较高层级可能会丢失细节。
  • (b) 增量更新 (Incremental Updating) : 这模仿了人类的阅读方式。模型阅读第一个块并进行总结。然后它阅读第二个块并用新信息更新之前的摘要。这有助于保持叙事流畅,但速度较慢,且如果摘要被过度压缩,容易“忘记”早期的细节。
  • (c) 一次性总结 (Summarizing in One Go) : 对于具有巨大上下文窗口的模型 (如 GPT-4-Turbo) ,一次性输入整本书。

评估阶段 1: 侧写准确吗? (内在评估)

一旦 LLM 使用上述方法生成了侧写,研究人员就需要检查其准确性。他们采用了“LLM 即裁判 (LLM-as-a-Judge) ”的方法,使用 Llama-3-70B 将生成的侧写与 CROSS 数据集中的专家摘要进行比较。

以“一致性得分” (1 到 5 分) 衡量的结果揭示了一些有趣的趋势。

表 2: 不同 LLM 在角色侧写和动机识别上的性能结果。

数据中的关键要点:

  1. 越大越好: 不出所料, GPT-4-Turbo 在该领域占据主导地位,在几乎所有维度上都获得了最高的一致性得分。
  2. 一次性输入获胜: 对于能放入上下文窗口的书籍, “一次性总结” 方法 (如表 2 底部所示) 通常优于分块方法。这表明,拥有全局的全文访问权限可以让模型更好地连接相隔数章的线索。
  3. “事件”维度的挣扎: 仔细观察表 2 中的分数。在几乎所有模型中, “Even” (事件) 维度的得分始终低于“Attr” (属性) 或“Pers” (性格) 。在这里,LLM 与人类不同;它们擅长描述某人是谁 (性格) ,但在准确总结发生了什么 (事件) 的时间顺序因果链方面却很吃力。

评估阶段 2: 侧写有助于我们理解动机吗? (外在评估)

这项研究的第二部分,或许也是更具创新性的部分,是动机识别 (MR) 任务。

在叙事心理学中,理解一个角色不仅仅是列出事实;它是关于“心智理论”——理解他们为什么做他们所做的事情。研究人员针对书中角色做出的具体决定创建了多项选择题。

  • 任务: 给 LLM 一个场景 (例如,“诺拉决定和查理分手”) 以及它自己生成的侧写。然后,它必须从四个选项中选出这一决定的正确理由。

结果验证了侧写的重要性。配备了高质量生成侧写的模型在识别动机方面表现明显更好。这其中存在很强的相关性: 侧写的事实一致性越高 (阶段 1) ,模型对角色动机的理解就越好 (阶段 2) 。

消融研究: 什么信息最重要?

为了确切了解角色侧写的哪些部分驱动了理解,研究人员进行了一项“消融研究”。他们有选择地移除某些维度 (比如删除“事件”部分或“性格”部分) ,然后检查模型在动机识别上的表现下降了多少。

表 3: 动机识别消融研究结果。

关键发现:表 3 所示,移除事件 (Events) 维度导致准确率下降幅度最大 (从 57.75% 降至 48.54%) 。

对于角色扮演智能体的开发者来说,这是一个至关重要的见解。我们通常专注于给 AI 智能体一个“性格”提示词 (例如,“你脾气暴躁且愤世嫉俗”) 。然而,这项研究表明, 情节历史 (事件) 实际上是 AI 正确推理角色决策的最重要因素。如果不了解角色经历了什么,无论其性格特征定义得多么好,AI 都无法理解他们的动机。

LLM 在哪里失败了?关于幻觉的审视

尽管像 GPT-4 这样的模型取得了成功,但它们并不完美。研究人员进行了人工错误分析,以查看侧写过程是在哪里出问题的。

表 4: 模型在角色侧写任务中常见错误的案例研究。

表 4 强调了常见的陷阱:

  1. 角色识别错误: 在包含“戏中戏”或视角转换的复杂书籍中,LLM 有时会混淆角色。例如,在《信任》 (Trust) 一书中,模型混淆了小说内部虚构手稿中的角色与小说主时间线中的“真实”角色。
  2. 事件误解: LLM 很难处理情节反转。如果一个角色在最后一章被揭露是叛徒,“增量更新”方法可能无法修正早期的摘要,因为之前的摘要将他们描述为忠实的朋友。
  3. 关系错误: 关系的细微差别 (例如,“邻居”与“孙子”) 经常丢失,导致事实性幻觉。

模型只是背下了书的内容吗?

对 LLM 研究的一个常见批评是“数据污染”——即模型之所以知道答案,是因为它在训练阶段读过这本书。

为了减轻这种影响,研究人员使用了 2022 年和 2023 年出版的书籍。他们还进行了一项合理性检查,将这些近期书籍的表现与 20 世纪非常著名的书籍 (如《1984》或《小王子》) 的表现进行了比较。

表 7: goodreads “20 世纪最佳书籍”榜单中 10 本书的角色侧写结果。

正如预期的那样 (如表 7 所示) ,模型在 20 世纪经典名著上的得分高得惊人 (一致性得分 4.7) ,很可能是因为它们在网上看过无数关于《1984》的讨论和总结。

然而,在查看近期书籍的主数据集时,表现较低,而且关键是,在不同年份之间表现稳定。

图 3: goodreads “{#the year} 年度最佳书籍”榜单中不同年份书籍的平均一致性得分。

图 3 显示,出版年份 (在过去十年中) 与模型的表现之间没有显著的相关性。这表明模型确实是在总结提供给它们的文本,而不是依赖记忆中的维基百科页面。

结论与未来启示

论文 “Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works” 为我们如何构建和测试 AI 角色迈出了重要一步。

主要收获:

  1. 侧写有效: 生成结构化侧写是将整本小说提炼为 AI 可用格式的有效方法。
  2. 上下文为王: 能够一次性处理整本书 (“一次性总结”) 比将其分块处理产生更好的结果。
  3. 历史很重要: 要让 AI 理解角色的动机,仅仅给它列出性格特征是不够的。它需要事件的按时间顺序摘要。
  4. 复杂性很难: LLM 仍然难以处理人类读者喜欢的复杂、非线性叙事 (闪回、不可靠的叙述者、嵌套故事) 。

对于对角色扮演智能体感兴趣的学生和开发者来说,信息很明确: 如果你想让你的 AI 真正体现一个角色,不要只告诉它如何行动。把角色的生平故事喂给它。“事件”维度——角色所受苦难和成就的历史——是解锁真正角色理解的关键。