教机器读懂言外之意：利用 LLM 提取故事寓意

引言

“所有的故事都有教益。”文学评论家韦恩·布斯 (Wayne Booth) 的这句话概括了人类交流的一个基本真理。无论是睡前童话、引人入胜的小说，还是社交媒体上的新闻片段，叙事很少仅仅是为了娱乐而存在。它们是价值观的载体，编码了关于世界如何运作、我们应该如何行为以及我们应该信仰什么的教训。

对于计算机科学家和数字人文学者来说，利用现代自然语言处理 (NLP) 技术理解故事的“情节” (事件的顺序) 已经变得越来越容易。我们可以自动总结发生了什么: “国王死了，然后王后因悲伤过度也死了。”

但是，理解为什么要讲这个故事——挖掘其底层的寓意 (moral) 或信息 (message) ——仍然是一个巨大的挑战。寓意并不是明确写在文本中的；它是从事件中衍生出的高层抽象。它需要读者读懂言外之意。

在研究论文 《Story Morals: Surfacing value-driven narrative schemas using large language models》 (故事寓意: 利用大型语言模型挖掘价值驱动的叙事图式) 中，来自麦吉尔大学的研究人员提出了一种自动化这一复杂任务的新颖框架。他们证明了大型语言模型 (LLMs) ，特别是 GPT-4，可以被引导从各种叙事中提取价值驱动的教训。通过这种方式，他们为大规模文化分析打开了一扇新窗口，使我们能够绘制不同文化和体裁中人类叙事的“道德景观”。

问题所在: 从情节到意图

要理解这项研究的重要性，我们必须区分叙事内容 (narrative content) 和叙事图式 (narrative schema) 。

内容问的是: “发生了什么？” (例如: 一只乌龟和一只兔子赛跑。兔子睡着了。乌龟赢了。)
图式 (特别是故事寓意) 问的是: “这个故事教了什么课？” (例如: 坚持不懈胜过天赋，或者“慢工出细活/稳扎稳打赢得比赛”。)

传统的计算方法在处理后者时很吃力，因为寓意是主观的和解释性的。不同的读者可能会从同一个文本中提取出略有不同的教训，但这些教训通常共享一个语义核心。

研究人员认为，提取这些寓意对于计算叙事理解 (Computational Narrative Understanding) 至关重要。如果我们能自动提取寓意，我们就能分析成千上万个故事，看看不同文化优先考虑什么价值观，叙事教训如何随时间演变，以及不同的体裁 (如新闻与小说) 如何编码它们的信息。

方法: 通过提示获取智慧

这篇论文的核心贡献是一套利用 LLM 提取这些寓意的方法。研究人员并没有简单地问模型“寓意是什么？”就完事了。相反，他们认识到推导教训需要一个综合的认知过程。

他们开发了一个多步提示序列 (multi-step prompting sequence) , 旨在模仿人类的“思维链 (chain-of-thought) ”推理。为了提取高质量的寓意，模型首先被要求识别叙事的构建模块。

表 2: 用于叙事理解和故事寓意标注的提示。

如上图表 2 所示，该流程运作如下:

摘要 (Summary) : 首先，模型总结故事。这确保了 LLM 在做出更高层判断之前，在其“上下文”中保留了关键事件。
主体 (Agents) : 模型识别主角和反派，并对主角的角色进行分类 (英雄、反派或受害者) 。这将注意力集中在那些行为驱动寓意的角色身上。
话题 (Topic) : 模型识别中心议题 (例如，“背叛”、“野心”) 。
寓意 (The Moral) : 最后，模型被要求以三种不同的格式提供寓意:

自由文本寓意 (Free-text Moral) : 总结教训的单句话。
正面寓意 (Positive Moral / Moral+) : 以“…is good behavior (……是好行为) ”结尾的关键词短语。
负面寓意 (Negative Moral / Moral-) : 以“…is bad behavior (……是坏行为) ”结尾的关键词短语。

这种结构化的方法允许模型通过文本进行“推理”，从而产生更稳健且具有上下文意识的输出。

验证: LLM 真的理解寓意吗？

这个领域的一个主要障碍是没有单一的“基准真值 (ground truth) ”。如果你问五个人《了不起的盖茨比》的寓意是什么，你可能会得到五个不同的答案。然而，这些答案通常是相关的且在语义上是有关联的。

为了验证他们的方法，作者构建了一个包含 144 个叙事的多样化数据集，涵盖民间故事、书籍摘要、Reddit 个人故事和政治新闻 。然后，他们将 LLM 的输出与人类的标注进行了比较。

寓意的主观性

下表说明了这项任务的复杂性。它展示了人类为民间故事和新闻文章撰写的寓意。

表 1: 来自民间故事 (左) 和新闻文章 (右) 的人类寓意样本。我们在此提供了文章的简要摘要，而在我们的提示场景中使用的是完整故事。加粗的寓意更为相似，但所有寓意都可以被视为正确。请注意，这里训练的目标不是要在标注者之间达成一致 (因为不同的解释是可取的) ，而是要确对定义的一致理解。

在表 1 中，注意“The Lost Camel (走失的骆驼) ”的寓意是如何变化的。一个人写道“Good benevolent leadership pays off (好的仁慈领导会有回报) ”，而另一个人写道“Intelligence will be rewarded (智慧将得到回报) ”。这是不同的概念，但都是对同一文本的有效解释。AI 的目标不是完美匹配某个人类，而是生成一个符合这些有效人类解释分布的寓意。

自动化与人工评估

研究人员使用自动化指标 (如 BERTScore 和 GloVe 嵌入) 来衡量人类撰写的寓意与 GPT-4 撰写的寓意之间的语义相似度。

$表 3: 验证数据集中不同标注者组之间成对寓意的 Rouge 中位数和相似度分数 (满分 100) 。在零假设为人类-人类和人类-GPT 分布相同的情况下，Mann-Whitney U 检验 (秩和检验) 的 P 值均小于 \$1 0 ^ { - 5 }\$。$

表 3 揭示了一个有趣的见解: 人类与 GPT 回答之间的相似度 (中间一列) 通常比不同人类之间的相似度 (左侧一列) 更高。

这意味着什么？这表明 GPT-4 扮演了一种“普通读者”的角色。它的解释位于人类意义云团的中心，而不是一个异常值。

大众更偏爱机器

为了进一步验证，研究人员使用 Amazon Mechanical Turk 进行了一种“图灵测试”。众包工作者会看到一个故事和三个潜在的寓意 (两个由人类编写，一个由 GPT-4 编写) ，并被要求投票选出“最适用”的一个。他们不知道哪一个是由 AI 生成的。

表 10: 按体裁划分的段落百分比，其中 GPT 的回答被大多数 AMT 工作者选中。

表 10 中的结果令人震惊。几乎在每一种体裁中——无论是民间故事、新闻还是书籍摘要——GPT 生成的寓意在大多数情况下都被选为最适用的答案。

定性分析表明，人类更喜欢 AI 的寓意，因为它们通常更清晰、更明确。虽然人类标注者有时会写下简短的命令式指令 (“坚持信念”) ，但 LLM 倾向于解释因果关系 (“追求复仇可能导致复杂的联盟……”) ，读者认为这更全面。

应用: 世界的道德地图

在验证了该工具的有效性后，作者将其应用于一个庞大的数据集: 来自 54 个不同文化的 1,760 个民间故事 。

这正是“故事寓意”展现威力的地方。在传统的文本分析中，如果你基于原始文本对故事进行聚类，计算机是根据词汇进行分组的。关于“狼”的故事放在一堆；关于“国王”的故事放在另一堆。

但是，关于狼的故事和关于国王的故事可能教导完全相同的教训 (例如，“不要贪婪”) 。通过对 LLM 提取的寓意进行聚类，研究人员可以根据价值观而不是表面特征来绘制故事地图。

表面文本 vs. 深层价值观

下表比较了基于完整故事文本分析生成的聚类与基于提取的寓意分析生成的聚类。

表 5: 使用完整句子寓意的嵌入与完整故事相比，民间故事的前 10 大聚类。给出的单词是每个聚类中通过 c-TF-IDF 测量的最具代表性的前 3 个单词。仅包含长度超过 3 个字母的单词。

表 5 显示了明显的差异:

完整文本 (右栏) : 聚类基于名词和角色: “女儿、国王、公主”，“男孩、农夫、老人”，“母鸡、女人、小的”。这告诉我们故事里有谁。
完整句子寓意 (左栏) : 聚类基于抽象概念: “挑战、独创性、克服”，“爱、障碍、真诚”，“狡猾、欺骗、诡计”。这告诉我们故事的意义是什么。

这种方法允许研究人员找到“主题邻居”——即来自世界完全不同地区但拥有相同灵魂的故事。

可视化道德景观

研究人员将这些道德聚类投影到二维地图上，以可视化民间故事数据集中的教训分布。

图 1: 使用 UMAP 降维后的完整句子寓意的聚类质心的 2D 表示。每个圆圈对应一个聚类。为了可读性，每个岛屿中只有少数几个最大的聚类被着色。圆圈大小与聚类的大小有关。

在图 1 中，每个圆圈代表一组共享特定道德主题的故事。

红色: 通过独创性克服挑战的主题。
蓝色: 爱克服障碍的主题。
粉色: 正义战胜邪恶的主题。

这种可视化证明了特定的道德原型是普遍存在的。虽然角色在变 (在大洋洲是鲨鱼，在欧洲是狼) ，但教训的底层结构——“寓意”——在不同的人类文化中保持着惊人的一致性。

正面与负面的细微差别

研究人员还分别分析了“正面”和“负面”的道德关键词。这有助于解开复杂的教训。

图 3: 使用 UMAP 降维后的正面和负面寓意的聚类质心的 2D 表示。每个圆圈对应一个聚类。为了可读性，每个岛屿中只有最大的聚类被着色。聚类的大小与聚类的大小有关。图例名称给出了聚类索引，随后是通过 c-TF-IDF 确定的每个聚类中最具代表性的前 3 个单词。

图 3 展示了这些分离的价值聚类。

正面 (a): 聚焦于诸如毅力、慷慨、聪明和智慧等美德。
负面 (b): 聚焦于诸如欺骗、贪婪、傲慢和不服从等恶习。

这种分离允许进行细粒度的文化分析。例如，研究人员注意到统计上显著的区域差异。在其数据集中，来自北美的民间故事在关于知足和感恩的寓意上出现的频率高于随机概率。来自非洲的故事则显示出关于机智/聪明的寓意频率更高。

虽然作者谨慎地指出他们的数据集可能无法完美代表所有文化 (它依赖于英语翻译) ，但这种方法证明了我们现在可以定量地衡量这些文化“氛围”。

深入观察聚类

最后，我们可以看看这些聚类的具体内容，以体会 AI 理解的深度。

表 16: 完整句子寓意的所有聚类

表 16 提供了发现的道德主题的详细列表。我们可以看到非常具体的聚类，例如:

聚类 14: “打破承诺，尤其是对你爱的人许下的承诺，会导致不可逆转的损失和遗憾。”
聚类 33: “许愿需谨慎，因为追求欲望可能会导致意想不到的后果。”
聚类 52: “真正的领导力来自于谦逊和为更崇高的事业服务。”

这种程度的语义分组实际上是不可能通过标准关键词搜索实现的。它需要 LLM “理解”故事的意图。

结论与启示

论文《Story Morals》展示了数字人文和 NLP 领域的重大飞跃。通过将焦点从“发生了什么”转移到“为什么要讲这个故事”，作者提供了一个挖掘我们叙事中编码的价值体系的框架。

关键要点

LLM 是有效的道德家: GPT-4 可以提取故事寓意，这些寓意不仅与人类解释一致，而且因其清晰度而经常被人类读者所偏爱。
思维链是关键: 结构化的提示序列 (摘要 -> 主体 -> 主题 -> 寓意) 有助于模型有效地综合叙事。
价值观胜过词汇: 根据寓意对故事进行聚类揭示了跨文化的联系，而这是通过原始文本聚类无法看到的。

未来方向与局限性

作者坦率地承认了局限性。他们的分析依赖于 GPT-4，其训练数据可能带有西方文化偏见。此外，使用民间故事的英语翻译过滤了原始的文化细微差别。

然而，这项工作的意义远不止于民间故事。同样的框架可以应用于:

新闻分析: 理解不同媒体机构如何构建政治事件的“寓意”。
社交媒体: 分析 Reddit 或 Twitter 上的个人叙事，以了解社会价值观的变迁。
剧本创作: 帮助编剧分析其剧本的主题一致性。

随着我们继续将 AI 融入人类文化研究，像这样的工具提供了一种一次通过一个故事来阅读人类集体“思想”的方法。

引言#

问题所在: 从情节到意图#

方法: 通过提示获取智慧#

验证: LLM 真的理解寓意吗？#

寓意的主观性#

自动化与人工评估#

大众更偏爱机器#

应用: 世界的道德地图#

表面文本 vs. 深层价值观#

可视化道德景观#

正面与负面的细微差别#

深入观察聚类#

结论与启示#

关键要点#

未来方向与局限性#

引言