为什么有的故事让你泪流满面,而另一个描述类似悲剧的故事却让你无动于衷?
对于心理学家和计算机科学家来说,共情是一个迷人且复杂的机制。它是亲社会行为的基石——是驱动我们帮助他人、建立社区的引擎。传统上,我们认为共情是由内容触发的: 悲惨的损失、胜利的喜悦或引人共鸣的挣扎。但直觉告诉我们,故事的讲述方式——即叙事风格——在其中起着巨大的作用。
直到最近,大规模分析叙事风格仍然极其困难。你可以统计单词 (使用词库) ,但如果不让人工阅读每一段文本,你该如何量化“角色的脆弱性”或“情节的体量”呢?
在一篇名为**“HEART-felt Narratives: Tracing Empathy and Narrative Style in Personal Stories with LLMs”** (HEART-felt 叙事: 利用大模型追踪个人故事中的共情与叙事风格) 的新论文中,来自麻省理工学院和卡内基梅隆大学的研究人员解决了这一难题。他们提出了一个新的框架来理解共情的机制,并展示了像 GPT-4 这样的大型语言模型 (LLMs) 如何充当专家级的文学评论家,从而深入揭示我们如何建立彼此间的连接。
仅靠内容分析的问题
在自然语言处理 (NLP) 领域,理解叙事通常局限于“词袋” (bag-of-words) 方法。研究人员可能会统计文本中出现了多少消极情绪词汇来预测它是否悲伤。虽然有用,但这往往只见树木不见森林。一个故事可能充满了悲伤的词汇,但由于风格原因让人感觉“平淡”或“疏离”。
相反,一个故事可能使用中性的语言,但采用了一种能将读者带入主角视角的叙事结构,从而引发深刻的情感反应。这就是叙事风格的领域。

如图 1 所示,研究人员认为共情不仅仅是故事事件的产物。它是通过特定的叙事元素综合而成的——比如角色如何感知世界、情节的体量以及情感的转换。为了科学地研究这一点,作者们需要一张地图。
介绍 HEART 分类法
这项工作的核心理论贡献是 HEART (Human Empathy and Narrative Taxonomy,人类共情与叙事分类法) 。作者从叙事学 (研究叙事结构的学科) 和心理学中汲取灵感,构建了一个能够从理论上驱动共情的风格特征的综合分类法。
这不仅仅是一个随机的特征列表;它是一个旨在捕捉讲故事细微差别的结构化层级体系。

如图 2 可视化所示,HEART 将叙事风格分解为四个主要类别:
- 角色认同 (Character Identification) : 这是最大的类别,专注于故事如何将读者带入叙述者的视角。它包括:
- 扁平/圆形 (Flatness/Roundness) : 角色是否复杂?他们是否表现出成长或脆弱性?
- 情感主体 (Emotional Subject) : 情感有多生动?基调是乐观还是悲观?
- 认知主体 (Cognitive Subject) : 故事是否表达了角色的内部思考和计划?
- 时间指涉 (Temporal References) : 叙述者是怀旧地回顾过去,还是充满期待地展望未来?
- 情节 (Plot) : 这定义了事件的结构。
- 情节体量 (Plot Volume) : 事件的频率和重要性 (例如,改变生活的一天与无聊的下午) 。
- 情感转换 (Emotion Shifts) : 情感轨迹如何波动 (例如,从希望到绝望) 。
- 结局 (Resolution) : 故事是否提供了某种形式的结束或消解?
- 视角 (Point of View) : 故事叙述的角度 (例如,使用第一人称“我”) 。
- 场景 (Setting) : 环境和背景的生动程度,有助于构建世界观。
大语言模型能充当文学评论家吗?
定义分类法是一回事;在成千上万个故事中检测它则是另一回事。研究人员想知道,在标注这些复杂的特征时,大语言模型 (LLMs) 是否能取代人类专家。
为了测试这一点,他们利用人类专家评分员和两个大模型: GPT-4 和 Llama 3 (8B Instruct) 对一个个人故事数据集进行了标注。他们为模型提供了一本编码手册——解释了诸如“角色脆弱性”或“情节体量”等概念的一套指令——并要求它们对故事进行评分。
结果令人充满希望,尤其是对于 GPT-4。

如表 2 所示,GPT-4 在许多特征上达到了“合理的、人类水平的标注”。
- 表现优异: 它在识别角色脆弱性 (\(\rho = 80.15\)) 、乐观基调和生动场景方面表现出色。
- 挑战: 它在评价 (Evaluations) (理解叙述者的观点/信念) 和认知 (Cognition) 方面表现挣扎。错误分析显示,GPT-4 有时会将情绪反应与认知过程 (思考/计划) 混淆。
作者还将大模型与 LIWC (语言查询与词汇计数) 进行了比较,后者是依赖关键词典进行文本分析的行业标准工具。

表 3 强调了一个关键发现: 大模型更擅长捕捉细微差别。 对于“生动情感”和“角色脆弱性”等特征,GPT-4 显著优于基于词库的方法。虽然词库可以计算“悲伤”词汇的数量,但大模型能理解“胸口空虚的疼痛”这种描述代表了生动的脆弱性,即使文中没有使用“脆弱”这个词。
实验: 现实中的叙事
建立了 HEART 分类法并验证了 GPT-4 作为可靠标注者的能力后,研究人员展开了一项大规模实证研究。他们招募了 2,624 名参与者阅读个人故事并对他们的共情程度进行评分。
目标是绘制共情的“路径”。特定的叙事风格如何与读者自身的个性相互作用,从而建立情感连接?

图 3 展示了他们建立的复杂系统模型。这不仅仅是 故事 \(\rightarrow\) 共情 的直线。它涉及:
- 叙事风格: HEART 特征 (如生动性、情节) 。
- 读者特征: 读者的年龄、性别和特质共情 (他们同情他人的基准倾向) 。
- 交互效应: 诸如叙事传输 (Narrative Transportation,读者在多大程度上“沉浸”在故事中) 和感知相似性 (读者是否感觉自己像叙述者?) 等变量。
关键发现: 是什么让故事“起作用”?
这项研究在人类心理学和讲故事机制方面产生了一些引人入胜的见解。
1. 情节和角色驱动共情
当研究人员汇总共情评分时,他们发现特定的风格选择能可靠地提升参与度。

如图 5 所示,具有高角色发展 (叙述者经历变化) 和高情节体量 (重大、有影响力的事件) 的故事导致了显著更高的共情得分。这验证了文学直觉: 我们更关心那些成长的人,我们也更容易被“发生事情”的故事所吸引。
2. 共情并非“一刀切”
对于未来的 AI 系统来说,最关键的发现可能是共情具有高度的主观性。你不能简单地预测一个故事的单一“共情分数”并期望它适用于所有人。

图 6 揭示了反应的高度差异。同一故事的共情评分标准差显著大于零。这意味着,虽然一个故事可能让某个群体催人泪下,但可能让另一个群体感到冷漠。作者发现,纳入读者的人口统计学特征 (年龄、性别、特质共情) 能显著改善统计模型。共情是个性化的。
3. 路径: 生动性带来传输感
利用结构方程模型 (SEM) ——一种用于测试因果关系的统计技术——作者绘制了通往共情的精确心理路径。

图 4 是叙事共情的“电路板”。解读如下:
- 情感生动性 (Vividness of Emotions) 是一个主要的输入。
- 它强烈指向叙事传输 (Narrative Transportation) (\(r=0.33\)) 。这证实了当作者生动地描述情感 (使用意象、隐喻或强烈的语言) 时,有助于读者“沉浸”或被传输到故事世界中。
- 叙事传输反过来是状态共情 (State Empathy) 的最强驱动力。
本质上,风格 (生动性) 启动了机制 (传输) ,进而产生了结果 (共情) 。
该模型还强调了读者的作用。 相似经历 (经历过与叙述者相同的事情) 和特质共情 (天生是一个具有共情能力的人) 是读者是否会关心的独立预测因子。
结论与未来启示
这项研究架起了文学理论与计算社会科学之间的桥梁。通过引入 HEART 分类法 , 作者为 AI 提供了理解故事是如何讲述的词汇,而不仅仅是理解故事是关于什么的。
其影响是广泛的:
- 对于写作者: 数据证实,专注于角色成长、生动的情感描述和重大的情节推进,能产生可测量的读者共情提升。
- 对于 AI 与心理健康: 理解共情是个性化的至关重要。一个旨在提供支持的聊天机器人需要根据特定用户的叙事风格进行调整,而不是使用通用的“共情”语调。
- 对于社会科学: 我们现在可以利用大模型分析网上的数百万个故事,以此来理解人类连接的脉搏。
这项研究提醒我们,虽然像 GPT-4 这样的 AI 模型常被视为冰冷的计算引擎,但它们拥有一种惊人的能力来解码人类最温暖、最复杂的特质之一: 我们要感受彼此的能力。通过像 HEART 这样的框架,我们正开始理解灵魂的算法。
](https://deep-paper.org/en/paper/2405.17633/images/cover.png)