什么是故事？人类与 AI 在叙事认知上的分歧

如果让你定义什么是“故事”，你可能会本能地联想到“人物”、“起因、经过、结果”或“冲突”等概念。这感觉很直观。我们每天都在讲故事——抱怨老板、复述约会经历，或者解释如何修好漏水的水龙头。

但是，当你试图教计算机识别故事时，这种直觉就失灵了。描述早晨的例行公事算故事吗？一段关于政治的咆哮算故事吗？那你做的一个梦呢？

多年来，自然语言处理 (NLP) 的研究人员一直试图通过制定严格的规则手册——即“规定性” (prescriptive) 的故事定义——来解决这个问题。他们将这些规则交给标注员，说: “根据这些规则给这段文本打标签。”然而，这篇名为 The Empirical Variability of Narrative Perceptions of Social Media Texts (社交媒体文本叙事感知的实证差异性) 的新研究论文表明，这种方法忽略了人类感知叙事时混乱而主观的现实。

在这篇文章中，我们将打破传统的叙事检测“黄金标准”。我们将探索 STORYPERCEPTIONS , 这是一个新的数据集，它捕捉了众包工作者 (普通人) 识别故事时那种混乱、充满主观色彩且引人入胜的方式。我们还将看到他们的看法是如何与学术研究人员以及像 GPT-4 这样最先进的大型语言模型 (LLM) 发生冲突的。

“黄金标签”的问题

在监督式机器学习中，我们通常依赖“黄金标签” (gold label) ——即正确答案。如果我们训练一个模型来识别猫，我们会给它看数千张猫的照片。如果人类说它是猫，它就是猫。

但识别故事并不像识别猫。这是一种主观体验。

历史上，NLP 研究人员一直采用规定性 (prescriptive) 的方法来处理这个问题。他们定义一个故事 (例如，“涉及一个人物的一系列具有因果关系的特定事件”) ，并训练学生严格应用该定义。这创造了干净的数据，但它可能无法反映现实。它忽略了“读者反应”——那种被带入情境的感觉、悬念感，或者让某件事对普通人来说“感觉像故事”的情感联系。

这篇论文背后的研究人员采取了一种不同的方法。他们采用了一种描述性 (descriptive) 范式。他们没有告诉标注员故事是什么，而是问他们: “你认为这是个故事吗？为什么？”

他们收集了 255 名众包工作者对 502 个 Reddit 帖子 (来自 StorySeeker 数据集) 的 2,496 条回复。结果是一张人类分歧的地图，揭示了“故事性”并不是一个二元开关，而是文本、意图和读者情感之间复杂的相互作用。

该图说明了三种不同的受众——众包群体 (Crowd) 、研究人员 (Researchers) 和大型语言模型 (LLM) ——如何解读给定的文本是否构成“故事”。

如上图 Figure 1 所示，不同的观察者对同一段文本有不同的看法。众包工作者可能会看到冲突并说“是”。研究人员可能会看到对习惯的描述并说“不是”。LLM 可能会被文本的假设性质 (比如是一个梦) 搞糊涂。这种差异性不是噪音；它是我们需要理解的信号。

解构“为什么”: 叙事分类法

为了理解众包群体的视角，研究人员不仅查看了“是/否”的标签。他们还分析了理由 (rationales) ——即工作者为了证明其选择合理而撰写的自由文本解释。通过一个称为开放式编码 (open coding) 的过程，他们将数千条杂乱的解释提炼成一个结构化的叙事感知分类法 (Taxonomy of Narrative Perceptions) 。

该分类法显示，当人们谈论故事时，他们关注两个主要类别: 语篇 (Discourse) 和特征 (Features) 。

1. 语篇: 作者的目标

语篇指的是沟通的模式。作者是在试图辩论？解释？还是娱乐？

Table 1 显示了共现特征对，而 Figure 3 说明了语篇类别与文本感知目标之间的关联。

Figure 3 (上图下半部分) 展示了不同的沟通目标如何与“故事”标签相关联。

叙述/故事 (Narrative/Story) : 毫无疑问，当感知到的目标是叙述时，文本几乎总是被标记为故事。
描述/表达 (Description/Expression) : 这些也与故事高度相关。
辩论/建议/咆哮 (Argument/Suggestion/Rant) : 这些呈负相关。如果读者觉得你在试图向他们推销东西或对他们大喊大叫，他们就不太可能认为你的文本是故事，即使你使用了轶事。

2. 特征: 文本性 vs. 文本外

这是发现变得深刻的地方。研究人员发现，众包工作者不仅寻找文本性成分 (你可以在句子中指出的东西) 。他们还寻找文本外成分 (发生在读者脑海中的东西) 。

文本特征: 人物、事件、对话、时间标记。
文本外 (审美) 特征: 悬念、情感感觉、“感觉像故事”、连贯性。

故事 (与非故事) 理由中特征代码的相对流行度。

Figure 2 可视化了哪些特征预示着“故事”标签。

看顶部的条形: 事件体验 (Event Experience) 、人物角色 (Character Person) 和情节序列 (Plot Sequence) 。这是“三巨头”。如果一段文本有特定的人物参与的一系列特定事件，它很可能就是一个故事。
再往下看一点: 连贯/可解释 (Cohesive/Interpretable) 和问题/冲突 (Problem/Conflict) 。这些是审美判断。一段文本需要“浑然一体” (连贯性) 才能成为故事。
现在看底部 (橙色条形) : 这些是特征的缺失。“非故事”标签的最强预测因素是明确缺乏情节序列 (NOT_plot_sequence) 。

这证实了对于普通受众来说，故事不仅仅是一堆词汇。它是一种能够创造特定连贯感的结构。

特征的相互作用

这篇论文最有趣的贡献之一是分析了这些特征如何相互作用。一个故事很少依赖单一元素。

如果你回顾 Table 1 (在前面与 Figure 3 一起分享的图片中) ，你可以看到特征之间的“点互信息” (NPMI) 。这衡量了两个概念在理由中一起出现的频率。

连贯可解释 & 情节序列: 这对组合得分很高 (0.4) 。这表明读者认为文本“连贯”，正是因为它有“情节序列”。结构提供了粘合剂。
感觉像故事 & 情节序列: 这证实了故事的直观“氛围”在很大程度上依赖于识别一系列事件。

这意味着你不能轻易将“客观”文本与“主观”读者体验分离开来。情节带来了连贯性；连贯性创造了“故事感”。

为什么我们会有分歧: “情节”难题

如果每个人都同意人物和事件构成故事，为什么还会有这么多分歧？数据集显示，众包工作者经常对同一段文本产生分歧。

分歧通常不在于是否存在人物 (这很容易发现) 。而在于行动的复杂性和性质 。

多数派认为也是故事 (与少数派认为非故事) 的理由中，相对特征代码的流行度。

Figure 4 分析了多数人说“是，这是故事”，但少数人说“不”的案例。

异议者 (少数投“不”的人) 最有可能引用 NOT_plot_sequence (无情节序列) 或 NOT_cohesive_interpretable (不连贯/不可解释) 。
这意味着少数派对什么算作情节有更高的阈值。对多数派来说，“我去商店买了牛奶”可能就足够构成一个序列了。对少数派来说，这只是一个陈述——它缺乏构成情节所需的转折或复杂性。

“习惯”与“事件”的区别

对于人类和 AI 来说，最难的挑战之一是区分特定的事件 (在特定时间发生过一次的事情) 和行为/策略 (通常发生的事情) 。

*事件: * “我昨天遛狗时，我们看到了一只土狼。” (特定时间，特定发生) 。
*行为: * “我每天遛狗以保持健康。” (普遍习惯，抽象) 。

一致投票认为也是故事与投票严重分裂的故事的相对特征流行度。

Figure 5 展示了出现在一致认定的故事 (每个人都同意) 与有分歧的故事 (人们意见不一) 中的特征。

统一特征: Plot_sequence (情节序列) 和 Event_experience (事件体验) 。当明显的事件发生时，每个人都同意这是一个故事。
有争议的特征: Behavior_strategy (行为策略) 和 Concept_definition (概念定义) 。当文本讨论普遍行为 (“我通常如何处理压力”) 时，众包群体会感到困惑。有些人认为对行为的描述是故事；另一些人认为这只是解释。

这个区别对数据科学家来说至关重要。如果你的数据集充满了被标记为故事的“习惯性”描述，你的模型可能会学会将任何动词密集的句子标记为叙事，从而忽略了具体性这一关键要素。

人类 vs. 研究人员 vs. AI

最后，论文提出了一个大问题: 这些众包群体的感知与“专家” (研究人员) 和“机器” (LLM) 相比如何？

作者在不同的数据集上微调了模型 (RoBERTa) ，并提示 GPT-4 充当描述性标注员。

1. 众包群体的严格性

有趣的是, 众包群体往往比研究人员更严格。研究人员遵循技术性的编码手册，可能会将一段包含因果事件序列的文本标记为故事，即使它很无聊或琐碎。依靠直觉的众包工作者，如果文本缺乏观点、寓意或有趣的情节钩子，通常会拒绝给予“故事”标签。他们需要文本具有可讲述性。

2. GPT-4 因素

GPT-4 表现如何？它通常与人类保持良好的一致性，但有特定的盲点。

一致性: GPT-4 (gpt-4-0613) 与众包多数票达到了约 0.6 的 Cohen’s Kappa 系数。这是“中等”一致性——不错，但还不能替代人类水平。
“习惯”盲点: 就像分裂的众包工作者一样，GPT-4 在 Behavior_strategy (行为策略) 上很挣扎。然而，与普通人类相比，GPT-4 往往不太可能将行为称为故事。它经常严格地将抽象计划或习惯归类为非故事，而如果习惯描述得生动，人类可能会更宽容。
Llama-3: 较小的模型 (Llama-3 8B) 表现明显更差，很大程度上是因为它有巨大的确认偏误——它想把几乎所有东西都标记为故事。

在研究人员规定的标签上微调的 RoBERTa 模型与在描述性众包多数票标签上微调的模型之间，故事预测率的比较。

Figure 10 比较了不同 Reddit 主题 (subreddits) 的预测率。

X 轴是基于研究人员标签训练的模型的预测率。
Y 轴是基于众包标签训练的模型的预测率。
两者有很强的相关性，但请注意粉红色的点 (Tech，科技类) 。研究人员训练的模型在科技类版块中发现的故事比众包训练的模型要多得多。
为什么？ 科技帖子通常包含“故障排除步骤” (首先我做了 X，然后我点击了 Y) 。对于寻找因果序列的研究人员来说，这就是一个故事。对于众包工作者来说，那是一本说明书。众包群体需要一种技术性故障排除通常缺乏的审美叙事弧线。

结论: 叙事 AI 的未来

STORYPERCEPTIONS 论文教会我们，“故事”并不是文本的静态属性。它是作者与读者之间的一种关系。

如果我们想构建真正理解叙事的 AI——用于创意写作、心理健康分析或毒性检测——我们就不能仅仅依赖僵化的、规定性的定义。我们需要整合真实人类那种混乱的、审美的判断。

给学生和从业者的主要启示:

语境很重要: 一系列事件并不总是一个故事。它可能是一个食谱、一份故障排除指南或一个习惯。
读者反应: 连贯感和悬念感的“感觉”与人物的存在一样，都是可衡量且重要的。
分歧即数据: 当标注员产生分歧时，通常揭示了概念中的边界条件 (如事件与行为的分歧) 。不要把这些数据扔掉。

随着 LLM 越来越融入我们的生活，理解它们如何感知像讲故事这样的人类概念变得至关重要。这项研究推动我们将模型从仅仅阅读文本，转向理解文本背后的人类意图。

“黄金标签”的问题#

解构“为什么”: 叙事分类法#

1. 语篇: 作者的目标#

2. 特征: 文本性 vs. 文本外#

特征的相互作用#

为什么我们会有分歧: “情节”难题#

“习惯”与“事件”的区别#

人类 vs. 研究人员 vs. AI#

1. 众包群体的严格性#

2. GPT-4 因素#

结论: 叙事 AI 的未来#