引言
我们正处于自动化文本生成的黄金时代。随着 GPT-4 和 Claude 等大型语言模型 (LLM) 的兴起,生成一个流畅、语法完美的故事只需几秒钟。然而,如果你曾让 AI 写过剧本或小说,你可能注意到缺了点什么。文本是可读的,但故事的灵魂往往感觉空洞。情节可能游离不定,情感风险感觉很低,或者结局显得匆忙且缺乏铺垫。
虽然人类经过数千年的磨练已经掌握了讲故事的艺术——融合了复杂的结构、悬念和情感回报——但机器似乎在“大局观”上很挣扎。最近一篇题为 “Are Large Language Models Capable of Generating Human-Level Narratives?” (大型语言模型能否生成人类水平的叙事?) 的论文深入探讨了这一差异。
研究人员提出,人类与机器叙事之间的差距不在于词汇或语法,而在于语篇结构 (discourse structure) 。 他们引入了一种新颖的计算框架,从三个层面分析故事: 宏观 (故事弧) 、中观 (转折点) 和微观 (情感唤醒) 。通过对比数千个由人类编写的电影剧情简介与 LLM 生成的简介,他们揭示了 AI 故事为何往往平淡无奇的确切原因,并提供了修复这一问题的路线图。
故事的架构
要理解 LLM 为何挣扎,我们首先需要定义什么让故事具有“人性”。研究人员将叙事结构分解为一个特定的框架。
1. 宏观层面: 故事弧 (The Story Arc)
在最高层面上,故事由主角命运的转变来定义。库尔t·冯内古特 (Kurt Vonnegut) 曾就“故事的形状”发表著名演讲,提出大多数叙事都符合特定的图形曲线。研究人员采用了一个包含七种故事弧的模式,从经典的“白手起家 (Rags to Riches) ”到悲剧性的“俄狄浦斯 (Oedipus) ”。

如上表所示,这些弧线在命运的谱系上映射了主角的旅程。“陷入困境的人 (Man in a Hole) ”的故事包含跌落后的升起,而“伊卡洛斯 (Icarus) ”弧线则是升起后紧接着急剧、悲惨的坠落。
2. 中观层面: 转折点 (Turning Points)
如果说弧线是故事的形状,那么转折点就是支撑它的结构梁。研究人员确定了五个决定叙事节奏的关键事件:
- 机遇 (Opportunity, TP1): 启动情节的介绍性事件。
- 计划变更 (Change of Plans, TP2): 目标被定义或改变。
- 不归点 (Point of No Return, TP3): 主角完全投入;没有回头路。
- 重大挫折 (Major Setback, TP4): “万事皆休”的时刻。
- 高潮 (Climax, TP5): 冲突与解决的顶峰。
3. 微观层面: 情感维度 (Affective Dimensions)
最后,在逐句的基础上,故事由情感驱动。这在两个维度上进行衡量: 唤醒度 (Arousal) (情感/悬念的强度) 和效价 (Valence) (情感的积极或消极程度) 。
对比: 人类 vs. 机器
这就论文的核心贡献是对人类编写的电影剧情简介与 GPT-4 生成的简介进行了严格的对比。研究人员收集了一个电影情节数据集,剥离了其中的专有名词,并要求 GPT-4 基于相同的前提编写故事。
结果揭示了叙事能力上的鲜明对比。

如图 1 所示,人类故事 (橙色线) 参差错落且复杂。它们特征是低谷 (挫折) 后紧接着急剧的高峰。相反,机器故事 (蓝色线) 是一条平滑、单调的上升曲线。它缺乏张力。它是“乏味的积极”。
让我们以此分析研究人员发现的具体失败之处。
失败 1: 糟糕的节奏和匆忙的结局
最重要的发现之一是 LLM 的叙事节奏非常糟糕。在一个结构良好的故事中,高潮和重大挫折通常发生得恰到好处,给故事留出呼吸的空间。

上面的小提琴图显示了这些转折点在故事中发生的位置。
- TP1, TP2, TP3: 人类和 AI 大致将这些点放在相同的位置 (图表的下半部分) 。
- TP4 (重大挫折) 和 TP5 (高潮) : 看一下 TP4 和 TP5 的蓝色形状。与橙色的人类形状相比,它们明显向“更早”的位置 (Y 轴较低处) 偏移。
这表明 LLM 倾向于过早引入高潮和结局,导致结尾匆忙。它们未能建立足够的悬念,冲突几乎一经引入就立刻解决了。
失败 2: “有毒的积极性”偏差
一个好故事需要冲突。它需要观众真正为主角担忧的时刻。LLM 可能由于旨在使其“有益且无害”的人类反馈强化学习 (RLHF) 过程,似乎对负面结果过敏。

图 3 追踪了唤醒度 (悬念/强度) 。注意人类故事 (橙色) 如何在叙事的后半段保持高张力。AI (蓝色) 则显著下降。机器根本无法维持引人入胜的第三幕所需的张力。

这个问题在追踪效价 (积极性) 的图 5 中更为明显。人类故事深入且频繁地陷入负面情绪 (挫折、悲剧、恐惧) 。AI 故事则徘徊在持续积极的区域。研究人员指出,虽然人类故事在情感轨迹上是多样化的,但 LLM 故事则是均质化的快乐。
失败 3: 缺乏结构多样性
当你要求 AI 写一个故事时,它会默认使用特定的“安全”结构。研究人员分析了两个数据集中故事弧类型的分布。

差异令人震惊。
- 人类: 分布广泛。虽然“陷入困境的人” (30%) 很受欢迎,但人类也会写“由富变贫” (14.6%) 和“俄狄浦斯” (9.3%) 式的悲剧。
- GPT-4: 它严重依赖“陷入困境的人” (51.3%) ,几乎从不写悲剧。“俄狄浦斯”弧线仅出现在 1.3% 的 AI 故事中。
AI 对积极结果和救赎弧线有明显的偏见,实际上忽略了涉及悲剧或彻底失败的整个故事类型。
LLM 真的能理解叙事结构吗?
鉴于这些生成上的失败,研究人员提出了一个后续问题: 这是一个写作问题还是阅读问题? LLM 生成糟糕的结构是因为它们不理解诸如“高潮”或“白手起家”这样的概念吗?
他们基准测试了几个模型 (GPT-4, Gemini, Claude, Llama 3) 在现有文本中识别这些结构的能力。

结果 (图 6) 显示,与人类相比,模型在识别故事弧方面通常表现不佳 (浅蓝色条与虚线对比) 。然而,出现了一个有趣的现象: 语篇相互依赖性 (Discourse Interdependence) 。
当给模型提供“提示” (例如,提供具体的转折点以帮助识别故事弧) 时,它们的表现大幅提高 (深蓝色条) 。这表明虽然 LLM 难以在真空中推理叙事结构,但如果得到明确引导,它们可以利用结构关系。
#通过工程手段打造更好的故事
论文的最后也是最令人兴奋的部分问道: 我们能否利用这个框架让 AI 成为更好的作家?
作者假设,如果他们用语篇约束明确提示 LLM——强迫它在写作之前规划故事弧或定义转折点——输出质量将会提高。
他们测试了三种方法:
- 仅大纲 (Outline-Only): 标准提示。
- + 自生成转折点 (+ Self-Generated TPs): 要求模型先规划自己的转折点。
- + 人工转折点 (+ Human TPs): 强迫模型使用人工创建的转折点 (特别是重大挫折和高潮) 。
然后,他们请人类标注员阅读这些故事,并从悬念、情感和多样性方面进行评判。

结果具有统计显著性。在提示中明确整合转折点意识将叙事悬念和参与度提高了超过 40% 。
正如上面的定性反馈所示,人类读者立刻注意到了差异。一位标注员指出,标准的 AI 故事“非常直截了当且极其积极”,而结构增强版本包含了“意想不到的反转”,感觉“更真实、更可信”。
然而,这里有个陷阱。虽然使用人工转折点 (+ Human TP) 创造了最高的情感激发,但有时会破坏逻辑流,因为 AI 难以将其自身的铺垫与人类强制的高潮连接起来。最平衡的方法是 + 自生成转折点 , 即强迫 AI 在写作前明确规划其自己的结构。
结论
这项研究突显了当前生成式 AI 的一个关键局限: 流畅度不等于讲故事。 一个 LLM 可以写出完美的句子,但讲述的故事在结构上却是破碎的。
这些模型表现出明显的偏向: 偏向积极性、重复的结构和匆忙的节奏。它们回避了赋予人类故事共鸣的叙事低谷——悲剧和重大挫折。
不过,这篇论文也提供了一个解决方案。通过超越简单的提示,将讲故事视为一个结构化的语篇任务——专注于弧线和转折点——我们可以解锁显著更好的表现。对于 NLP 领域的学生和研究人员来说,这强调了创意 AI 的未来不仅仅在于更大的模型,还在于对“什么构成了人类故事”有更好的结构性理解。
](https://deep-paper.org/en/paper/2407.13248/images/cover.png)