引言

我们正处于自动化文本生成的黄金时代。随着 GPT-4 和 Claude 等大型语言模型 (LLM) 的兴起,生成一个流畅、语法完美的故事只需几秒钟。然而,如果你曾让 AI 写过剧本或小说,你可能注意到缺了点什么。文本是可读的,但故事的灵魂往往感觉空洞。情节可能游离不定,情感风险感觉很低,或者结局显得匆忙且缺乏铺垫。

虽然人类经过数千年的磨练已经掌握了讲故事的艺术——融合了复杂的结构、悬念和情感回报——但机器似乎在“大局观”上很挣扎。最近一篇题为 “Are Large Language Models Capable of Generating Human-Level Narratives?” (大型语言模型能否生成人类水平的叙事?) 的论文深入探讨了这一差异。

研究人员提出,人类与机器叙事之间的差距不在于词汇或语法,而在于语篇结构 (discourse structure) 。 他们引入了一种新颖的计算框架,从三个层面分析故事: 宏观 (故事弧) 、中观 (转折点) 和微观 (情感唤醒) 。通过对比数千个由人类编写的电影剧情简介与 LLM 生成的简介,他们揭示了 AI 故事为何往往平淡无奇的确切原因,并提供了修复这一问题的路线图。

故事的架构

要理解 LLM 为何挣扎,我们首先需要定义什么让故事具有“人性”。研究人员将叙事结构分解为一个特定的框架。

1. 宏观层面: 故事弧 (The Story Arc)

在最高层面上,故事由主角命运的转变来定义。库尔t·冯内古特 (Kurt Vonnegut) 曾就“故事的形状”发表著名演讲,提出大多数叙事都符合特定的图形曲线。研究人员采用了一个包含七种故事弧的模式,从经典的“白手起家 (Rags to Riches) ”到悲剧性的“俄狄浦斯 (Oedipus) ”。

表1: 故事弧类型展示了不同的叙事轨迹,如白手起家、陷入困境的人和伊卡洛斯。

如上表所示,这些弧线在命运的谱系上映射了主角的旅程。“陷入困境的人 (Man in a Hole) ”的故事包含跌落后的升起,而“伊卡洛斯 (Icarus) ”弧线则是升起后紧接着急剧、悲惨的坠落。

2. 中观层面: 转折点 (Turning Points)

如果说弧线是故事的形状,那么转折点就是支撑它的结构梁。研究人员确定了五个决定叙事节奏的关键事件:

  1. 机遇 (Opportunity, TP1): 启动情节的介绍性事件。
  2. 计划变更 (Change of Plans, TP2): 目标被定义或改变。
  3. 不归点 (Point of No Return, TP3): 主角完全投入;没有回头路。
  4. 重大挫折 (Major Setback, TP4): “万事皆休”的时刻。
  5. 高潮 (Climax, TP5): 冲突与解决的顶峰。

3. 微观层面: 情感维度 (Affective Dimensions)

最后,在逐句的基础上,故事由情感驱动。这在两个维度上进行衡量: 唤醒度 (Arousal) (情感/悬念的强度) 和效价 (Valence) (情感的积极或消极程度) 。

对比: 人类 vs. 机器

这就论文的核心贡献是对人类编写的电影剧情简介与 GPT-4 生成的简介进行了严格的对比。研究人员收集了一个电影情节数据集,剥离了其中的专有名词,并要求 GPT-4 基于相同的前提编写故事。

结果揭示了叙事能力上的鲜明对比。

图1: 人类与机器叙事弧的对比。人类展示了复杂的波动和悬念,而机器展示了简单、稳定的上升。

如图 1 所示,人类故事 (橙色线) 参差错落且复杂。它们特征是低谷 (挫折) 后紧接着急剧的高峰。相反,机器故事 (蓝色线) 是一条平滑、单调的上升曲线。它缺乏张力。它是“乏味的积极”。

让我们以此分析研究人员发现的具体失败之处。

失败 1: 糟糕的节奏和匆忙的结局

最重要的发现之一是 LLM 的叙事节奏非常糟糕。在一个结构良好的故事中,高潮和重大挫折通常发生得恰到好处,给故事留出呼吸的空间。

图2: 展示五个转折点位置的小提琴图。与人类相比,机器倾向于匆忙处理 TP4 和 TP5。

上面的小提琴图显示了这些转折点在故事中发生的位置

  • TP1, TP2, TP3: 人类和 AI 大致将这些点放在相同的位置 (图表的下半部分) 。
  • TP4 (重大挫折) 和 TP5 (高潮) : 看一下 TP4 和 TP5 的蓝色形状。与橙色的人类形状相比,它们明显向“更早”的位置 (Y 轴较低处) 偏移。

这表明 LLM 倾向于过早引入高潮和结局,导致结尾匆忙。它们未能建立足够的悬念,冲突几乎一经引入就立刻解决了。

失败 2: “有毒的积极性”偏差

一个好故事需要冲突。它需要观众真正为主角担忧的时刻。LLM 可能由于旨在使其“有益且无害”的人类反馈强化学习 (RLHF) 过程,似乎对负面结果过敏。

图3: 人类和 GPT-4 的唤醒度。人类故事在故事后半段保持较高的悬念 (唤醒度) 。

图 3 追踪了唤醒度 (悬念/强度) 。注意人类故事 (橙色) 如何在叙事的后半段保持高张力。AI (蓝色) 则显著下降。机器根本无法维持引人入胜的第三幕所需的张力。

图5: 人类和 GPT-4 的效价。AI 故事始终比人类故事更积极 (高效价) 。

这个问题在追踪效价 (积极性) 的图 5 中更为明显。人类故事深入且频繁地陷入负面情绪 (挫折、悲剧、恐惧) 。AI 故事则徘徊在持续积极的区域。研究人员指出,虽然人类故事在情感轨迹上是多样化的,但 LLM 故事则是均质化的快乐。

失败 3: 缺乏结构多样性

当你要求 AI 写一个故事时,它会默认使用特定的“安全”结构。研究人员分析了两个数据集中故事弧类型的分布。

图4: 展示故事弧分布的饼图。GPT-4 严重偏爱“陷入困境的人”,几乎从不创作像“俄狄浦斯”这样的悲剧。

差异令人震惊。

  • 人类: 分布广泛。虽然“陷入困境的人” (30%) 很受欢迎,但人类也会写“由富变贫” (14.6%) 和“俄狄浦斯” (9.3%) 式的悲剧。
  • GPT-4: 它严重依赖“陷入困境的人” (51.3%) ,几乎从不写悲剧。“俄狄浦斯”弧线仅出现在 1.3% 的 AI 故事中。

AI 对积极结果和救赎弧线有明显的偏见,实际上忽略了涉及悲剧或彻底失败的整个故事类型。

LLM 真的能理解叙事结构吗?

鉴于这些生成上的失败,研究人员提出了一个后续问题: 这是一个写作问题还是阅读问题? LLM 生成糟糕的结构是因为它们不理解诸如“高潮”或“白手起家”这样的概念吗?

他们基准测试了几个模型 (GPT-4, Gemini, Claude, Llama 3) 在现有文本中识别这些结构的能力。

图6: 条形图展示故事弧识别准确率。除非给出转折点提示,否则模型难以识别弧线。

结果 (图 6) 显示,与人类相比,模型在识别故事弧方面通常表现不佳 (浅蓝色条与虚线对比) 。然而,出现了一个有趣的现象: 语篇相互依赖性 (Discourse Interdependence)

当给模型提供“提示” (例如,提供具体的转折点以帮助识别故事弧) 时,它们的表现大幅提高 (深蓝色条) 。这表明虽然 LLM 难以在真空中推理叙事结构,但如果得到明确引导,它们可以利用结构关系。

#通过工程手段打造更好的故事

论文的最后也是最令人兴奋的部分问道: 我们能否利用这个框架让 AI 成为更好的作家?

作者假设,如果他们用语篇约束明确提示 LLM——强迫它在写作之前规划故事弧或定义转折点——输出质量将会提高。

他们测试了三种方法:

  1. 仅大纲 (Outline-Only): 标准提示。
  2. + 自生成转折点 (+ Self-Generated TPs): 要求模型先规划自己的转折点。
  3. + 人工转折点 (+ Human TPs): 强迫模型使用人工创建的转折点 (特别是重大挫折和高潮) 。

然后,他们请人类标注员阅读这些故事,并从悬念、情感和多样性方面进行评判。

图7: 人类反馈评论。标注员发现与“直截了当”的标准输出相比,增强弧线的故事更加曲折和真实。

结果具有统计显著性。在提示中明确整合转折点意识将叙事悬念和参与度提高了超过 40%

正如上面的定性反馈所示,人类读者立刻注意到了差异。一位标注员指出,标准的 AI 故事“非常直截了当且极其积极”,而结构增强版本包含了“意想不到的反转”,感觉“更真实、更可信”。

然而,这里有个陷阱。虽然使用人工转折点 (+ Human TP) 创造了最高的情感激发,但有时会破坏逻辑流,因为 AI 难以将其自身的铺垫与人类强制的高潮连接起来。最平衡的方法是 + 自生成转折点 , 即强迫 AI 在写作前明确规划其自己的结构。

结论

这项研究突显了当前生成式 AI 的一个关键局限: 流畅度不等于讲故事。 一个 LLM 可以写出完美的句子,但讲述的故事在结构上却是破碎的。

这些模型表现出明显的偏向: 偏向积极性、重复的结构和匆忙的节奏。它们回避了赋予人类故事共鸣的叙事低谷——悲剧和重大挫折。

不过,这篇论文也提供了一个解决方案。通过超越简单的提示,将讲故事视为一个结构化的语篇任务——专注于弧线和转折点——我们可以解锁显著更好的表现。对于 NLP 领域的学生和研究人员来说,这强调了创意 AI 的未来不仅仅在于更大的模型,还在于对“什么构成了人类故事”有更好的结构性理解。