摘要生成通常被认为是自然语言处理 (NLP) 中已“解决”的问题之一。我们把一篇新闻文章喂给 ChatGPT 或 Claude,要求它写一段摘要,通常能得到一个连贯的结果。但当我们从枯燥、基于事实的新闻报道转向叙事文本 (narrative text) ——如故事、小说和创意写作——时,裂痕开始显现。

在新闻中,事实是外显的。在故事中,意义往往隐藏在潜台词、对话和反讽之中。如果 LLM 错过了潜台词,它写出的摘要看起来是对的,但根本上是错的。

本篇博客文章将探讨 STORYSUMM , 这是一篇最新的研究论文,它揭示了评估叙事摘要的忠实度是多么困难。研究人员引入了一个新的数据集,证明人类标注者经常漏掉明显的错误,并展示了目前的自动评估指标正面临严峻挑战。

问题所在: 虚构作品中的忠实度

在 NLP 中, 忠实度 (faithfulness) 指的是事实的一致性。一个忠实的摘要只包含源文本能够支持的信息。它不会幻觉出新的细节,也不会歪曲原本的含义。

评估新闻的忠实度相对直接。如果文章说“通胀上升了 2%”,而摘要说“通胀下降了”,那就是一个错误。但故事依赖于解读。

看看下面来自 STORYSUMM 数据集的例子。主角去扫墓探望母亲。文本中包含“你这小鬼!”和“你连在浴缸里洗澡都不会,还得我教你!”这样的台词。主角笑着说: “至少你不会再伤害我……了。”

表 3 展示了 LLM 关于母亲鬼魂的错误。

表 3 所示,三个最先进的模型 (Davinci-3、ChatGPT 和 Claude-2) 完全误解了这个场景。它们将其总结为一次“令人宽慰”的重逢,主角在其中“追忆往事”。它们完全错过了虐待的潜台词。这不仅仅是一个小细节;它改变了整个情节。

这就是核心挑战: 当模型通常听起来很有说服力时,我们要如何检测这些错误?

介绍 STORYSUMM

为了回答这个问题,研究人员创建了 STORYSUMM , 这是一个旨在对评估方法进行压力测试的新基准数据集。

数据集

该数据集包含 96 对故事-摘要

  1. 故事: 来源于 Reddit 社区,如 r/shortstories。这些都是业余作者写的、篇幅短小 (不到一页) ,而且——关键是——不太可能出现在旧版 LLM 的训练数据中。它们还充满了情节转折和对话等叙事元素。
  2. 摘要: 由各种模型生成,范围从较旧的模型如 Davinci-3 到新的强力模型如 GPT-4 和 Claude-3。

研究人员发现,虽然新模型在进步,但不忠实仍然是一个巨大的问题。

表 2 展示了按模型分类的忠实摘要百分比。

表 2 所示,“忠实度”比率差异巨大。虽然 Claude-3 表现异常出色 (90.5% 忠实) ,但其他能力很强的模型如 GPT-4 和 ChatGPT 仅在 50-60% 左右徘徊。这意味着这些模型生成的摘要中,近一半至少包含一个事实错误。

人为因素: “闪光的不都是金子”

这正是这篇论文做出最重要贡献的地方。通常,在 NLP 研究中,人类评估被认为是“金标准”。如果人类标注者说一个摘要是好的,我们就接受它为真理。

然而,STORYSUMM 团队假设对于复杂的故事, 一个人的意见是不够的。 他们测试了三种不同的人类标注协议,看看哪一种能真正捕捉到错误。

1. 标准标注者 (Upwork)

他们从 Upwork 雇佣了工作人员 (发现 Mechanical Turk 的工人产生的数据不可用) ,并支付报酬让他们进行细粒度的逐句评估。这是大多数研究中使用的标准“高质量”人类评估。

2. 专家 (作者本人)

论文的三位作者人工审查了每一篇摘要,讨论分歧直到达成共识。这是一个耗时且严格的过程。

3. 混合方法 (AI 辅助)

他们使用 GPT-4 生成一系列潜在的不一致之处,并要求人类进行验证。其思路是 AI 可能会发现人类错过的微妙细节。

图 6 展示了专家标注的界面。

结果: 人类也会遗漏

研究人员发现 没有一种单一方法能捕捉到所有错误

  • 标注者 错过了微妙的情节要点 (称为“困难”错误) 。
  • 专家 错过了一些标注者捕捉到的错误。
  • 混合 方法发现了最多的错误,但也产生了许多假阳性 (即 AI 幻觉出了不存在的错误) 。

展示人类方法之间分歧的混淆矩阵。

图 3 展示了方法之间的混淆矩阵。左下角和右上角象限的数字代表分歧。例如,有 19 篇摘要标准标注者认为是忠实的,但专家认为是不可信的。相反,标注者发现了 11 个专家遗漏的错误。

定义“简单”与“困难”错误

研究人员根据检测难易程度对错误进行了分类:

  • 简单错误: 所有三位标注者都检测到了。这些通常是明显的矛盾 (例如,摘要说角色死了,但故事说他们还活着) 。
  • 困难错误: 仅由一位标注者或特定协议检测到。这些通常涉及误解代词、时间顺序或角色的动机。

表 4 展示了简单错误与困难错误的例子。

表 4 提供了这种区别的有趣例子。看看中间那个“困难”错误: 故事提到一个叫 Jane 的角色把 AirTags 扔出了窗外。摘要声称是 Jane 强迫 Margot 扔掉它们。这是一个微妙的归因错误,如果不仔细阅读很容易略过。

混合方法的幻觉问题

虽然混合方法 (要求 GPT-4 为人类寻找错误) 覆盖率高,但它并不完美。

图 2 展示了混合方法生成的错误的不一致之处。

图 2 所示,AI 有时会幻觉出不一致之处。在这个例子中,GPT-4 声称摘要关于“Hope”是受害者的描述是错误的。人类标注者同意了 AI 的观点。然而,经仔细检查,故事证实 Hope 确实 是受害者。AI (以及信任它的人类) 都错了。这凸显了在没有严格检查的情况下过度依赖 AI 进行评估的危险。

“扩展黄金 (Expanded Gold) ”标准

因为没有一种方法是完美的,研究人员合并了所有三种方法中经过验证的标签,创建了一套 扩展黄金 (Expanded Gold) 标签集。这个组合数据集比该领域以前的任何研究都提供了更严格的基准真值。

图 4 展示了不同方法发现的错误的重叠情况。

图 4 可视化了这种重叠。你可以看到“混合”方法 (右) 捕捉到了其他方法错过的 15 个错误,而“专家”方法 (中) 捕捉到了其他方法错过的错误。这证实了论文的建议: 要真正评估叙事摘要的忠实度,你需要多样化的标注协议。

自动指标基准测试

手头有了高质量的“扩展黄金”数据集,研究人员将注意力转向了自动指标。如果人类都这么费劲,自动化系统能做得更好吗?

他们测试了几种方法:

  • 二元 / 思维链 (CoT): 提示 LLM (GPT-4, Claude-3) 对摘要进行评分。
  • FABLES: 一种将摘要分解为原子主张的方法。
  • MiniCheck: 一个专门的事实核查模型。
  • UniEval / AlignScore: 训练过的评估指标。

结果令人清醒。

表 7 展示了模型相对于标注者标签的得分。

表 7 展示了这些指标相对于标准标注者标签的表现。

  • 纯提示 (Binary/CoT) : 这些模型 (如 Claude-3 和 GPT-4) 往往过于乐观,将 90-95% 的摘要标记为忠实。它们几乎错过了所有的“困难”错误 (仅检测到约 9-20%) 。
  • MiniCheck: 这个模型走向了另一个极端,将几乎所有内容标记为不可信 (只有 18% 忠实) 。它捕捉到了困难错误,但精确度很糟糕。
  • FABLES (GPT-4): 这是表现最强的,达到了最佳平衡。然而,即使是最好的方法,其平衡准确率也仅达到约 67%

当针对更严格的 扩展黄金 标签 (包含人类遗漏的棘手错误) 进行测试时,大多数指标的表现进一步下降。例如,FABLES 在检测困难错误方面的能力显著下降。

结论: 前进之路

STORYSUMM 论文是对 NLP 社区的一次现实检验。随着 LLM 成为我们日常阅读和写作工作流的一部分,我们隐含地信任它们能准确总结信息。

然而,这项研究强调了两个关键差距:

  1. 叙事鸿沟: LLM 仍然难以理解故事的“灵魂”——潜台词、角色动机和微妙的转折。它们可以总结情节要点,却抓不住故事的重点。
  2. 评估差距: 我们不能依赖简单的“赞/踩”人类标注或当前的自动指标来捕捉这些错误。

作者建议,未来的叙事摘要评估活动不应依赖单一协议。相反,我们需要结合专家审查、细粒度标注和 AI 辅助检查来建立基准真值。

在我们能够构建出像人类读者一样 (或更好地) 理解反讽的评估指标之前,我们应该对读到的摘要保持怀疑态度——尤其是当故事变得复杂时。