在生成式 AI 时代,大语言模型 (LLM) 编写流畅文本的能力令人印象深刻。让 ChatGPT 写一篇新闻文章,它能在几秒钟内炮制出语法正确、结构合理的段落。但是,新闻不仅仅是 写作;它关乎 报道

在写下哪怕一个句子之前,记者就已经参与了一个复杂的规划过程。他们决定“切入点” (angle,即具体的叙事焦点) ,并弄清楚要咨询哪些“信源” (sources,即人物或文件) 。这在报道新闻通稿 (press releases) 时尤为关键——企业公告通常旨在通过“粉饰” (spin) 将故事引向积极的一面。优秀的记者不会只是重复这种粉饰;他们会对其提出挑战。

大语言模型能否复制这种高层次的认知规划?它们能否在阅读一份企业新闻通稿后思考: “等一下,我需要给一位前员工打电话来核实这件事”?

Alexander Spangher 及其同事的一篇引人入胜的研究论文 “Do LLMs Plan Like Human Writers?” (LLM 像人类作家那样规划吗?) 探讨的正是这个问题。通过分析数十万篇新闻文章,研究人员将 AI 的规划能力与专业人类记者进行了比较。结果揭示了一个显著的“创造力鸿沟”,凸显了目前 AI 在复杂调查任务中的局限性。

图1: 人类与 LLM 规划的对比。人类选择批判性的切入点和特定的信源 (例如受害者) ,而 LLM 倾向于进行总结并建议通用的专家。

问题所在: 新闻的“去伪存真”

要理解这项研究,我们首先必须了解财经记者的工作。公司发布 新闻通稿 来宣布收益、产品发布或回应丑闻。这些文件本质上是有偏见的。

如果一篇新闻文章仅仅重复通稿中的信息,那它执行的是 摘要 任务。然而,有效的新闻报道涉及 “去伪存真” (de-spinning) 。 这意味着:

  1. 语境化 (Contextualizing) : 将新闻置于公司更广泛的历史背景中。
  2. 挑战 (Challenging) : 反驳虚假或误导性的主张。
  3. 寻源 (Sourcing) : 寻找独立的声音 (前员工、监管机构、受害者) ,而不仅仅是引用 CEO 的话。

研究人员试图通过实验观察 LLM 是否可以在这一特定工作流程中充当创意助手。如果 LLM 阅读了像 Theranos 这样的公司发布的通稿,它能建议一个怀疑的切入点吗?它能建议采访一位吹哨人,而不是仅仅采访一位“商业教授”吗?

构建 PressRelease 数据集

要教 AI 如何像记者一样行事,首先需要优秀的新闻报道作为范例。作者构建了一个名为 PressRelease 的庞大数据集,其中包含 650,000 篇新闻文章 , 这些文章链接到 250,000 篇新闻通稿

他们通过两个方向收集这些数据以确保多样性:

  1. 新闻 \(\rightarrow\) 通稿: 他们抓取主要财经报纸,并查找指向通稿域名 (如 PR NewswireBusinessWire) 的超链接。
  2. 通稿 \(\rightarrow\) 新闻: 他们从标准普尔 500 指数公司的通稿入手,使用反向链接检查器查找讨论这些通稿的新闻文章。

这创造了人类行为的“基本事实” (ground truth) 。对于任何给定的企业公告,研究人员都拥有由专业记者撰写的实际结果文章。这使他们能够确切地看到人类采用了什么切入点以及采访了谁。

核心方法: 对比摘要

这篇论文最具创新性的贡献之一是研究人员如何通过数学定义“有效报道”。你如何告诉算法一篇文章在挑战通稿方面做得很好?

他们引入了 对比摘要 (Contrastive Summarization) 的概念。

在自然语言处理 (NLP) 中,有一项任务叫自然语言推理 (NLI) 。NLI 查看两个句子并确定它们的关系:

  • 蕴含 (Entailment) : 句子 A 证明句子 B 是真的。 (例如,通稿: “我们盈利了。” 文章: “该公司报告了盈利。”)
  • 矛盾 (Contradiction) : 句子 A 证明句子 B 是假的。 (例如,通稿: “我们保护用户隐私。” 文章: “该公司出售了用户数据。”)
  • 中立 (Neutral) : 句子互不相关。

作者假设,“平淡无奇”的摘要会有很高的 蕴含 度。然而,一篇高质量的调查性文章应该混合了 蕴含 (以覆盖事实) 和 矛盾 (以挑战粉饰) 。

指标可视化

为了衡量这一点,他们构建了一个系统,将新闻通稿中的每一句话与新闻文章中的每一句话进行比较。

图5: 对比摘要方法。模型计算句子对之间的蕴含和矛盾分数,以确定文章是否有效地挑战了源文本。

如上图 5 所示,模型聚合这些句子级的分数,给整篇文档打分。公式 (如下图所示) 基本上是在问: “这篇文章在多大程度上引用了通稿以保持相关性,同时又在多大程度上反驳了它以保持批判性?”

用于给文章评分的文档级 NLI 分数的数学公式。

洞察: 矛盾需要资源

当研究人员使用这种方法分析他们的数据集时,他们发现 矛盾付出 之间存在很强的相关性。

反驳通稿 (高批评度) 的文章倾向于使用:

  1. 更多信源: 批评性文章的信源中位数为 9 个,而非批评性文章为 3 个。
  2. 更难获取的信源: 它们更有可能使用“引语” (Quotes,这需要打电话给某人) ,而不是“新闻报道” (Press Reports,这只需要阅读其他新闻) 。

这证实了挑战一种叙事是资源密集型的。它需要规划。这引出了核心实验: LLM 能做这种规划吗?

实验: 人类与机器

研究人员设计了一个实验,让 LLM (具体为 GPT-3.5, GPT-4, Mixtral 和 Command-R) 与人类记者对决。他们从数据集中挑选了 300 篇高质量、具有批判性的新闻文章作为“金标准”。

实验遵循一个三步流程,如下图所示:

图2: 实验流程。第一步: 要求 LLM 根据通稿规划切入点和信源。第二步: 提取人类记者实际使用的计划。第三步: 比较两者。

  1. 生成 LLM 计划: 给 LLM 提供新闻通稿,并要求它充当规划者。“对这个进行去伪存真。我们应该采取什么切入点?我们应该联系哪些信源?”
  2. 评估人类计划: 由于我们无法采访多年前的记者,研究人员使用 LLM 分析 最终的 人类撰写的文章,并逆向工程其计划。“这位记者采取了什么切入点?他们采访了谁?”
  3. 比较: LLM 建议了与人类相同的切入点吗?它建议了相同的信源吗?

结果

比较结果显示,虽然 LLM 能力尚可,但它们显著地规避风险,并且缺乏人类那样的“调查嗅觉”。

1. LLM 不善于寻源

模型在推荐人类使用的特定 类型 的信源方面表现非常吃力。

  • 人类: 可能会采访一位“前安全检查员”或“当地工会代表”。
  • LLM: 倾向于建议通用的“行业专家”或“公司发言人”。

正如作者指出的那样,LLM 在推荐切入点 (故事方向) 方面的表现优于推荐信源。这表明 LLM 对 叙事 的理解优于对 调查过程 的理解。

2. 创造力鸿沟

最令人沮丧的结果来自对 创造力 的评估。研究人员招募了记者对计划进行 1-5 分的评分 (1 分为简单摘要,5 分为新颖的调查方向) 。

图3: 创造力评分。在切入点和信源创造力方面,红色条 (人类) 始终优于蓝色、绿色和橙色条 (AI 模型) 。

如图 3 所示,无论是零样本 (Zero-Shot,无示例) 、少样本 (Few-Shot,给示例) 甚至经过微调 (Fine-Tuned) 的模型,人类计划在创造力上始终被评为高于 AI 计划。

3. LLM 错过了最好的点子

不仅仅是 LLM 的平均创造力较低;它们特别无法预测那些 极具 创造力的点子。

当研究人员查看重叠部分——即 LLM 成功猜中人类计划的情况与错失情况的对比时——他们发现了一个惊人的模式。

图7: 匹配到的与错过的点子的创造力对比。橙色条 (LLM 错过的) 高于蓝色条 (LLM 推荐的) ,意味着 LLM 未能预测出最具创造力的人类点子。

看上面的图表 (图 7) 。橙色条代表 LLM 错过 的人类点子。蓝色条是 LLM 成功推荐 的点子。

注意,对于“信源”规划 (图表右侧) ,橙色条明显更高。这意味着,当人类记者想出一个极具创意的寻源策略时,LLM 几乎总是无法预测到。LLM 只能成功匹配那些“简单的”、低创造力的寻源决策。

简单来说: AI 擅长预测显而易见的事,但不擅长预测独家内幕 (scoop) 。

4. 微调有帮助,但不够

研究人员试图通过在他们的数据集上微调 GPT-3.5 来解决这个问题。虽然这提高了模型匹配人类计划 风格 的能力,但并没有解决创造力不足的问题。

图6: 详细的创造力分布。即使经过微调 (橙色) ,AI 创造力的分布仍偏左 (较低) ,而人类创造力 (红色) 偏右 (较高) 。

图 6 展示了分数的分布。红线 (人类) 在 3 分和 4 分附近有一个健康的隆起。而 AI 模型,即使经过微调 (橙线) ,也聚集在 1 分和 2 分附近。它们本质上是在学习模仿计划的格式,而没有理解生成一个 计划所需的深层调查直觉。

为什么会发生这种情况?

论文提出了造成这种性能差距的几个原因:

  1. 缺乏外部知识: 记者了解公司的历史。如果 Theranos 发布声明,记者会记得失败测试的传闻。而 LLM 除非被特别提供了这些背景,否则会孤立地处理通稿。它缺乏特定领域的“世界模型”。
  2. 安全与对齐: LLM 通常被训练为乐于助人和无害。“去伪存真”需要批判性、怀疑态度,有时甚至是对抗性的。模型可能偏向于“两边下注” (both-sidesism) ,而不是采取强硬立场,导致在矛盾任务中的创造力得分较低。
  3. 规划的本质: 规划是一个潜在的过程。我们只看到最终的文章,看不到导致它的邮件、电话和被废弃的草稿。仅仅通过查看最终输出来学习规划,是一个极其困难的机器学习任务。

结论: AI 是工具,而非替代品

这项研究为围绕新闻业 AI 的炒作提供了一个清醒但重要的检验。虽然 LLM 可以总结文本和修正语法,但它们在新闻业的核心智力劳动——调查策略——方面表现挣扎。

作者总结道,LLM 目前充当的是“安全”的规划者。它们建议显而易见的切入点和标准的信源。对于一位过度劳累的记者来说,这可能仍然有用——作为一个“理智检查”来确保基础工作已覆盖。然而,依赖 LLM 来规划故事可能会导致报道比人类制作的内容缺乏批判性、缺乏多样性且信息量更少。

AI 在新闻编辑室的未来可能在于 人机回环 (Human-in-the-Loop) 系统。也许 LLM 可以连接到外部数据库 (使用检索增强生成,RAG) 以提供它们目前缺乏的历史背景。或者,也许应该利用它们来扮演“魔鬼代言人”,专门被提示去寻找记者计划中的漏洞,而不是让它们自己生成计划。

在那之前,“新闻嗅觉”——那种挖掘别人未关注之处的人类本能——仍然是人类独有的特质。