在生成式 AI 时代，大语言模型 (LLM) 编写流畅文本的能力令人印象深刻。让 ChatGPT 写一篇新闻文章，它能在几秒钟内炮制出语法正确、结构合理的段落。但是，新闻不仅仅是写作；它关乎报道。

在写下哪怕一个句子之前，记者就已经参与了一个复杂的规划过程。他们决定“切入点” (angle，即具体的叙事焦点) ，并弄清楚要咨询哪些“信源” (sources，即人物或文件) 。这在报道新闻通稿 (press releases) 时尤为关键——企业公告通常旨在通过“粉饰” (spin) 将故事引向积极的一面。优秀的记者不会只是重复这种粉饰；他们会对其提出挑战。

大语言模型能否复制这种高层次的认知规划？它们能否在阅读一份企业新闻通稿后思考: “等一下，我需要给一位前员工打电话来核实这件事”？

Alexander Spangher 及其同事的一篇引人入胜的研究论文 “Do LLMs Plan Like Human Writers?” (LLM 像人类作家那样规划吗？) 探讨的正是这个问题。通过分析数十万篇新闻文章，研究人员将 AI 的规划能力与专业人类记者进行了比较。结果揭示了一个显著的“创造力鸿沟”，凸显了目前 AI 在复杂调查任务中的局限性。

图1: 人类与 LLM 规划的对比。人类选择批判性的切入点和特定的信源 (例如受害者) ，而 LLM 倾向于进行总结并建议通用的专家。

问题所在: 新闻的“去伪存真”

要理解这项研究，我们首先必须了解财经记者的工作。公司发布 新闻通稿 来宣布收益、产品发布或回应丑闻。这些文件本质上是有偏见的。

如果一篇新闻文章仅仅重复通稿中的信息，那它执行的是摘要任务。然而，有效的新闻报道涉及 “去伪存真” (de-spinning) 。这意味着:

语境化 (Contextualizing) : 将新闻置于公司更广泛的历史背景中。
挑战 (Challenging) : 反驳虚假或误导性的主张。
寻源 (Sourcing) : 寻找独立的声音 (前员工、监管机构、受害者) ，而不仅仅是引用 CEO 的话。

研究人员试图通过实验观察 LLM 是否可以在这一特定工作流程中充当创意助手。如果 LLM 阅读了像 Theranos 这样的公司发布的通稿，它能建议一个怀疑的切入点吗？它能建议采访一位吹哨人，而不是仅仅采访一位“商业教授”吗？

构建 PressRelease 数据集

要教 AI 如何像记者一样行事，首先需要优秀的新闻报道作为范例。作者构建了一个名为 PressRelease 的庞大数据集，其中包含 650,000 篇新闻文章 , 这些文章链接到 250,000 篇新闻通稿 。

他们通过两个方向收集这些数据以确保多样性:

新闻 \(\rightarrow\) 通稿: 他们抓取主要财经报纸，并查找指向通稿域名 (如 PR Newswire 或 BusinessWire) 的超链接。
通稿 \(\rightarrow\) 新闻: 他们从标准普尔 500 指数公司的通稿入手，使用反向链接检查器查找讨论这些通稿的新闻文章。

这创造了人类行为的“基本事实” (ground truth) 。对于任何给定的企业公告，研究人员都拥有由专业记者撰写的实际结果文章。这使他们能够确切地看到人类采用了什么切入点以及采访了谁。

核心方法: 对比摘要

这篇论文最具创新性的贡献之一是研究人员如何通过数学定义“有效报道”。你如何告诉算法一篇文章在挑战通稿方面做得很好？

他们引入了 对比摘要 (Contrastive Summarization) 的概念。

在自然语言处理 (NLP) 中，有一项任务叫自然语言推理 (NLI) 。NLI 查看两个句子并确定它们的关系:

蕴含 (Entailment) : 句子 A 证明句子 B 是真的。 (例如，通稿: “我们盈利了。” 文章: “该公司报告了盈利。”)
矛盾 (Contradiction) : 句子 A 证明句子 B 是假的。 (例如，通稿: “我们保护用户隐私。” 文章: “该公司出售了用户数据。”)
中立 (Neutral) : 句子互不相关。

作者假设，“平淡无奇”的摘要会有很高的蕴含度。然而，一篇高质量的调查性文章应该混合了蕴含 (以覆盖事实) 和矛盾 (以挑战粉饰) 。

指标可视化

为了衡量这一点，他们构建了一个系统，将新闻通稿中的每一句话与新闻文章中的每一句话进行比较。

图5: 对比摘要方法。模型计算句子对之间的蕴含和矛盾分数，以确定文章是否有效地挑战了源文本。

如上图 5 所示，模型聚合这些句子级的分数，给整篇文档打分。公式 (如下图所示) 基本上是在问: “这篇文章在多大程度上引用了通稿以保持相关性，同时又在多大程度上反驳了它以保持批判性？”

用于给文章评分的文档级 NLI 分数的数学公式。

洞察: 矛盾需要资源

当研究人员使用这种方法分析他们的数据集时，他们发现矛盾与付出之间存在很强的相关性。

反驳通稿 (高批评度) 的文章倾向于使用:

更多信源: 批评性文章的信源中位数为 9 个，而非批评性文章为 3 个。
更难获取的信源: 它们更有可能使用“引语” (Quotes，这需要打电话给某人) ，而不是“新闻报道” (Press Reports，这只需要阅读其他新闻) 。

这证实了挑战一种叙事是资源密集型的。它需要规划。这引出了核心实验: LLM 能做这种规划吗？

实验: 人类与机器

研究人员设计了一个实验，让 LLM (具体为 GPT-3.5, GPT-4, Mixtral 和 Command-R) 与人类记者对决。他们从数据集中挑选了 300 篇高质量、具有批判性的新闻文章作为“金标准”。

实验遵循一个三步流程，如下图所示:

图2: 实验流程。第一步: 要求 LLM 根据通稿规划切入点和信源。第二步: 提取人类记者实际使用的计划。第三步: 比较两者。

生成 LLM 计划: 给 LLM 提供新闻通稿，并要求它充当规划者。“对这个进行去伪存真。我们应该采取什么切入点？我们应该联系哪些信源？”
评估人类计划: 由于我们无法采访多年前的记者，研究人员使用 LLM 分析 最终的 人类撰写的文章，并逆向工程其计划。“这位记者采取了什么切入点？他们采访了谁？”
比较: LLM 建议了与人类相同的切入点吗？它建议了相同的信源吗？

结果

比较结果显示，虽然 LLM 能力尚可，但它们显著地规避风险，并且缺乏人类那样的“调查嗅觉”。

1. LLM 不善于寻源

模型在推荐人类使用的特定类型的信源方面表现非常吃力。

人类: 可能会采访一位“前安全检查员”或“当地工会代表”。
LLM: 倾向于建议通用的“行业专家”或“公司发言人”。

正如作者指出的那样，LLM 在推荐切入点 (故事方向) 方面的表现优于推荐信源。这表明 LLM 对叙事的理解优于对 调查过程 的理解。

2. 创造力鸿沟

最令人沮丧的结果来自对 创造力 的评估。研究人员招募了记者对计划进行 1-5 分的评分 (1 分为简单摘要，5 分为新颖的调查方向) 。

图3: 创造力评分。在切入点和信源创造力方面，红色条 (人类) 始终优于蓝色、绿色和橙色条 (AI 模型) 。

如图 3 所示，无论是零样本 (Zero-Shot，无示例) 、少样本 (Few-Shot，给示例) 甚至经过微调 (Fine-Tuned) 的模型，人类计划在创造力上始终被评为高于 AI 计划。

3. LLM 错过了最好的点子

不仅仅是 LLM 的平均创造力较低；它们特别无法预测那些极具创造力的点子。

当研究人员查看重叠部分——即 LLM 成功猜中人类计划的情况与错失情况的对比时——他们发现了一个惊人的模式。

图7: 匹配到的与错过的点子的创造力对比。橙色条 (LLM 错过的) 高于蓝色条 (LLM 推荐的) ，意味着 LLM 未能预测出最具创造力的人类点子。

看上面的图表 (图 7) 。橙色条代表 LLM 错过的人类点子。蓝色条是 LLM 成功推荐 的点子。

注意，对于“信源”规划 (图表右侧) ，橙色条明显更高。这意味着，当人类记者想出一个极具创意的寻源策略时，LLM 几乎总是无法预测到。LLM 只能成功匹配那些“简单的”、低创造力的寻源决策。

简单来说: AI 擅长预测显而易见的事，但不擅长预测独家内幕 (scoop) 。

4. 微调有帮助，但不够

研究人员试图通过在他们的数据集上微调 GPT-3.5 来解决这个问题。虽然这提高了模型匹配人类计划风格的能力，但并没有解决创造力不足的问题。

图6: 详细的创造力分布。即使经过微调 (橙色) ，AI 创造力的分布仍偏左 (较低) ，而人类创造力 (红色) 偏右 (较高) 。

图 6 展示了分数的分布。红线 (人类) 在 3 分和 4 分附近有一个健康的隆起。而 AI 模型，即使经过微调 (橙线) ，也聚集在 1 分和 2 分附近。它们本质上是在学习模仿计划的格式，而没有理解生成一个好计划所需的深层调查直觉。

为什么会发生这种情况？

论文提出了造成这种性能差距的几个原因:

缺乏外部知识: 记者了解公司的历史。如果 Theranos 发布声明，记者会记得失败测试的传闻。而 LLM 除非被特别提供了这些背景，否则会孤立地处理通稿。它缺乏特定领域的“世界模型”。
安全与对齐: LLM 通常被训练为乐于助人和无害。“去伪存真”需要批判性、怀疑态度，有时甚至是对抗性的。模型可能偏向于“两边下注” (both-sidesism) ，而不是采取强硬立场，导致在矛盾任务中的创造力得分较低。
规划的本质: 规划是一个潜在的过程。我们只看到最终的文章，看不到导致它的邮件、电话和被废弃的草稿。仅仅通过查看最终输出来学习规划，是一个极其困难的机器学习任务。

结论: AI 是工具，而非替代品

这项研究为围绕新闻业 AI 的炒作提供了一个清醒但重要的检验。虽然 LLM 可以总结文本和修正语法，但它们在新闻业的核心智力劳动——调查策略——方面表现挣扎。

作者总结道，LLM 目前充当的是“安全”的规划者。它们建议显而易见的切入点和标准的信源。对于一位过度劳累的记者来说，这可能仍然有用——作为一个“理智检查”来确保基础工作已覆盖。然而，依赖 LLM 来规划故事可能会导致报道比人类制作的内容缺乏批判性、缺乏多样性且信息量更少。

AI 在新闻编辑室的未来可能在于 人机回环 (Human-in-the-Loop) 系统。也许 LLM 可以连接到外部数据库 (使用检索增强生成，RAG) 以提供它们目前缺乏的历史背景。或者，也许应该利用它们来扮演“魔鬼代言人”，专门被提示去寻找记者计划中的漏洞，而不是让它们自己生成计划。

在那之前，“新闻嗅觉”——那种挖掘别人未关注之处的人类本能——仍然是人类独有的特质。

问题所在: 新闻的“去伪存真”#

构建 PressRelease 数据集#

核心方法: 对比摘要#

指标可视化#

洞察: 矛盾需要资源#

实验: 人类与机器#

结果#

1. LLM 不善于寻源#

2. 创造力鸿沟#

3. LLM 错过了最好的点子#

4. 微调有帮助，但不够#

为什么会发生这种情况？#

结论: AI 是工具，而非替代品#