每个研究人员都深知这种感觉。你有一个绝妙的想法,实验已经跑通,核心方法论也已起草完毕。然后,你遇到了瓶颈: 相关工作部分 (Related Work Section, RWS) 。
要写好 RWS,你不能仅仅列出听起来和你相似的论文。你必须构建一个连贯的叙事。你需要解释问题的历史,按方法对现有解决方案进行分类,指出它们的缺陷,并无缝过渡到你的工作是如何填补这一空白的。这项任务需要深厚的领域专业知识、高水平的综合能力,以及阅读数百篇论文的时间。
但是,如果 AI 能为你做这件事呢?
这就是相关工作生成 (Related Work Generation, RWG) 的承诺,这是自然语言处理 (NLP) 领域中一个令研究人员着迷了十多年的方向。在一篇题为 “Related Work and Citation Text Generation: A Survey” (相关工作与引用文本生成: 综述) 的全面新综述中,研究人员 Xiangci Li 和 Jessica Ouyang 带我们回顾了这项挑战性任务的历史、失败以及复兴。
在这篇文章中,我们将探讨计算机是如何学习阅读和撰写科学文献的——从简单的复制粘贴算法,到试图像科学家一样“思考”的复杂大型语言模型 (LLM) 。
核心问题: 为什么 RWG 很难
在看解决方案之前,我们需要了解这项任务的难度。学术研究是探索性的。为了让读者相信一篇新论文的价值,作者必须进行文献综述,将先前的工作与当前的工作联系起来。
正如综述作者所指出的那样,“撰写 RWS 绝非易事;仅仅将先前工作的通用摘要拼凑在一起是不够的。”好的文献综述是一个故事。它需要:
- 检索 (Retrieval) : 找到相关的论文 (通常来自海量、快速增长的预印本源) 。
- 理解 (Understanding) : 消化这些论文的全文。
- 综合 (Synthesis) : 逻辑地对它们进行分组。
- 生成 (Generation) : 撰写连贯的文本,定位新工作与旧工作的关系。
随着 NLP 模型能力的发展,RWG 领域也经历了“兴衰更替”。它始于基于规则的系统,发展到抽取式摘要,现在已经进入了基于 LLM 的生成式 (Abstractive) 时代。
定义任务: 移动的靶心
这篇综述中最令人惊讶的发现之一是,研究人员对什么是“相关工作生成”实际上并未达成一致。任务的定义随着当时可用技术的变化而发生了巨大的转变。
作者将 RWG 的历史分为三种截然不同的方法:
- 抽取式 (Extractive) : 选择并重新排序现有的句子。
- 生成式 (引用级 Citation-Level) : 生成关于特定论文的单个句子。
- 生成式 (章节级 Section-Level) : 生成完整的段落或章节。
我们可以通过下表直观地看到这些差异:

1. 抽取式方法
在早期 (2010 年左右) ,该任务被定义为抽取式 。 系统会获取一组被引用的论文和目标论文,本质上是从被引论文中“复制粘贴”显著的句子来形成摘要。
如下面的表 4 所示,像 Hoang 和 Kan (2010) 这样的早期作品需要一个“主题层级树 (Topic hierarchy tree) ”作为输入——本质上是一个人工大纲——并用从被引论文中提取的句子填充它。这种方法确保了文本是基于事实的 (因为它是直接复制的) ,但结果往往缺乏流畅性和连贯性。读起来像是一堆不相关的事实罗列,而不是一个叙事。

2. 生成式方法: 神经转向
随着神经网络 (如 Transformer) 的出现,该领域转向了生成式 (Abstractive) 生成——即从头开始编写新句子。然而,早期的神经模型有一个主要限制: 它们无法阅读长文档。一篇科学论文有数千字之长;早期的模型根本无法在内存中保存那么多信息。
为了应对这一问题,任务定义缩小了。研究人员不再生成整个章节,而是专注于引用文本生成 (Citation Text Generation) 。 目标变成了在给定周围上下文的情况下,生成描述一篇被引论文的单个句子 (或句子的一部分) 。
表 5 突出了这一转变。请注意,许多此类作品 (如 AbuRa’ed 等人, 2020) 的“目标 (Target) ”是“包含单个参考文献的引用句”。

这种简化使得神经网络能够解决这个问题,但对人类来说用处不大。描述一篇论文的单句话并不能帮助研究人员构建涉及二十个不同来源的复杂论证。
3. 回归章节级生成
最近,得益于具有巨大上下文窗口的 LLM (如 GPT-4) ,钟摆又摆了回来。任务定义回归到了最初的目标: 生成一个完整、连贯的相关工作部分 。 现代方法 (如 Li 和 Ouyang, 2024) 尝试生成多个段落,逻辑地组织引用,并撰写过渡句——模仿人类的写作过程。
方法论: 机器如何阅读科学
那么,这些系统实际上是如何工作的呢?综述确定了几个在不同方法中各异的关键组件。我们可以在表 7 (来自论文附录) 中看到这些方法的总结,其中列出了不同研究人员使用的输入和特定模型。

论文表示
由于完整的论文太长,几乎所有系统都使用摘要 (Abstract) 作为论文内容的代理。摘要简明扼要,通常包含主要贡献。然而,一些较新的方法认为这还不够。例如,Li 等人 (2023) 提议寻找“被引文本片段” (Cited Text Spans, CTS) ——即被引论文正文中支持所提主张的具体句子。
上下文的重要性
上下文就是一切。根据你引用某篇论文的原因,你对它的描述会有所不同。你是引用它来批评它吗?还是使用它的方法?亦或是将其与你自己的工作进行对比? 大多数生成式系统使用“目标论文上下文”——引用周围的句子——来指导生成。这确保了生成的文本与论文的其余部分流畅衔接。
引用图谱
论文不是在真空中存在的。一些高级模型 (如 Ge 等人, 2021) 使用引用图谱 (Citation Graphs) 。 它们查看论文网络——谁引用了谁——以理解作品之间的关系。如果论文 A 和论文 B 经常被一起引用,模型就会学习到它们可能是相关的主题,应该在同一个段落中讨论。
人在回路 (Human-in-the-Loop)
最新的进展承认,AI 仍然难以进行高层次的组织。“人工辅助生成”涉及用户提供关键词、意图 (例如,“我想对比这些论文”) 或引用的粗略分组。然后,AI 处理草稿撰写,遵循人类的战略指导。
数据: 模型在读什么?
为了训练这些模型,你需要海量的科学论文数据集。综述强调,绝大多数 RWG 研究都集中在计算机科学和自然语言处理 (NLP) 论文上。这有点“元” (meta) 的情况: NLP 研究人员发现抓取和处理自己领域的论文最容易。
表 3 列出了常用的数据集。

- **ACL Anthology Network (AAN): ** 计算语言学会议的论文。
- **S2ORC: ** Semantic Scholar 开放研究语料库,海量的开放获取论文集。
- **CORWA: ** S2ORC 的一个子集,专门为引用生成进行了标注,标记了引用的“篇章角色” (例如,这个引用是句子的重点,还是仅仅作为一个参考?) 。
作者指出的一个主要挑战是数据集经常遗漏被引用的论文。如果一篇论文在付费墙后面,AI 就读不到它,这意味着它试图在从未见过原委的情况下为一篇论文写摘要。
评估: 我们如何知道它好不好?
评估生成的文本是出了名的困难。在标准的摘要任务中,我们将 AI 的输出与“黄金标准”的人工摘要进行比较。但在 RWG 中,写好相关工作部分的方法有很多种。
自动指标
大多数研究使用 ROUGE 分数,它衡量生成的文本与实际人工撰写的 RWS 之间的单词重叠程度。** 表 9** 总结了生成式工作中使用的指标。虽然 ROUGE 是标准,但在该特定领域,它作为质量代理指标的表现很差。AI 可能写出一个流畅、准确的段落,但仅仅因为它使用了与原作者不同的同义词,就得到了很低的 ROUGE 分数。

人工评估
由于自动指标的不足,人工评估至关重要。评判者 (通常是其他研究人员) 根据几个标准对输出进行评分。** 表 10** 提供了一个关于研究人员在 RWS 中看重什么的有趣视角。

关键视角包括:
- **流畅性 (Fluency) : ** 读起来通顺吗?
- **连贯性 (Coherence) : ** 它与周围的文本是否契合?
- **信息量 (Informativeness) : ** 它是否真的告诉了我们被引论文是关于什么的?
- **简洁性 (Succinctness) : ** 是否避免了啰嗦?
- **真实性 (Factuality) : ** 这至关重要。生成式模型可能会产生幻觉。模型可能会自信地陈述“Smith 等人 (2020) 提出了一个神经网络”,而实际上 Smith 提出的是一个基于规则的系统。
抽取式工作 (总结在表 8 中) 在真实性方面比较容易处理——因为它们只是复制文本,很少撒谎——但它们在连贯性和流畅性方面挣扎得很厉害。

当前挑战与伦理考量
综述最后确定了在 AI 能够完全为你撰写文献综述之前仍然存在的重大障碍。
1. 缺乏可比性
因为每篇论文对任务的定义不同 (单句 vs. 段落) ,且使用的数据集也不同,几乎不可能直接比较模型 A 和模型 B。该领域需要一个标准基准。
2. “缺失引用”问题
目前的系统假设你已经给它们提供了要引用的论文列表。但找到这些论文本身就是一半的战斗!作者建议未来的工作应该将**检索增强生成 (RAG) ** 与 RWG 结合起来。AI 不应仅仅总结你找到的论文;它应该告诉你你错过了哪些论文。
3. 叙事流畅性
人类仍然更擅长“过渡性”写作。我们知道如何编织一个故事,将不同的想法联系起来。AI 倾向于产生“引用大杂烩 (citation salad) ”——即一堆摘要的堆砌,缺乏强有力的潜在论证。
4. 伦理与教育
最后,作者提出了发人深省的伦理问题。
- **剽窃: ** 如果 AI 生成了你的 RWS,这算剽窃吗?即使是生成式模型也可能意外地复制大段训练数据。
- **学术诚信: ** 如果博士生使用 AI 写文献综述,他们真的学到了知识吗?撰写 RWS 是一个思考过程;绕过它可能会阻碍科学发展。
- **幻觉: ** AI 生成的 RWS 可能会引用不存在的论文或歪曲真实的论文。研究人员必须核实每一个主张,这可能和自己写这部分花的时间一样长。
结论
自动相关工作生成领域已经取得了长足的进步。我们已经从笨拙地粘贴句子的系统,发展到了能够生成流畅、段落级科学文献评论的复杂 LLM。
然而,“完美”的 AI 研究助理尚未出现。虽然模型在总结单篇论文方面表现出色,但它们仍然在使文献综述真正引人入胜的高层综合和讲故事能力方面挣扎。目前,最好的工作流程似乎是一种伙伴关系: 人类提供结构和批判性思维,而 AI 帮助处理大量的阅读和初稿起草。
正如作者总结的那样,这个领域是现代 NLP 能力的绝佳试验田。如果 AI 能够成功应对科学写作中复杂的、基于事实的和叙事性的要求,它很可能也能处理几乎任何其他任务。
](https://deep-paper.org/en/paper/2404.11588/images/cover.png)