引言: 复制粘贴的困境
在生成式 AI 时代,有一个问题或许比其他任何问题都更令人关注: 大型语言模型 (LLM) 究竟是在创造新内容,还是仅仅是一台精密的复制粘贴机器?
这不仅是一个学术上的好奇。它是数十亿美元诉讼案 (如 《纽约时报》诉 OpenAI 案) 以及版权法未来的核心支点。如果 LLM 仅仅是反刍其海量训练语料库中记忆的大块文本,那么“合理使用”的论点就会变得摇摇欲坠。相反,如果模型是在综合信息以创造真正新颖的句子,那么它们就实现了人工智能的承诺。
为了科学地回答这个问题,我们需要测量“新颖性 (novelty) ”。但这面临着巨大的工程障碍。现代 LLM 是在诸如 “The Pile” 这样的数据集上训练的,其中包含数千亿个 token (超过 800GB 的文本) 。要检查一个生成的句子是否新颖,严格来说,你必须将其与那个巨大干草堆中的每一份文档进行比对。
标准的搜索方法在这种规模下会失效。它们实在太慢了。
在这篇深度文章中,我们将探讨 Merrill、Smith 和 Elazar 的一篇论文,该论文介绍了一种突破性的工具: RUSTY-DAWG 。 通过利用基因组学中的数据结构和高性能工程,研究人员构建了一个能够以常数时间搜索海量语料库的系统。关于 Pythia 等模型的新颖性,他们的发现挑战了我们对 LLM 写作方式的假设——并准确地指出了它们何时容易发生抄袭。
规模化的挑战
在理解解决方案之前,我们必须理解度量标准。研究人员关注的是逐字新颖性 (verbatim novelty) 。 他们寻找的不是模糊的语义相似性;他们想知道模型生成的特定单词序列 (即 \(n\)-gram) 是否逐字逐句地出现在训练数据中。
这通常通过 \(n\)-新颖率 (\(n\)-novelty rate) 来衡量: 即生成的 \(n\)-grams (长度为 \(n\) 的序列) 中,未出现在训练语料库中的比例。
如果你分析的是一个小语料库,你可以使用哈希表或简单的搜索索引。但当你的训练数据是 The Pile (3340 亿个 token) 时,用简单粗暴的方法将每一个生成的 50 词短语与整个互联网档案进行比对,在计算上是禁止的。之前的研究局限于在小数据集 (如 WebText,40GB) 上训练的小模型,这无法代表当今庞大的 LLM。
RUSTY-DAWG 登场: 为互联网建立索引
为了解决规模问题,研究人员利用了一种被称为压缩有向无环词图 (Compacted Directed Acyclic Word Graph, CDAWG) 的数据结构。
CDAWG 是一个有限状态机——由节点和边组成的复杂图——它充当了文本语料库的完美索引。与扫描文档的标准搜索不同,CDAWG 将语料库中每一个可能的子字符串表示为图中的一条路径。

如上方的 图 1 所示,CDAWG 将语料库 (在这个玩具示例中是 “hello$world”) 压缩成一张图。
- 节点 (Nodes) 代表匹配过程中的状态。
- 边 (Edges) 代表字符或 token。
- 实线 显示有效的转换 (匹配文本) 。
- 虚线 代表“失败弧 (failure arcs) ”——这是快捷路径,告诉算法如果匹配失败该退回到哪里,而无需从头开始。
为什么要使用 CDAWG?
CDAWG 的魔力在于它的效率。一旦构建完成,你可以将查询字符串 (例如 ChatGPT 生成的文档) 流式传输通过该图。在训练数据中找到最长匹配子字符串所需的时间仅取决于查询的长度。 它不依赖于训练数据的大小。
无论训练集是 10 兆字节还是 10 TB,搜索速度大致相同。
作者使用 Rust 语言实现了这一点 (因此得名 RUSTY-DAWG ),以确保内存效率和速度。他们成功为整个 The Pile 数据集构建了一个 CDAWG,创造了可能是迄今为止构建的最大的此类图结构。
指标: \(n\)-新颖性和 NNSL
利用 RUSTY-DAWG,研究人员为每个生成的文本计算了两个至关重要的指标:
- \(n\)-新颖性 (\(n\)-novelty) : 生成文本中不存在于训练数据中的 \(n\)-grams 的百分比。

- 非新颖后缀长度 (Non-Novel Suffix Length, NNSL) : 在生成文档的每个 token 位置,出现在训练数据中的最长前该序列的长度是多少?
如果特定位置的 NNSL 为 100,这意味着模型生成的最后 100 个 token 是从训练文档中直接复制的。
实验: AI 写作的新颖性如何?
研究人员分析了 Pythia 系列模型 (参数范围从 70M 到 12B) ,这些模型都在 The Pile 上进行了训练。他们生成了数千份文档,并将它们与人类编写的文本基线进行了比较。
基线 1: “验证”集 (一个警示故事)
最初,人们可能会将 AI 生成的内容与 The Pile 的“验证 (Validation) ”集进行比较——即从训练中保留出来的文本。然而,研究人员发现验证集被严重“污染”了。由于互联网是重复的,验证集中的许多文档实际上也出现在了训练集中 (例如重复的新闻文章或样板文件) 。
基线 2: Dolma (真正的人类标准)
为了获得公平的比较,他们使用了来自 Dolma 的文本 (具体是 Reddit 和科学论文) ,这些文本是在 The Pile 的截止日期之后创建的。这确保了文本绝对不在训练数据中。这代表了“自然”的人类新颖性。
发现 1: 模型比人类更多地复制长短语
第一个主要发现揭示了 LLM 生成文本与人类之间的二分法。

请看 图 2 。 x 轴代表 \(n\)-gram 的大小 (对数刻度) ,y 轴是新颖性的百分比。
- 绿线 (Pythia-12B): 注意,对于较小的 \(n\) (1 到 4) ,该模型实际上比人类基线 (Dolma,深灰线) 更具新颖性。这表明模型非常擅长以独特的方式混合和匹配单个单词及短语。
- 交叉点: 然而,随着 \(n\) 变大 (\(n > 4\)) ,趋势发生了逆转。模型的文本变得比人类文本更缺乏新颖性 。
这意味着什么? 虽然模型在措辞选择上很有创意,但在统计上,它们比人类更有可能反刍冗长的、逐字的序列 (如 10-grams 或 50-grams) 。除非是为了引用,否则人类写作自然会避免长时间的精确重叠;而模型则会陷入记忆化。
部分非新颖性是结构性的。作者发现模型逐字复制了数千次软件许可证 (Apache License) 和代码导入 (Linux 头文件) 。
发现 2: 规模很重要
让模型“更聪明” (更大) 能减少复制吗?令人惊讶的是,不能。

图 3 描绘了一幅清晰的图景。
- 左图 (a): 当你从浅蓝线 (70M 参数) 移动到深蓝线 (12B 参数) 时,新颖性曲线下降。
- 右图 (b): 平均 NNSL (复制字符串的平均长度) 随着模型大小的对数呈线性增加。
结论: 更大的模型具有更高的记忆容量。虽然它们能力更强,但也更容易直接从训练数据中输出长序列。
解码策略的影响
对于 LLM 用户来说,最实用的见解或许来自于对“解码策略”的分析。当 LLM 预测下一个 token 时,它会为其词汇表中的每个单词分配一个概率。“解码策略”就是我们用来从该列表中选择下一个单词的规则。
- 随机采样 (高温度) : 我们随机选择,但根据概率加权。这增加了多样性。
- 贪婪 / 束搜索 (低温度) : 我们始终选择最可能的单词。
研究人员发现, 受限解码会扼杀新颖性。

在 图 4 中,请看左下角和右下角的图表:
- 温度 (左下) : 随着温度下降 (颜色变深) ,新颖性骤降。在温度为 0 (贪婪) 时,模型本质上是在背诵训练数据。
- 束搜索 (右下) : 束搜索 (Beam Search) 通常用于使文本更“连贯”或“准确”,但它是最糟糕的罪魁祸首。在束宽为 8 的情况下,即使对于大的 \(n\)-grams,新颖性也接近于零。
表 2 从数值上证实了这一点。使用标准采样时,最大复制字符串长度 (Max NNSL) 为 376。使用束搜索 (Beam=8) 时,最大复制长度为 408 。 模型实际上逐字输出了一大块文本。

这表明,通过语言模型的“最可能”路径通常只是一条通往其训练数据的路径。如果你想要原创内容,你必须使用随机采样 (较高的温度) 。
模型为何复制?频率因素
为什么模型会默认为复制?研究人员假设,训练数据中频繁出现的序列对模型来说更“容易”预测。
他们定义了一个称为平均补全损失 (Mean Completion Loss) 的指标。损失越低,意味着模型对序列的“惊讶”程度越低,预测的置信度越高。

图 5 完美地验证了这一假设:
- 图 (a): 蓝线 (训练集中的序列) 的损失明显低于红线 (非训练集中的序列) 。当模型遍历它以前见过的路径时,它会自信得多。
- 图 (b): 随着 \(n\)-gram 频率的增加,损失下降。一个短语在 The Pile 中出现的频率越高,模型逐字输出它的可能性就越大。
这就造成了一个自我强化的循环。样板文本、免责声明和名言警句在训练中频繁出现。模型以低损失学习了这些内容。当你使用“贪婪”解码运行模型时,它会倾向于这些低损失路径,从而导致逐字复制。
结论: 记忆与创造力的权衡
RUSTY-DAWG 的引入使我们能够以前所未有的精度监控 LLM 的行为。通过对 The Pile 的 3340 亿个 token 建立索引,作者揭示了 AI 生成的微妙现实。
LLM 既不单纯是随机鹦鹉,也不纯粹是创造性引擎。它们存在于这两种状态的叠加态中,受其参数和设置的支配:
- 小尺度: 它们非常新颖,能在 1-4 个单词的层面上独特地混合概念。
- 大尺度: 它们容易反刍长序列 (50+ 个单词) ,这一点明显超过人类写作者。
- 设置很关键: 你越是限制模型 (通过低温度或束搜索) 以求“准确”,它就越会退回到记忆化。
对于开发者和研究人员来说,这突显了一个关键的权衡。如果你需要 LLM 既符合事实又连贯 (通常通过束搜索实现) ,你就冒着侵犯版权和数据反刍的风险。如果你想要新颖性,你就必须接受高温度采样的随机性。
随着我们进入一个对 AI 训练数据进行严格审查的时代,像 RUSTY-DAWG 这样的工具将至关重要。它们提供了 AI 时代的“抄袭检测器”——一个真正能够跟上互联网规模的检测器。
](https://deep-paper.org/en/paper/2406.13069/images/cover.png)