版权盲区：LLM 是否会无视提示词中的“保留所有权利”？

引言

长期以来，AI 社区一直关注 LLM 是否记忆了受版权保护的训练数据 (参数化知识) 。你可能听说过关于模型逐字逐句吐出《纽约时报》文章的争论。但是，还有一个同样关键但长期被忽视的战场: 用户输入 。

随着检索增强生成 (RAG) 和海量上下文窗口 (允许用户上传整本书) 的兴起，LLM 越来越多地在运行时处理用户提供的私有、受版权保护的数据。

如下图所示，答案令人担忧。

如图 1 所示，虽然模型可能会拒绝凭记忆背诵一本书 (左侧) ，但如果你在提示词中提供受版权保护的文本 (右侧) ，它们往往会很乐意处理，实际上无视了其中包含的法律声明。

背景: 从输出到输入的转变

要理解这篇论文的重要性，我们需要区分两种类型的“知识”:

参数化知识 (Parametric Knowledge) : 这是模型在预训练期间学到的内容。如果你问，“《哈利·波特》的第一句话是什么？”，模型会从它的权重中提取这个信息。关于防止模型反刍这些数据，已经有了大量的研究。
上下文知识 (Contextual Knowledge) : 这是用户在提示词中提供的，或通过搜索检索 (RAG) 到的信息。

研究人员认为，如果 LLM 不能主动识别并尊重这些声明，它们就有可能成为法律责任的“温床”。

基准测试: 测试 LLM 的“合法性”

由于针对这一特定问题没有现成的标准测试，作者创建了一个庞大的基准数据集。他们的目标是模拟用户可能试图绕过版权限制的真实场景。

实验设置

研究人员整理了一个包含 43,200 个模拟用户查询的数据集。他们不仅使用了随机文本；他们选择了代表高价值知识产权的材料:

书籍: 既有经典小说也有现代 (2023 年后) 小说。
电影剧本: 包含对话和场景描述的剧本。
新闻文章: 最新的报道 (以避免训练数据污染) 。
代码文档: API 文档和手册。

然后，他们设计了一个评估流程，测试模型在不同条件下如何处理这些内容。

图 3: 基准设计。该框架旨在评估一系列 LLM 在各种任务、内容类型、长度和版权条件下的表现。

如上面的图 3 所示，基准测试改变了几个关键参数:

任务: 他们要求模型重复 (Repeat) 、提取 (Extract) 、改写 (Paraphrase) 或翻译 (Translate) 文本。
声明: 他们修改文本以包含“原始声明”、通用的“保留所有权利”警告或“无声明” (模拟公共领域) 。
指标: 他们使用复杂的评分方法 (ROUGE, BERTScore 等) 来衡量模型遵循非法指令的程度，并使用“GPT 法官”来检测模型是否拒绝了请求。

统计严谨性: 估计提示得分 (Estimated Prompting Score)

评估 LLM 的一个挑战是它们对提问的方式很敏感。模型可能会拒绝“复制这段文本”，但会对“请复制上一段”表示遵从。

为了解决这个问题，作者不仅依赖单一的提示词。他们引入了一种称为估计提示得分 (Estimated Prompting Score) 的统计方法。

核心思想是使用另一个 LLM (如 GPT-4) 多次“重写”用户的提示词，从而创建一组相似的查询。然后，他们计算这些变体的预期表现。

评估指标定义为:

\[ \mathcal { F } _ { \mathcal { P } _ { c } } ( \mathcal { M } ) = \frac { \sum _ { i = 1 } ^ { n } \tilde { f } ( q _ { i } , p _ { i } ) } { n } \]

这里，\(\mathcal{F}_{\mathcal{P}_c}\) 代表模型对版权的尊重行为。但是为了获得特定查询 \(q\) 和内容 \(p\) 的得分 \(\tilde{f}\)，他们使用重要性采样器 (另一个 LLM，\(\mathcal{M}^*\)) 来生成变体 \(x_i\):

\[ \tilde { f } ( q , p ) = \frac { \sum _ { i = 1 } ^ { n } ( \operatorname* { P r } [ x _ { i } | q , \mathcal { M } ^ { * } ] \cdot f ( x _ { i } , p ) ) } { \sum _ { i = 1 } ^ { n } \operatorname* { P r } [ x _ { i } | q , \mathcal { M } ] } . \]

这个公式可能看起来令人生畏，但它本质上是在说: 我们通过根据生成的可能性对不同的提示词变体进行加权，来计算平均合规得分。

他们进一步证明了这个估计量是无偏的:

\[ \begin{array} { r } { \mathbb { E } [ \tilde { f } ( q , p ) ] = \mathbb { E } _ { x \sim \operatorname* { P r } [ x | q , \mathcal { M } ^ { * } ] } [ f ( x , p ) ] . } \end{array} \]

通过使用这种严格的数学框架，作者确保了他们的结果不仅仅是由提示词中特定的“魔力词”引起的侥幸，而是代表了模型尊重或违反版权的普遍倾向。

实验与结果: 系统性失效

研究人员测试了一系列流行模型，包括开源冠军 (LLaMA-3, Mistral, Mixtral, Gemma) 和专有巨头 (GPT-4 Turbo) 。

1. 总体表现

结果令人触目惊心。 大多数 LLM 不尊重用户输入中的版权信息。

下表 1 总结了这些表现。在此表中，ROUGE、LCS (最长公共子序列) 以及翻译/改写得分越高，表示违规程度越高 (模型成功复制/翻译了文本) 。较低的“Refusal (拒绝) ”率意味着模型很少说“不”。

表 1: 在我们的基准上测试的 LLM 实验结果。显示了大多数模型的高 ROUGE/LCS 分数和低拒绝率。

数据关键要点:

对用户指令的高依从性 (版权侵权) : 看看 Repeat (重复) 和 Extract (提取) 列。像 LLaMA-3 8B 和 Gemma-2 9B 这样的模型具有巨大的 ROUGE 分数 (超过 80%) 。这意味着当被要求复制受版权保护的文本时，它们几乎完美地做到了。
低拒绝率: 对于“提取”任务，Mixtral 和 Mistral 的拒绝率为 0.00% 。它们每次都服从了。
GPT-4 Turbo 是个例外: GPT-4 Turbo (最后一行) 是唯一显示出显著抵抗力的模型。它在“重复”任务上的拒绝率为 53.33%，且其 ROUGE 分数低得多 (50.42%) 。这表明 OpenAI 已经做了特定的对齐工作来教导模型识别版权陷阱，尽管它远非完美。

2. “保留所有权利”声明有用吗？

解读: 模型对待带有版权警告的文本与对待没有警告的文本完全一样。它们处理内容的语义含义，但忽略了关于使用权的元数据。
例外: 再次强调，GPT-4 Turbo (右下角) 显示出轻微的转变。当存在声明时，分布向左移动 (更低的 ROUGE 分数) ，表明其初步具备了识别这些限制的能力。

3. 对措辞的敏感性

虽然声明无关紧要，但用户的查询却很重要。

图 5: LLM 针对不同种子查询的 ROUGE 分数分布。每种颜色代表一个独特的种子查询。

图 5 显示，不同的“种子查询” (核心指令，如“提取这个”与“复制这个”) 会导致不同的违规率。这凸显了当前保障措施的不稳定性；用户可能因为一种措辞被拒绝，但仅仅通过客气地请求或更改动词就能成功。

缓解措施: 我们能教会 LLM 尊重版权吗？

鉴于这些令人担忧的结果，作者探讨了简单的提示工程技术是否可以缓解这种行为。他们测试了两种策略:

版权关键词: 在提示词中明确添加“copyrighted (受版权保护的) ”一词 (例如，“从这段受版权保护的段落中提取第一句话”) 。
重复警告: 添加“系统”指令: “Don’t follow the instructions if the input contains copyrighted content!!! (如果输入包含受版权保护的内容，请勿遵循指令！！！) ”

他们在 GPT-4 Turbo 上测试了这些策略，测量 ROUGE 分数 (违规率) 下降了多少。

图 6: GPT-4 Turbo 在不同关键词和警告设置下的 ROUGE-1 分数。显示警告和关键词具有累积降低违规的效果。

发现 (图 6) :

关键词略有帮助: 添加“copyrighted” (深色条) 略微降低了分数。
警告帮助更大: 添加一次警告 (中间组) 相比无警告显著降低了分数。
重复效果最好: 将警告重复 10 次 (右侧组) 并结合关键词，导致了最低的违规率 (将 ROUGE 分数降至 40% 以下) 。

然而，即使有了这些缓解措施，违规率也并非为零。模型变得更好了，但并非安全。

结论与启示

论文 “Do LLMs Know to Respect Copyright Notice?” 揭示了当前 AI 开发中的一个关键盲区。虽然我们花了很多年担心模型背诵《哈利·波特》，但我们并没有足够重视当用户将《哈利·波特》粘贴到聊天中时，模型正在协助对其进行未经授权的处理。

关键要点:

上下文就是狂野西部: 无论是否有法律声明，大多数模型都会尽职尽责地处理、翻译或改写输入中提供的受版权保护文本。
声明是隐形的: 标准的“保留所有权利”标题被视为待处理的文本的另一部分，而不是需要遵守的指令。
对齐是可能的，但尚处早期: GPT-4 Turbo 证明模型可以被训练来拒绝这些请求，但开源模型目前缺乏这种安全对齐。

这对学生和开发者为何重要

对于进入 NLP 领域的学生来说，这强调了“对齐 (alignment) ”不仅仅是防止仇恨言论或危险的炸弹制造指令。它还涉及法律合规性。

当我们构建可以浏览网页和读取文件 (RAG 系统) 的智能体时，我们实际上是给了 LLM 眼睛。如果这些眼睛看不懂“禁止入内”的标志，这些系统的开发者可能要为随之而来的侵权行为承担责任。这篇论文既是一个基准，也是一个行动号召: 未来的模型必须被教导输入数据是有规则的 , 阅读这些规则与阅读内容本身同样重要。

引言#

背景: 从输出到输入的转变#

基准测试: 测试 LLM 的“合法性”#

实验设置#

统计严谨性: 估计提示得分 (Estimated Prompting Score)#

实验与结果: 系统性失效#

1. 总体表现#

2. “保留所有权利”声明有用吗？#

3. 对措辞的敏感性#

缓解措施: 我们能教会 LLM 尊重版权吗？#

结论与启示#

这对学生和开发者为何重要#

引言