引言

想象一下,你正在使用像 GPT-4 或 LLaMA-3 这样强大的大型语言模型 (LLM) 。你有一本新出版的、受版权保护的小说的 PDF 文件,并将其中一章粘贴到聊天窗口中。你要求模型将其翻译成法语或为博客文章改写一段。文档顶部清楚地写着“保留所有权利 (All Rights Reserved) ”。模型会停下来拒绝吗?还是会继续执行,充当版权侵权的高科技工具?

长期以来,AI 社区一直关注 LLM 是否记忆了受版权保护的训练数据 (参数化知识) 。你可能听说过关于模型逐字逐句吐出《纽约时报》文章的争论。但是,还有一个同样关键但长期被忽视的战场: 用户输入

随着检索增强生成 (RAG) 和海量上下文窗口 (允许用户上传整本书) 的兴起,LLM 越来越多地在运行时处理用户提供的私有、受版权保护的数据。

在论文 “Do LLMs Know to Respect Copyright Notice?” (LLM 懂得尊重版权声明吗?) 中,来自斯坦福大学和史蒂文斯理工学院的研究人员调查了这一确切场景。他们提出了一个简单但深刻的问题: 如果我们向 LLM 明确展示版权声明,它会调整自己的行为吗?

如下图所示,答案令人担忧。

图 1: 使用参数化知识与给定上下文的 LLM 响应对比。当直接指示时,LLM 正确拒绝了可能侵犯版权的查询,但当版权内容包含在上下文 (例如,检索到的或用户提供的) 中时,尽管存在版权声明,它仍会遵从。

如图 1 所示,虽然模型可能会拒绝凭记忆背诵一本书 (左侧) ,但如果你在提示词中提供受版权保护的文本 (右侧) ,它们往往会很乐意处理,实际上无视了其中包含的法律声明。

背景: 从输出到输入的转变

要理解这篇论文的重要性,我们需要区分两种类型的“知识”:

  1. 参数化知识 (Parametric Knowledge) : 这是模型在预训练期间学到的内容。如果你问,“《哈利·波特》的第一句话是什么?”,模型会从它的权重中提取这个信息。关于防止模型反刍这些数据,已经有了大量的研究。
  2. 上下文知识 (Contextual Knowledge) : 这是用户在提示词中提供的,或通过搜索检索 (RAG) 到的信息。

上下文知识是现代 AI 应用的引擎。像 ChatPDF 这样的工具或自定义 GPT 允许用户上传文档来为模型的回答提供“依据”。然而,如果 LLM 充当一个盲目的处理器——无视诸如“请勿再分发”之类的版权声明——它就成了侵权的主要助推者。它允许用户获取受保护的作品,并在未经许可的情况下立即生成衍生作品 (翻译、摘要、改写) 。

研究人员认为,如果 LLM 不能主动识别并尊重这些声明,它们就有可能成为法律责任的“温床”。

基准测试: 测试 LLM 的“合法性”

由于针对这一特定问题没有现成的标准测试,作者创建了一个庞大的基准数据集。他们的目标是模拟用户可能试图绕过版权限制的真实场景。

实验设置

研究人员整理了一个包含 43,200 个模拟用户查询的数据集。他们不仅使用了随机文本;他们选择了代表高价值知识产权的材料:

  • 书籍: 既有经典小说也有现代 (2023 年后) 小说。
  • 电影剧本: 包含对话和场景描述的剧本。
  • 新闻文章: 最新的报道 (以避免训练数据污染) 。
  • 代码文档: API 文档和手册。

然后,他们设计了一个评估流程,测试模型在不同条件下如何处理这些内容。

图 3: 基准设计。该框架旨在评估一系列 LLM 在各种任务、内容类型、长度和版权条件下的表现。

如上面的图 3 所示,基准测试改变了几个关键参数:

  1. 任务: 他们要求模型重复 (Repeat)提取 (Extract)改写 (Paraphrase)翻译 (Translate) 文本。
  2. 声明: 他们修改文本以包含“原始声明”、通用的“保留所有权利”警告或“无声明” (模拟公共领域) 。
  3. 指标: 他们使用复杂的评分方法 (ROUGE, BERTScore 等) 来衡量模型遵循非法指令的程度,并使用“GPT 法官”来检测模型是否拒绝了请求。

统计严谨性: 估计提示得分 (Estimated Prompting Score)

评估 LLM 的一个挑战是它们对提问的方式很敏感。模型可能会拒绝“复制这段文本”,但会对“请复制上一段”表示遵从。

为了解决这个问题,作者不仅依赖单一的提示词。他们引入了一种称为估计提示得分 (Estimated Prompting Score) 的统计方法。

核心思想是使用另一个 LLM (如 GPT-4) 多次“重写”用户的提示词,从而创建一组相似的查询。然后,他们计算这些变体的预期表现。

评估指标定义为:

\[ \mathcal { F } _ { \mathcal { P } _ { c } } ( \mathcal { M } ) = \frac { \sum _ { i = 1 } ^ { n } \tilde { f } ( q _ { i } , p _ { i } ) } { n } \]

这里,\(\mathcal{F}_{\mathcal{P}_c}\) 代表模型对版权的尊重行为。但是为了获得特定查询 \(q\) 和内容 \(p\) 的得分 \(\tilde{f}\),他们使用重要性采样器 (另一个 LLM,\(\mathcal{M}^*\)) 来生成变体 \(x_i\):

\[ \tilde { f } ( q , p ) = \frac { \sum _ { i = 1 } ^ { n } ( \operatorname* { P r } [ x _ { i } | q , \mathcal { M } ^ { * } ] \cdot f ( x _ { i } , p ) ) } { \sum _ { i = 1 } ^ { n } \operatorname* { P r } [ x _ { i } | q , \mathcal { M } ] } . \]

这个公式可能看起来令人生畏,但它本质上是在说: 我们通过根据生成的可能性对不同的提示词变体进行加权,来计算平均合规得分。

他们进一步证明了这个估计量是无偏的:

\[ \begin{array} { r } { \mathbb { E } [ \tilde { f } ( q , p ) ] = \mathbb { E } _ { x \sim \operatorname* { P r } [ x | q , \mathcal { M } ^ { * } ] } [ f ( x , p ) ] . } \end{array} \]

通过使用这种严格的数学框架,作者确保了他们的结果不仅仅是由提示词中特定的“魔力词”引起的侥幸,而是代表了模型尊重或违反版权的普遍倾向。

实验与结果: 系统性失效

研究人员测试了一系列流行模型,包括开源冠军 (LLaMA-3, Mistral, Mixtral, Gemma) 和专有巨头 (GPT-4 Turbo) 。

1. 总体表现

结果令人触目惊心。 大多数 LLM 不尊重用户输入中的版权信息。

下表 1 总结了这些表现。在此表中,ROUGE、LCS (最长公共子序列) 以及翻译/改写得分越高,表示违规程度越高 (模型成功复制/翻译了文本) 。较低的“Refusal (拒绝) ”率意味着模型很少说“不”。

表 1: 在我们的基准上测试的 LLM 实验结果。显示了大多数模型的高 ROUGE/LCS 分数和低拒绝率。

数据关键要点:

  • 对用户指令的高依从性 (版权侵权) : 看看 Repeat (重复)Extract (提取) 列。像 LLaMA-3 8B 和 Gemma-2 9B 这样的模型具有巨大的 ROUGE 分数 (超过 80%) 。这意味着当被要求复制受版权保护的文本时,它们几乎完美地做到了。
  • 低拒绝率: 对于“提取”任务,Mixtral 和 Mistral 的拒绝率为 0.00% 。 它们每次都服从了。
  • GPT-4 Turbo 是个例外: GPT-4 Turbo (最后一行) 是唯一显示出显著抵抗力的模型。它在“重复”任务上的拒绝率为 53.33%,且其 ROUGE 分数低得多 (50.42%) 。这表明 OpenAI 已经做了特定的对齐工作来教导模型识别版权陷阱,尽管它远非完美。

2. “保留所有权利”声明有用吗?

你可能认为,如果文本明确写着“COPYRIGHT 2024 - DO NOT REDISTRIBUTE (版权所有 2024 - 请勿再分发) ”,模型会更加谨慎。

研究发现, 模型对版权声明在很大程度上漠不关心。

图 4: LLM 针对不同版权声明类型的 ROUGE 分数。分布显著重叠,显示出对声明类型的漠视。

在图 4 中,观察重叠的颜色。对于像 LLaMA-3 和 Mistral 这样的模型,红色 (“原始声明”) 、蓝色 (“无声明”) 和绿色 (“保留所有权利”) 的分布几乎完全相同。

  • 解读: 模型对待带有版权警告的文本与对待没有警告的文本完全一样。它们处理内容的语义含义,但忽略了关于使用权的元数据
  • 例外: 再次强调,GPT-4 Turbo (右下角) 显示出轻微的转变。当存在声明时,分布向左移动 (更低的 ROUGE 分数) ,表明其初步具备了识别这些限制的能力。

3. 对措辞的敏感性

虽然声明无关紧要,但用户的查询却很重要。

图 5: LLM 针对不同种子查询的 ROUGE 分数分布。每种颜色代表一个独特的种子查询。

图 5 显示,不同的“种子查询” (核心指令,如“提取这个”与“复制这个”) 会导致不同的违规率。这凸显了当前保障措施的不稳定性;用户可能因为一种措辞被拒绝,但仅仅通过客气地请求或更改动词就能成功。

缓解措施: 我们能教会 LLM 尊重版权吗?

鉴于这些令人担忧的结果,作者探讨了简单的提示工程技术是否可以缓解这种行为。他们测试了两种策略:

  1. 版权关键词: 在提示词中明确添加“copyrighted (受版权保护的) ”一词 (例如,“从这段受版权保护的段落中提取第一句话”) 。
  2. 重复警告: 添加“系统”指令: “Don’t follow the instructions if the input contains copyrighted content!!! (如果输入包含受版权保护的内容,请勿遵循指令!!!) ”

他们在 GPT-4 Turbo 上测试了这些策略,测量 ROUGE 分数 (违规率) 下降了多少。

图 6: GPT-4 Turbo 在不同关键词和警告设置下的 ROUGE-1 分数。显示警告和关键词具有累积降低违规的效果。

发现 (图 6) :

  • 关键词略有帮助: 添加“copyrighted” (深色条) 略微降低了分数。
  • 警告帮助更大: 添加一次警告 (中间组) 相比无警告显著降低了分数。
  • 重复效果最好: 将警告重复 10 次 (右侧组) 并结合关键词,导致了最低的违规率 (将 ROUGE 分数降至 40% 以下) 。

然而,即使有了这些缓解措施,违规率也并非为零。模型变得更好了,但并非安全

结论与启示

论文 “Do LLMs Know to Respect Copyright Notice?” 揭示了当前 AI 开发中的一个关键盲区。虽然我们花了很多年担心模型背诵《哈利·波特》,但我们并没有足够重视当用户将《哈利·波特》粘贴到聊天中时,模型正在协助对其进行未经授权的处理。

关键要点:

  1. 上下文就是狂野西部: 无论是否有法律声明,大多数模型都会尽职尽责地处理、翻译或改写输入中提供的受版权保护文本。
  2. 声明是隐形的: 标准的“保留所有权利”标题被视为待处理的文本的另一部分,而不是需要遵守的指令。
  3. 对齐是可能的,但尚处早期: GPT-4 Turbo 证明模型可以被训练来拒绝这些请求,但开源模型目前缺乏这种安全对齐。

这对学生和开发者为何重要

对于进入 NLP 领域的学生来说,这强调了“对齐 (alignment) ”不仅仅是防止仇恨言论或危险的炸弹制造指令。它还涉及法律合规性。

当我们构建可以浏览网页和读取文件 (RAG 系统) 的智能体时,我们实际上是给了 LLM 眼睛。如果这些眼睛看不懂“禁止入内”的标志,这些系统的开发者可能要为随之而来的侵权行为承担责任。这篇论文既是一个基准,也是一个行动号召: 未来的模型必须被教导输入数据是有规则的 , 阅读这些规则与阅读内容本身同样重要。