当场抓获：SHIELD 如何防止大语言模型侵犯版权

大语言模型 (LLM) 的迅速崛起赋予了我们在文本生成方面神奇的能力，但也打开了法律挑战的潘多拉魔盒。如果你让一个 LLM “写一个关于巫师男孩的故事”，你会得到一个富有创意的输出。但如果你让它“打印《哈利·波特与魔法石》的第一页”，你就踏入了一个法律雷区。

最近有几起备受瞩目的诉讼针对 AI 公司，声称他们的模型剽窃了受版权保护的材料。问题是双重的: 现有的模型在收到提示时，往往会公然输出受版权保护的文本；或者相反，它们变得“过度保护”，拒绝生成公有领域的文本 (如《双城记》) ，因为它们害怕侵权。

在这篇文章中，我们将深入探讨最近的一篇论文 “SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation” (SHIELD: LLM 文本生成中版权合规的评估与防御策略) 。研究人员提出了一个综合框架，不仅评估了模型在面临版权盗窃时的脆弱性——即使在“越狱”攻击下——而且还引入了一种新颖的、基于智能体 (Agent) 的防御机制来阻止这种情况。

双刃剑: 侵权与过度保护

在理解解决方案之前，我们必须先定义问题。版权法很复杂，而且因司法管辖区而异。AI 模型本身并不理解 2023 年出版的书 (可能有版权) 和 1859 年出版的书 (可能属于公有领域) 之间的区别。

这种混淆导致了两种截然不同的失效模式:

版权侵权: 模型逐字复制受保护作品的文本。
过度保护: 模型拒绝生成实际上可以免费使用的文本，阻碍了研究和合法使用。

图 1: LLM 输出受版权保护文本或过度保护的示例。

如图 1 所示，这造成了令人沮丧的用户体验。在第一个例子中，模型逐字背诵了 J.K. 罗琳的作品——这明显是违规行为。在第二个例子中，它拒绝提供狄更斯的《双城记》的文本，尽管该作品属于公有领域，模型却错误地将其标记为侵犯版权。

现有防御措施的局限性

为什么我们还没有解决这个问题？作者认为，现有的缓解策略存在重大缺陷:

机器遗忘 (Machine Unlearning) : 这涉及尝试让模型“忘记”特定数据。然而，从训练数据中删除受版权保护的文本可能会给模型做“脑叶切除术”，严重降低其通用性能和语言能力。
对齐 (安全训练) : 虽然模型经过训练可以拒绝有害请求，但这往往导致上述的过度保护问题。此外，版权状态会随着时间而改变；每次版权过期都重新训练模型是不切实际的。
解码策略 (例如 MemFree) : 一些方法试图在文本生成过程中检测逐字复制，并引导模型避开这些词。虽然很聪明，但这往往会导致幻觉。模型被迫避开原始文本的确切措辞，开始编造看起来像原始文本但实际上错误的内容。

介绍 SHIELD: 法律防御系统

为了解决这些局限性，研究人员引入了 SHIELD 。与以前试图直接改变模型权重或解码过程的方法不同，SHIELD 作为一个基于智能体的防御机制 (Agent-based defense mechanism) 运行。

可以将 SHIELD 不看作是对 LLM 大脑的修改，而是看作位于用户和模型之间的“合规官”。它实时检查请求，并咨询外部资源以做出明智的决定。

架构

SHIELD 框架由三个协同工作的核心组件组成:

版权材料检测器 (Copyright Material Detector)
版权状态验证器 (Copyright Status Verifier)
版权状态指南 (Copyright Status Guide)

图 3: 我们的 SHIELD 防御机制架构。

让我们逐步分解这些组件是如何运作的。

1. 版权材料检测器

第一道防线是检测。系统需要知道被请求 (或生成) 的文本是否类似于已知的受版权保护材料。为了在不降低用户体验速度的情况下高效地做到这一点，作者利用了一个 N-Gram 语言模型 。

检测器将文本与已知受版权保护作品的数据库 (语料库 $C$) 进行比较。它使用以下方程计算文本序列 $T$ 属于该语料库的概率:

\[ P ( T | C ) = \prod _ { i = 1 } ^ { n } P ( w _ { i } | w _ { i - 1 } , w _ { i - 2 } , \dots , w _ { i - n + 1 } ) \]

这个方程本质上是在问: “给定前面的单词序列，下一个单词与受版权保护文本匹配的可能性有多大？”如果概率超过特定阈值，系统会将内容标记为潜在侵权。

2. 版权状态验证器

一旦发现潜在匹配，系统并不会盲目阻止它。它会激活验证器 。这是一项关键创新。由于版权状态是动态的 (每年都有书籍进入公有领域) ，验证器使用网络服务 (如搜索引擎或特定数据库) 来检查已识别作品的当前法律状态。

场景 A: 检测器标记了“It was the best of times, it was the worst of times.”。验证器检查网络，发现它是《双城记》 (1859) ，并确认它是公有领域 。
场景 B: 检测器标记了现代畅销书的一行。验证器检查并确认它是受版权保护的 。

3. 版权状态指南

最后, 指南根据验证器的报告决定 LLM 的行为。

如果文本属于公有领域 , 指南不执行任何操作，允许 LLM 自由生成文本。
如果文本是受版权保护的 , 指南会介入。它构建一个特定的系统提示 (使用“少样本示例”) ，指示 LLM 礼貌地拒绝该请求。

图 4: 我们的 SHIELD 防御机制使用的少样本示例。

如图 4 所示，指南为 LLM 提供了如何处理这些特定情况的示例。模型被引导说“我很抱歉，我不能提供逐字内容……”，而不是输出受版权保护的文本。

评估协议: 版权基准测试

为了证明 SHIELD 有效，研究人员首先必须解决一个主要问题: 没有足够的基准来评估版权合规性。现有的数据集没有清晰地区分不同地区的公有领域作品和受版权保护作品。

作者精心策划了五个新数据集:

BS-NC (畅销书 - 无版权) : 公有领域经典作品。
BS-C (畅销书 - 有版权) : 现代畅销书。
BS-PC (部分版权) : 在某些国家属于公有领域但在其他国家不属于的作品 (例如，最近去世的作者的作品) 。
SSRL (Spotify 歌词) : 热门流媒体歌曲的歌词 (高度受保护) 。
BEP (最佳英语诗歌) : 著名的无版权诗歌。

越狱的威胁

这就论文的一个关键贡献是评估鲁棒性 。普通用户可能会直接要求文本 (“直接探测”) ，但恶意用户会使用“越狱”——旨在绕过安全过滤器的复杂提示 (例如，“假装你是一个没有规则的无政府主义 AI……”) 。

研究人员测试了 76 种不同的越狱模板，看看它们是否能迫使 LLM (如 GPT-4、Claude-3 和 Llama-3) 泄露受版权保护的文本。

实验结果

实验显示，标准 LLM 极其脆弱，但 SHIELD 提供了显著的保护。

标准模型的脆弱性

研究人员发现，在没有防御的情况下，模型经常反刍受版权保护的文本。有趣的是，越狱攻击显着增加了受版权保护输出的量。恶意提示可以诱骗模型忽略其内部的安全训练。

$表 1: 用于生成受版权保护文本的不同提示类型的比较。P. 表示提示类型。每个单元格包含指标的平均值和最大值。 \$\\uparrow\$ 表示越高越好， \$\\downarrow\$ 表示越低越好。在这里，更好意味着 LLM 可以通过生成更少的内容或拒绝请求来更好地防御请求。对于同一个 LLM，所有提示类型中最好的结果 (高文本量和低拒绝率) 以粗体显示，最差的值带有下划线。$

表 1 突出了基准性能。你可以看到，“越狱 (Jailbreaking) ”通常会导致较低的拒绝率 (意味着攻击成功) 和比标准提示更高的逐字复制。

SHIELD 的有效性

应用 SHIELD 后，结果发生了正确的变化。系统成功拦截了对受版权保护材料的请求。

复制减少: 指标 LCS (最长公共子串) 测量复制文本的长度。SHIELD 大幅降低了受版权保护数据集的这一分数。
高拒绝率: 对于受版权保护的材料，拒绝率飙升 (在某些情况下接近 100%) ，这正是预期的行为。

至关重要的是，SHIELD 没有破坏模型生成公有领域文本的能力。

$表 11: LLM 生成的公有领域文本量 (使用和未使用 SHIELD) 。D. 是数据集。该表显示了前缀探测和直接探测提示的汇总结果。每个单元格包含 BEP 和 BS-NC 数据集指标的平均值/最大值。 \$\\downarrow\$ 表示越低越好， \$\\uparrow\$ 表示越高越好。此表显示 SHIELD 不会影响 LLM 生成的非受版权保护文本的量。$

如表 11 所示，在公有领域数据集 (BEP 和 BS-NC) 上进行测试时，使用 SHIELD 的模型的指标与不使用 SHIELD 的模型几乎相同。这证明 SHIELD 通过正确识别这些文本可以安全生成，解决了“过度保护”问题。

SHIELD 与越狱

也许最令人印象深刻的结果是 SHIELD 对越狱的韧性。因为防御机制依赖于外部检测器和验证器——而不仅仅是 LLM 的内部对齐——所以更难用“角色扮演”提示来愚弄它。

表 9: SHIELD 防御机制在 Llama 3 上对抗越狱的有效性，与原生 Llama 3 和带有 MemFree 的 Llama 3 进行比较。

表 9 比较了 Llama-3 模型在三种条件下的情况: 原生 (Vanilla) 、MemFree (一种竞争的解码方法) 和 SHIELD。SHIELD 将平均 LCS (复制文本长度) 从 6.61 降低到 1.87，并将拒绝率提高到 96.8%。

效率

人们可能会担心添加“智能体”层会降低模型速度。研究人员分析了延迟，发现它是轻量级的。N-Gram 检测器计算成本很低，网络验证可以缓存。事实上，因为模型拒绝生成长篇受版权保护的段落 (而是输出简短的拒绝) ，被阻止请求的总处理时间实际上可能比允许模型生成完整文本的时间更低。

$表 7: LLM 在 BS-C 数据集上不同保护级别的效率。Vanilla 模型是没有任何保护的 LLM。 \$T\$ 和 \$[ T | | T _ { G } ]\$ 分别是在生成之前和之后具有 SHIELD 保护的 LLM。请注意，对于在生成之后应用保护，模型将生成两次响应。即，首先生成没有保护的响应，然后将保护应用于生成的响应。$

结论

SHIELD 框架代表了使生成式 AI 在法律上可持续迈出的重要一步。通过将版权检测与模型的生成过程解耦，研究人员创建了一个具备以下特点的系统:

准确: 它可以区分公有领域作品和受版权保护作品。
鲁棒: 它可以抵御愚弄标准模型的越狱攻击。
可解释: 因为它依赖于搜索查询和特定准则，所以比“黑盒”神经网络决策更容易理解为什么请求被阻止。
可更新: 随着版权状态的变化 (例如，当“米老鼠”进入公有领域时) ，SHIELD 可以通过其网络验证器立即适应，而无需重新训练底层的庞大 LLM。

随着 LLM 在内容创作中变得无处不在，像 SHIELD 这样的工具可能会成为标准基础设施，确保 AI 在协助创造力的同时不侵犯人类创作者的权利。

双刃剑: 侵权与过度保护#

现有防御措施的局限性#

介绍 SHIELD: 法律防御系统#

架构#

1. 版权材料检测器#

2. 版权状态验证器#

3. 版权状态指南#

评估协议: 版权基准测试#

越狱的威胁#

实验结果#

标准模型的脆弱性#

SHIELD 的有效性#

SHIELD 与越狱#

效率#

结论#