检测 LLM 训练数据：深入剖析 RECALL

引言

像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 是在数万亿个来源于庞大互联网的 Token 上训练而成的。虽然这种规模赋予了模型惊人的能力，但也带来了一个“黑盒”问题。我们很难确切知道这些模型究竟是用什么数据训练的。这种不透明性引发了一系列严重的问题: 模型是否记住了受版权保护的书籍？它是否包含个人身份信息 (PII) ？基准测试的测试集是否因为问题已被包含在训练数据中而受到污染？

为了回答这些问题，研究人员使用了成员推理攻击 (Membership Inference Attacks, MIAs) 。 MIA 的目标很简单: 给定一段特定的文本，确定它是否属于模型的训练集 (“成员”) ，或者不属于 (“非成员”) 。

在过去，这比较容易。模型通常会过度拟合 (Overfitting) ，这意味着它们在训练数据上的损失 (Loss) 远低于未见过的数据 (置信度更高) 。然而，现代 LLM 的训练数据集如此庞大，以至于模型通常只看到每个数据点一次 (单个 Epoch) 。这种有限的接触使得“成员资格”的信号极其微弱。依赖简单的损失指标或昂贵的参考模型的传统方法正变得越来越低效，甚至在计算上不可行。

在这篇文章中，我们将探讨杜克大学的一篇研究论文，该论文提出了一种新颖、高效且高效的方法，称为 RECALL 。这种方法通过观察模型在面对不熟悉的上下文时的反应，而不仅仅是预测文本的能力，从而颠覆了传统的检测思路。

背景: 成员资格的直觉

在深入了解 RECALL 方法之前，我们需要建立一些关于 LLM 如何感知数据的基本概念。

对数似然 (Log-Likelihood, LL)

LLM 是概率引擎。当给定一段文本序列时，它们会分配下一个 Token 的概率。我们可以通过计算一段完整句子或段落的对数似然 (LL) 来衡量模型对这段文本的“熟悉程度”。

高 LL (接近 0) : 模型很自信。它认为这段文本是可预测的。
低 LL (更负的值) : 模型感到惊讶。这段文本是意想不到或不熟悉的。

注意: 由于概率在 0 到 1 之间，它们的对数是负数。“更高”的分数意味着一个绝对值更小的负数 (例如，-2 比 -5 更高/更好) 。

单 Epoch 训练的挑战

在传统的机器学习中，模型会看到训练数据数百次，从而完美地记住它们。在 LLM 时代，模型在训练期间可能只见过某篇维基百科文章一次。因此，“成员” (训练数据) 和“非成员” (未见过的数据) 之间的对数似然差异通常微乎其微。模型可能对一个非成员句子非常有信心，仅仅是因为它语法简单，而不是因为它记住了那个句子。

这就是为什么仅仅查看原始损失或对数似然通常不足以检测训练数据。我们需要一种相对的衡量标准——一种能够抵消文本固有复杂性的指标。

核心方法: RECALL

研究人员提出了 RECALL (相对条件对数似然，Relative Conditional Log-Likelihood) 。其核心假设非常有趣: 成员数据比非成员数据对“干扰”更敏感。

如果 LLM 记住了某段文本，它会严重依赖其内部权重来预测它。如果在预测目标文本之前，我们强迫模型先看一个“前缀 (Prefix) ”——一段模型肯定没见过的随机上下文——我们就破坏了这种记忆。研究人员发现，这种破坏会导致成员数据的置信度下降幅度远大于非成员数据。

非成员前缀的概念

RECALL 方法依赖于条件概率。我们选取目标文本 \(\mathbf{x}\) 并在两种情况下测量其似然度:

无条件 (Unconditional) : 仅文本本身。
有条件 (Conditional) : 文本前面加上“前缀” \(P\)。

至关重要的是，这个前缀 \(P\) 必须由非成员数据组成——即我们知道模型未见过的文本。

图 1: 成员 (M) 和非成员 (NM) 之间的对数似然比较。当以非成员上下文为条件时，成员比非成员经历更高的似然度下降。

如上方的 图 1 所示，请观察分布的差异。

左图 (成员) : 蓝线代表成员数据的无条件似然度。红线代表该数据在非成员前缀条件下的似然度。注意到了吗？红色曲线显著向左移动 (似然度降低) 。
右图 (非成员) : 橙色线和深红线几乎完全重叠。添加前缀并没有改变模型的置信度。

这种视觉差异是 RECALL 方法的核心: 以非成员前缀为条件，对成员数据似然度的损害显著大于对非成员数据的影响。

算法步骤详解

让我们分解 RECALL 工作原理的数学过程。

第一步: 构建前缀 我们通过连接几个非成员数据点 (\(p_n\)) 来创建一个前缀 \(P\)。这些可以是在模型训练截止日期之后发布的新闻文章，甚至是由另一个 AI 生成的合成数据。

定义前缀 P 为非成员数据点连接的公式。

第二步: 计算概率 对于一个目标数据点 \(\mathbf{x}\)，我们计算:

\(LL(\mathbf{x})\): 无条件对数似然。
\(LL(\mathbf{x} | P)\): 给定前缀的条件对数似然。

第三步: 计算 RECALL 分数 该分数仅仅是条件似然度与无条件似然度的比率。

RECALL 分数公式: 条件 LL 与无条件 LL 的比率。

解读分数

因为对数似然是负值，这里的数学计算需要稍微注意一下。

\(LL(\mathbf{x})\) 是负数 (例如 -3.0) 。
\(LL(\mathbf{x} | P)\) 通常更负，因为前缀干扰了模型 (例如 -4.0) 。
因此，比率 \(\frac{-4.0}{-3.0}\) 的结果是一个大于 1 的正数 (例如 1.33) 。

研究人员假设，成员 (\(\mathbf{x}_m\)) 的预期 RECALL 分数将高于非成员 (\(\mathbf{x}_{nm}\)) 。

显示成员的预期 RECALL 分数大于非成员的公式。

为了具体说明，我们来看看论文中提供的一个数值示例。

对于一个成员数据点: 成员数据点的计算示例，显示分数为 1.3。这里，似然度从 -3 下降到 -4。分数为 1.3。

对于一个 非成员 数据点: 非成员数据点的计算示例，显示分数为 1.1。这里，似然度仅略微下降，从 -3 到 -3.3。分数为 1.1。

由于 \(1.3 > 1.1\)，我们可以将第一个数据点归类为“成员”。

这种行为在分数分布上创造了明显的分离，如 图 2 所示。蓝色分布 (成员) 相对于橙色分布 (非成员) 向右偏移。

图 2: 成员和非成员的 RECALL 分数分布。接近 1 的值表示变化极小。总体而言，成员的 RECALL 分数往往高于非成员。

实验与结果

为了验证 RECALL，作者在 WikiMIA (维基百科片段) 和 MIMIR (一个分布偏移极小、更具挑战性的数据集) 等标准基准上进行了测试。他们将 RECALL 与强大的基准方法进行了比较，包括:

Loss: 简单的原始损失。
Ref: 使用较小的参考模型来校准分数 (通常是黄金标准，但计算昂贵) 。
Min-K%: 一种关注最不可能出现的 Token 的方法。

SOTA 性能

WikiMIA 上的结果令人震惊。RECALL 不仅击败了基准方法，而且大幅超越了它们。

表 1: WikiMIA 基准上的 AUC 结果。RECALL 在所有设置中均显著优于所有现有基准方法。

在 表 1 中，查看“Average” (平均) 列。

之前最好的方法 Min-K%++ 在长度为 32 的输入上得分为 75.3% AUC。
RECALL 的得分为 90.1% 。

这是一个巨大的性能飞跃，特别是对于较短的文本输入 (长度 32) ，这通常是成员推理中最难的部分，因为可用的信号非常少。

效率: 单样本 (One Shot) 的力量

关于这种方法的一个主要问题是: “前缀需要多长？”我们是否需要给模型数千个 Token 的上下文才能看到这种效果？

令人惊讶的是，不需要。这种方法效率极高。

图 3: 高达 28 个 Shot 的 RECALL 性能。即便只有一个 Shot，RECALL 也在所有设置中持续优于基准方法。

图 3 显示了随着“Shot” (前缀示例) 数量增加，AUC 分数的变化。

看图表的最左侧 (X 轴接近 0 处) 。即使只有 一个 Shot (单个非成员示例作为前缀) ，RECALL (蓝线) 也立即跃升至接近峰值的性能 (~90%) 。
像 Min-K%++ (绿点) 和 Reference (红点) 这样的基准方法仍然显著较低。
性能是稳定的。增加更多的 Shot 会略有帮助，但你不需要填满整个上下文窗口就能获得良好的结果。

这种效率对于实际审计至关重要。这意味着研究人员可以在不需要大量计算资源处理长上下文的情况下检查数据污染。

为什么它有效？深入分析

论文不仅报告了数字，还调查了这种现象发生的原因。

非成员上下文的必要性

有人可能会问: “前缀必须是非成员数据吗？如果我们只在前面放随机的成员数据会怎样？”

作者对此进行了测试，结果证实了他们的假设。

图 8: 成员和非成员前缀下的成员和非成员条件 LL 比较。使用成员前缀进行调节不会产生显著的变化。

在 图 8 中，我们看到了比较不同调节场景的散点图。

左图: 比较以非成员为条件的成员数据 (\(M | NM\)) 与以其他成员为条件的成员数据 (\(M | M\)) 。非成员前缀 (\(M | NM\)) 偏离对角线的程度要高得多。
结论: 如果你在一个成员前面加上另一个成员，模型会感到“舒适”。它能识别出这种分布。只有当你引入“分布外”的非成员文本时，模型对已记住目标的信心才会动摇。

Token 级分析

研究人员还观察了概率下降发生在句子的哪个位置。是整句话变得不太可能，还是只有特定部分？

图 9: 平均 Token 级对数似然变化。最大的变化出现在开始的 Token 中。

图 9 显示，干扰主要发生在目标序列的开始部分。

Y 轴显示对数似然的变化 (\(\Delta\)) 。
X 轴代表目标句子中的 Token 位置。
注意开始处 (位置 0-20) 的峰值。红线 (\(NM | NM\)) 显示以非成员为条件的非成员变化很小。
然而，涉及成员数据的绿色/蓝色线在开始处显示出显著的偏移。

这表明从前缀到目标的“上下文切换”立即打乱了模型已记住的模式。一旦模型处理了目标的最初几个 Token，它就会再次“记起”该序列，似然度也就稳定下来了。

鲁棒性: 随机和合成前缀

许多攻击的一个实际限制是需要“真实 (Ground Truth) ”数据。要运行 RECALL，你需要一个非成员前缀。但是，你怎么找到你知道模型没见过的数据呢？

作者尝试了:

随机选择: 选取近期日期的随机文本。
合成数据: 让 GPT-4 生成伪造文本。

表 3: RECALL 使用固定前缀比动态前缀表现更好。相似前缀结果最佳，其次是随机选择。

表 3 和论文中的其他实验表明，虽然选择与目标语义相似的前缀效果最好 (“Most”) ，但简单地选择一个随机前缀仍然能产生 69-74% 的 AUC，这是很有竞争力的。

此外，使用由 GPT-4 生成的合成前缀的效果几乎与使用真实的非成员数据一样好。这对审计来说是一个游戏规则改变者，因为这意味着你可以即时生成自己的前缀，而无需访问经过验证的非成员数据集。

结论

RECALL 论文介绍了成员推理攻击领域的一项重大进展。通过利用 LLM 处理上下文学习 (In-Context Learning) 的特定方式，作者确定了已记忆数据的一个独特“指纹”: 当面对不熟悉的上下文时，它的脆弱性。

给学生和研究人员的关键要点:

上下文很重要: LLM 中的记忆不是静态的；它高度依赖于提示上下文。
相对指标获胜: 绝对损失值充满噪声。比较损失的变化 (条件与无条件) 提供了更清晰的信号。
效率: 检测训练数据不需要复杂的参考模型或大量计算。单个 Shot 的上下文通常就足够了。

随着 LLM 继续融入社会，像 RECALL 这样的工具对于透明度将至关重要，它能帮助我们准确理解这些模型“读”了什么，并确保它们符合隐私和版权标准。

引言#

背景: 成员资格的直觉#

对数似然 (Log-Likelihood, LL)#

单 Epoch 训练的挑战#

核心方法: RECALL#

非成员前缀的概念#

算法步骤详解#

解读分数#

实验与结果#

SOTA 性能#

效率: 单样本 (One Shot) 的力量#

为什么它有效？深入分析#

非成员上下文的必要性#

Token 级分析#

鲁棒性: 随机和合成前缀#

结论#

引言