大型语言模型 (LLM) 是在从互联网抓取的海量数据集上训练而成的,其中通常包含敏感的个人信息、专有代码或受版权保护的作品。这带来了巨大的隐私风险: 这些模型可能会“记忆”其训练数据。如果攻击者可以查询 LLM 并确定特定文档是否属于其训练集,那么他们就成功发动了成员推断攻击 (Membership Inference Attack, MIA) 。
对于部署 LLM 的组织而言,审计这些模型是否存在隐私泄露至关重要。然而,目前审计的“黄金标准”——训练“影子模型”——成本高得令人望而却步。它需要训练多个 LLM 副本仅仅是为了测试一个模型。
在这篇文章中,我们将深入探讨一篇题为 “Order of Magnitude Speedups for LLM Membership Inference” 的研究论文。研究人员提出了一种使用分位数回归集成 (quantile regression ensembles) 的新方法,该方法大幅降低了这些审计的计算成本 (近 95%) ,同时保持甚至超过了最先进方法的准确性。
我们将分析当前攻击存在的问题,解释这种基于回归的新方法背后的数学原理,并分析结果,说明为什么这可能成为隐私审计的新标准。
问题所在: 隐私审计过于昂贵
要理解这篇论文的贡献,我们首先需要了解成员推断攻击的机制。
MIA 的目标是确定特定数据点 \(x\) (如医疗记录或电子邮件) 是否包含在用于训练目标模型 \(f\) 的私有数据集 \(D_{priv}\) 中。
朴素方法: 损失阈值化
最简单的直觉是,模型“喜欢”它们以前见过的数据。如果你向 LLM 输入一个句子,并且它以极高的概率 (低损失) 预测下一个 token,那么它可能已经记住了这个句子。
然而,简单地查看损失是有缺陷的。有些句子天生就比其他句子更容易预测 (例如,“猫坐在垫子上”与复杂的医学诊断相比) 。低损失可能意味着模型记住了数据,但也可能仅仅意味着数据很简单。
黄金标准: LiRA 与影子模型
为了解决这个问题,研究人员使用了似然比攻击 (Likelihood Ratio Attacks, LiRA) 。 他们不看原始损失,而是看校准后的损失。他们会问: “对于一个没有在该文档上训练过的模型来说,这个文档在目标模型上的损失是否显著低于预期?”
为了回答这个问题,他们训练了影子模型 (Shadow Models) 。 这些模型与目标模型完全相同,但在不同的数据子集上进行训练。通过将文档传递给多个影子模型,审计员可以构建该文档的“预期分数”分布。
如果目标模型的分数与影子模型相比是一个异常值,则该文档很可能在训练集中。
瓶颈: 训练影子模型在计算上是毁灭性的。如果你想审计一个 70 亿参数的 Llama 模型,LiRA 可能需要你从头开始训练多个 70 亿参数的模型。对于大多数研究人员和公司来说,这是不可能的。
解决方案: 分位数回归集成
研究人员提出了一种完全消除了对昂贵影子模型需求的方法。他们不再模拟训练过程,而是旨在利用一个更小、更便宜的模型来直接预测分数的分布 。
核心概念
假设检验保持不变: 我们要区分零假设 (\(H_0\),数据是新的) 和备择假设 (\(H_1\),数据在训练集中) 。

攻击定义了一个评分函数 \(s(x)\),通常是目标模型下文档的损失或负对数似然。

攻击者的目标是学习一个阈值函数 \(q(x)\)。如果分数 \(s(x)\) 高于此阈值,我们拒绝零假设并假定成员资格。

用回归取代影子模型
在影子模型方法中,我们通过训练巨大的模型来估计 \(q(x)\)。在这种新方法中,作者建议训练一个分位数回归模型 (Quantile Regression Model) 。
该回归模型将文本 \(x\) 作为输入,并输出该文本分数分布的预测统计数据。具体来说,它预测的是通用 LLM 在没有在训练期间见过该文本的情况下,会对该文本产生的平均分 \(\mu(x)\) 和标准差 \(\sigma(x)\)。
至关重要的是, 回归模型不需要是与目标模型同样大小的 LLM。 你可以使用一个微小的 1.6 亿参数模型来预测一个 70 亿参数目标模型的分数难度。
目标函数
回归模型在公共数据集 \(D_{pub}\) (已知不在目标训练集中的数据) 上进行训练。研究人员探索了两个目标函数来训练该模型。
- 高斯负对数似然 (Gaussian Negative Log-Likelihood) : 假设分数服从正态分布,最小化误差。
- 弹球损失 (Pinball Loss) : 一种在分位数回归中常用的鲁棒方法,用于直接估计特定分位数 (如中位数) ,而不严格假设正态分布。
训练目标公式如下:

这里,第二个公式最小化了弹球损失 (PB) ,其定义根据预测是高估还是低估,对误差进行不同的惩罚:

通过在公共数据上最小化这些损失,小型回归模型学会了观察像“猫坐在垫子上”这样的句子,并预测: “通用模型通常觉得这很简单,所以预期损失是 0.5,方差是 0.1。”
集成的力量
为了进一步提高准确性和稳定性,作者不依赖单一的回归模型。相反,他们使用了小模型的集成 。
他们训练了 \(M\) 个不同的小模型 (例如,5 个微小的 Pythia-160m 模型) 。在评估可疑文档时,他们对这些模型的预测取平均值。这减少了仅训练一个模型固有的噪声,并显著提高了攻击的可靠性。

实验设置
为了证明该方法的有效性,作者进行了广泛的实验。他们测试了其廉价的回归集成是否能像昂贵的 LiRA 方法一样有效地捕捉隐私泄露。
数据集和模型
他们使用了三个标准数据集:
- AG News (新闻文章)
- WikiText-103 (维基百科文章)
- XSum (摘要数据集)

目标模型 (受害者) 来自 Pythia、OPT 和 Llama 系列,参数量最大为 70 亿。
攻击者模型 (回归集成) 主要是微小的 Pythia-160m 或 OPT-125m 模型。这是一个巨大的规模不匹配——攻击者的大小大约是目标的 2% 。
基线
他们将自己的方法与以下方法进行了比较:
- 损失攻击 (Loss Attack) : 简单的未校准损失。
- Min-k% / Zlib / Neighborhood: 其他启发式评分方法。
- LiRA: 最先进的影子模型方法。
主要结果
结果令人瞩目。回归集成方法始终与计算成本高昂的基线持平或表现更好。
1. 准确率与误报率
成员推断中最关键的指标是低假阳性率 (FPR) 下的真阳性率 (TPR) 。 我们希望在不错误指控非成员的情况下抓住成员。
在下面的 ROC 曲线中, 蓝线 (“Ours”) 代表回归集成。你可以看到它紧贴左上角 (越高越好) ,优于各种 LiRA 基线 (虚线) 和简单的损失指标。

下表量化了这一点。在严格的 0.1% 假阳性率 (意味着每 1000 个非成员中只有 1 个被错误指控) 下,回归方法 (“Ours”) 在几乎所有设置中发现的成员都明显多于 LiRA。

2. 跨架构鲁棒性
最令人印象深刻的发现之一是,你不需要知道目标模型的架构。
在下面的实验中,目标是 Llama-7b 。 LiRA 攻击 (使用 OPT 影子模型) 非常吃力。然而,回归攻击 (“Ours”) ,使用微小的 Pythia-160m 或 OPT-125m,依然保持了高性能。

这意味着审计人员可以构建一个单一、标准化的“审计套件”回归模型,并将其应用于各种 LLM (Llama、Mistral、Falcon) ,而无需为每一个模型训练特定的影子模型。

3. “数量级”的加速
论文标题声称有数量级的加速。他们做到了吗?
是的。训练影子模型实际上需要重复原始模型创建者的工作多次。相比之下,回归模型:
- 更小: 1.6 亿参数 vs 70 亿参数。
- 收敛更快: 它们只需要学习分数分布,而不是语言生成。
作者指出,他们的方法所使用的计算预算仅为同类影子模型攻击所需的 6% 。 这将隐私审计从一个庞大的项目转变为常规的单元测试。
4. 集成规模和训练 Epoch 的影响
研究人员分析了随着向集成中添加更多模型,攻击效果如何提高。如图 2 所示,随着集成规模从 1 增加到 7,性能提高且方差减小。即使是 5 个模型的小型集成也能提供稳定、高性能的攻击。

他们还研究了目标模型的训练如何影响脆弱性。正如预期的那样,训练更多 epoch (过拟合程度更高) 的模型更容易受到攻击。回归方法 (棕色线) 始终比其他指标更好地跟踪这种风险。

5. 详细的可视化
论文提供了不同数据集的广泛 ROC 曲线,证实了结果的一致性。
在 AG News 上,该方法优于基线,实现了近乎完美的曲线下面积 (AUC) 分数。

同样,在 XSum 上,该方法与基线之间的差距也非常明显。

结论与启示
“Order of Magnitude Speedups for LLM Membership Inference”中提出的研究标志着 AI 隐私和安全的一个转折点。
主要收获如下:
- 效率: 我们可以使用微小的回归模型来审计大型模型,将成本削减约 95%。
- 性能: 我们没有牺牲准确性来换取速度;事实上,回归方法通常优于传统的影子模型,这可能是因为回归任务比语言建模任务更容易学习。
- 灵活性: 该攻击与目标模型的架构无关,使其成为可能无法访问目标内部细节的外部审计员的通用工具。
为什么这很重要? 以前,隐私审计是只有那些拥有海量计算资源的人才能享受的奢侈品。这篇论文使这一过程民主化了。它允许开发人员像对待单元测试一样对待隐私泄露检查——在开发周期中廉价且频繁地运行它们。
虽然更好的攻击在理论上增加了风险,但从长远来看,它们对于防御至关重要。我们无法修复我们无法衡量的隐私泄露。通过使衡量变得廉价且准确,这项工作为更安全、更私密的语言模型铺平了道路。
](https://deep-paper.org/en/paper/2409.14513/images/cover.png)