介绍

在 GDPR 时代和隐私日益受到关注的背景下,“被遗忘权”已成为科技公司的一项关键要求。对于深度学习而言,这是一个巨大的工程挑战。如果用户请求从已训练的人工智能模型中删除其数据,我们如何确保模型真正“忘记”了他们?

标准的方法是 机器遗忘 (Machine Unlearning, MU) 。 其目标是更新模型,使其看起来从未见过特定数据,而无需从头开始重新训练整个模型 (因为这既昂贵又缓慢) 。然而,最近的研究揭示了一个令人不安的现实: 目前大多数机器遗忘方法都是肤浅的。它们可能会改变模型的最终输出,但在神经网络特征提取器的深处,敏感的“知识”往往仍然隐藏着。

在这篇文章中,我们将深入探讨一篇旨在解决这一深层问题的论文: 擦除空间概念 (Erasing Space Concept, ESC) 。 研究人员引入了一种方法,通过数学手段识别并在手术级精度下移除驻留“被禁止”知识的特定特征空间,从而确保真正的 知识删除 (Knowledge Deletion, KD)

问题: 遗忘的错觉

要理解为什么 ESC 是必要的,我们首先需要了解标准机器遗忘方法的失败之处。典型的深度学习模型由两部分组成:

  1. 特征提取器 (骨干网络/Backbone) : 学习理解形状、纹理和高级概念的层。
  2. 分类头 (Classification Head) : 将这些特征映射到特定类别标签 (例如“狗”或“猫”) 的最后一层。

大多数现有的遗忘方法 (如负梯度或随机标签) 侧重于最小化我们要遗忘的特定数据的损失。研究人员分析了这些变化实际在模型内部发生的位置。

Comparison of Head and Other.

如上图 2 所示,在现有方法中,绝大多数权重变化发生在 分类头 (Head) (橙色条) 。 其他 (Other) 层 (特征提取器) 几乎没有变化。

恢复风险

这产生了一种“掩饰”效应。模型可能会停止将图像分类为“用户 A”,但代表“用户 A”的深层特征仍然存在。如果恶意行为者简单地冻结骨干网络并重新训练一个新的分类头 (这一过程称为线性探测) ,“被遗忘”的知识就会立即重新浮现。

The recovery rate of each unlearning method using All-CNN in CIFAR-10.

图 1 展示了这个 知识保留 (Knowledge Retention) 问题。绿色条显示了“恢复率”。高条意味着在简单的线性探测后,模型在理应遗忘的数据上重新获得了高准确率。SCRUB、Fisher 和微调 (Finetuning) 等标准方法都面临着高恢复率的问题。

为了解决这个问题,论文提出了一个名为 知识删除 (Knowledge Deletion, KD) 的新标准,要求必须从 特征空间 中擦除信息,而不仅仅是输出端。他们还引入了 知识保留 (Knowledge Retention, KR) 分数——这是一个专门设计的指标,用于测试特征提取器是否仍然保留着被禁止的信息。

解决方案: 擦除空间概念 (ESC)

ESC 方法的核心见解是几何学的。深度学习模型将数据点映射到高维特征空间中。关于特定类别 (如特定的脸或物体) 的知识倾向于存在于该空间的特定“方向”上。

如果我们能够识别代表“遗忘数据”的特定几何方向,我们就可以将它们折叠。通过在这些特定维度上扁平化特征空间,可以有效地切除模型表示该概念的能力。

第一步: 提取主方向

作者使用 奇异值分解 (Singular Value Decomposition, SVD) 来找到这些方向。SVD 是一种线性代数技术,可以将矩阵分解为其组成部分。

当我们把“遗忘数据” (想要删除的图像) 通过模型的特征提取器时,我们会得到一个特征矩阵 \(\mathbf{Z}_f\)。我们将这个矩阵分解:

Singular Value Decomposition equation.

在这里,\(\mathbf{U}\) 代表特征空间中的 主方向 (principal directions) 。 这些数学向量本质上定义了“是什么让这些数据独一无二”。

第二步: 修剪空间 (ESC)

在标准的 ESC 方法 (无需训练) 中,过程非常直接:

  1. 在 \(\mathbf{U}\) 中识别出对应于遗忘数据的前几个主方向。
  2. 修剪 (Prune) (移除) 这些方向的一定百分比。

Pruning equation.

通过移除这些向量,我们强制模型的特征空间在存储敏感知识的轴上坍塌。模型不仅仅是“决定”不分类该用户;它在物理上失去了表示识别该用户所需特征的能力。

An overview of our methods.

图 4 (a 和 b) 将其可视化。我们取原始特征空间 \(\mathbf{U}\),识别“遗忘”方向,并应用擦除操作以创建一个修剪后的空间 \(\mathbf{U}_P\)。

这创建了一个新的“已遗忘”特征提取器 \(h_{\psi_P}\) 和模型 \(f_{ESC}\):

ESC model equation.

这种方法速度极快,因为它只需要一次前向传播和一次 SVD 计算——不需要梯度下降迭代。

进阶方法: 带训练的 ESC (ESC-T)

虽然标准 ESC很快,但移除整个主方向是一种生硬的手段。有时,有助于识别“遗忘”类别的方向可能对“保留”类别也有用 (例如,“耳朵”的概念对被禁止的类别“狼”是必要的,但对于保留类别“狗”也是需要的) 。硬性修剪可能会损害模型在剩余数据上的准确性。

为了解决这个问题,作者提出了 ESC-T (带训练的 ESC)

可学习掩码

ESC-T 不是删除整个方向,而是学习一个 掩码 (mask) (\(\mathbf{M}\)) ,选择性地抑制主方向内的特定元素。

Refined Principal Directions equation.

在这里,优化后的方向 \(\mathbf{U}_R\) 是原始方向和学习到的掩码的逐元素乘积。

优化过程

掩码初始化为全 1 (无变化) 。然后使用 惩罚交叉熵 (Penalized Cross-Entropy, PCE) 损失函数对其进行优化。

PCE Loss equation.

这个损失函数做了一件很聪明的事:

  • 如果模型正确预测了我们想要遗忘的类别,损失就会很高 (惩罚知识) 。
  • 优化器更新掩码以最小化该损失,有效地找到使模型无法识别被禁数据所需的最小抑制量。

训练完成后,对掩码进行阈值处理使其变为二值 (0 和 1) 。

Threshold equation.

这产生了一个优化后的特征空间,它在 隐私 (擦除概念) 和 效用 (保留其他类别的有用特征) 之间取得了平衡。

ESC-T model equation.

实验结果

研究人员在 CIFAR-10、CIFAR-100 和人脸识别基准等数据集上,将 ESC 和 ESC-T 与最先进的遗忘方法进行了测试。

1. 它真的删除了知识吗?

主要目标是降低 知识保留 (KR) 分数 (越低越好,意味着知识无法恢复) 。

Table 1: Accuracy, MIA, and KR performance.

在表 1 中,请看右侧的 KR (知识保留) 部分。

  • Original (原始) : 在遗忘数据上准确率高 (对隐私不利) 。
  • Retrain (重训,黄金标准) : 在遗忘数据上准确率低。
  • Competitors (Finetune, SCRUB, NegGrad 等竞争对手) : 它们在 KR 设置下仍然显示出对遗忘数据的高准确率 (意味着特征仍然存在) 。
  • ESC / ESC-T: 它们在遗忘数据上实现了极低的准确率,与重训基线相当,同时在剩余数据 (\(D_r\)) 上保持了高准确率。

2. 擦除的可视化

最有力的证据之一来自于特征空间的可视化。

余弦相似度 (Cosine Similarity) : 在下方的图 3 中,左侧热图显示了原始特征——同一类别的特征之间具有高相似度 (亮色) 。右侧热图显示了 ESC 特征。对角线是暗的。被遗忘类别的特征不再彼此对齐;该概念已被打散。

Cosine similarity visualization.

t-SNE 可视化: 作者还使用 t-SNE 映射了特征空间。在下方的图 12 中,红点代表“遗忘”类别 (鹿) 。

  • Original (原始)LAU (竞争对手) 的图中,红点紧密聚集成簇——模型仍然将它们归为一组。
  • ESC (Ours) 中,红点分散成云状。模型不再将它们视为一个连贯的类别。

t-SNE visualization of unlearning methods.

模型在看什么? 使用 Grad-CAM (显示模型关注图像的哪些部分) ,我们可以看到注意力的转移。在原始模型中,它关注人脸 (身份特征) 。在 ESC/ESC-T 中,注意力完全转移到了背景上。模型实际上再也“看”不到人脸特征了。

Grad-CAM activation maps.

3. 速度与效率

由于 ESC 使用 SVD,而 ESC-T 使用轻量级的掩码优化 (而不是重新训练权重) ,它们的速度极快。

Comparison of time consumption.

如图 5 所示,与 Finetuning 或 SCRUB 等方法相比,ESC (红条) 几乎是瞬间完成的。即使是 ESC-T,所需时间也仅为其他算法的一小部分。

结论

“被遗忘权”不仅仅要求掩盖 AI 模型的输出;它要求对模型的内部表征进行深度手术。 擦除空间概念 (ESC) 论文指出了当前遗忘方法的一个关键缺陷: 它们在特征空间中留下了数据的“幽灵”。

通过利用奇异值分解,ESC 为隐私问题提供了一个几何解决方案。它识别神经网络思维中概念的“方向”并将其删除。

  • ESC 提供了一种极快、无需训练的方法,可实现即时遗忘。
  • ESC-T 提供了一种精细的、可学习的方法,在最大化保留有用知识的同时,确保被禁止的数据真正消失。

这项工作为机器遗忘设立了新的标准,将目标从简单的输出误差转移到了真正的 知识删除 。 随着 AI 模型日益融入我们的生活,像 ESC 这样的工具对于维护用户信任和隐私将至关重要。