大语言模型 (LLM) 因其学习海量信息的能力而备受推崇。它们消化互联网、书籍和代码库,以帮助我们写作、编程和创造。但这这种海量数据的摄入也有一个明显的副作用: 它们会记住不该记的东西。
从受版权保护的材料和私人数据,到有毒内容和危险知识 (如生物武器制造) ,LLM 保留的信息带来了法律和道德风险。这催生了 LLM 遗忘 (LLM Unlearning) 领域。其目标在概念上很简单,但在实践中却很困难: 在不破坏模型一般能力的前提下,消除特定数据的影响。
迄今为止,大多数研究者将遗忘视为一个“损失函数”问题——试图找出什么样的数学目标能有效地惩罚模型记住不良数据。然而,一篇题为 “SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning” 的新论文指出,我们可能找错了方向。作者认为,关键不仅在于我们要求模型遗忘什么,还在于优化器如何在模型复杂的权重地形中导航。
在这篇文章中,我们将深入探讨这篇论文,了解为何标准优化方法在遗忘任务上会失败,以及一种名为 SOUL (Second-Order UnLearning,二阶遗忘) 的新框架如何利用先进的数学曲率来外科手术式地移除记忆,同时保持模型的完整性。

问题: 遗忘的高昂代价
想象一下,你已经在数 TB 的文本上训练了一个像 LLaMA-2 这样的大型模型。突然,一项法规通过,要求从你的模型中删除某位特定作者的受版权保护书籍。
一种天真的方法是从头开始重新训练——从数据集中删除这些书籍并重新训练模型。虽然这实现了“精确”遗忘,但其代价高昂得令人望而却步。重新训练一个 LLM 需要花费数百万美元,并耗时数周甚至数月。我们需要一种方法来更新现有的模型以“遗忘”特定数据。
平衡的艺术
遗忘的主要挑战在于 遗忘效力 (Forget Efficacy) 与 模型效用 (Model Utility) 之间的拉锯战。
- 过度遗忘: 如果你清理得太激进,可能会导致“灾难性崩溃”。模型虽然忘记了《哈利·波特》这类书,但也忘记了如何造句或回答关于世界的基本问题。
- 遗忘不足: 如果你太温和,模型会保留数据的痕迹,这些痕迹可以通过对抗性攻击提取出来。
当前方法: 一阶微调
目前,行业标准涉及使用特定的损失函数对模型进行微调。两种最流行的方法是:
1. 梯度差分 (GradDiff) : 这种方法试图最大化“遗忘集”上的损失 (让模型不善于预测它) ,同时最小化“保留集”上的损失 (保持模型在其他方面的能力) 。这实际上是在对不需要的数据执行梯度上升。

在上式中,第一项 (GA) 将模型推离遗忘数据 (\(\mathcal{D}_f\)) ,而第二项将模型锚定在保留数据 (\(\mathcal{D}_r\)) 上。
2. 偏好优化 (PO) : PO 不仅仅是破坏模型的预测,而是教导模型一种替代行为。当被问及遗忘数据时,模型被训练输出拒绝信息 (例如,“我无法回答那个问题”) 。

这里,\(y_f\) 代表拒绝回复。这将遗忘转化为一个标准的最小化问题: 最小化模型输出与拒绝信息之间的误差。
缺失的一环
虽然这些方法定义了要优化什么,但它们通常依赖于 一阶 (FO) 优化器,如 Adam 或 SGD。一阶优化器通过查看损失地形的“斜率” (梯度) 来决定迈步的方向。
SOUL 的作者认为,仅仅关注斜率对于遗忘这项精细的任务是不够的。由于忽略了地形的“曲率” (斜率如何变化) ,FO 方法难以在不损伤模型“大脑”的情况下找到擦除记忆所需的精确权重更新。
核心方法: 二阶遗忘 (SOUL)
该论文的突破在于连接了两个看似截然不同的概念: 影响函数 (Influence Functions) 和 二阶优化 (Second-Order Optimization) 。
灵感来源: 影响函数遗忘
在深度学习占据主导地位之前,统计学家使用“影响函数”来确定单个数据点对模型参数的贡献程度。理论上,如果你能计算出一个数据点的“影响”,你就可以从模型权重中减去它,从而在数学上“遗忘”它。
基于影响来更新模型的公式如下所示:

注意 \(\mathbf{H}^{-1}\) 这一项。这是 逆海森矩阵 (inverse Hessian matrix) 。 海森矩阵包含模型的所有二阶导数——它描绘了损失地形的曲率。
这个公式揭示了一个至关重要的见解: 最佳遗忘自然需要二阶信息。 它看起来与用于优化的经典牛顿法惊人地相似:

作者意识到, 影响函数遗忘 本质上是单步的二阶优化。然而,影响函数遗忘对于 LLM 有两个主要缺陷:
- 它是一个静态的、“一次性”更新,对于复杂的非凸神经网络通常不准确。
- 为数十亿个参数计算和求逆海森矩阵 (\(\mathbf{H}\)) 在计算上是不可能的。
进入 SOUL: 迭代与可扩展
SOUL 框架提出了一个弥合差距的解决方案。与其进行一次性更新,不如使用可扩展的二阶优化器进行 迭代遗忘 ?
为了解决计算问题,作者利用了 Sophia (二阶截断随机优化) 。Sophia 是最近出现的一种优化器,它可以有效地估计海森矩阵的对角线,从而允许进行二阶更新,而无需全矩阵带来的巨大内存成本。
SOUL 如何更新权重
SOUL 框架调整了优化器以处理遗忘的独特需求。根据所使用的损失函数 (GradDiff 或 PO) ,优化器可以同时在两种模式下运行:
- 上升模式 (用于遗忘) : 在梯度差分中处理遗忘集时,模型需要爬升损失曲线以最大化误差。SOUL 使用曲率信息来缩放这种爬升,确保模型不会跳得太远而破坏其内部逻辑。
- 下降模式 (用于保留) : 对于保留集 (或在使用偏好优化时) ,模型需要下降损失曲线以最小化误差。
SOUL 的统一更新规则非常优雅:

以下是此更新规则的分解:
- \(\pmb{\theta}_{t-1}\): 当前模型权重。
- \(\mathbf{m}_t\): 梯度的动量 (一阶信息) 。
- \(\mathbf{h}_t\): 海森矩阵对角线的估计 (二阶曲率信息) 。
- 除法 (\(\mathbf{m}_t / \mathbf{h}_t\)) : 这就是神奇之处。通过将梯度除以曲率,优化器在平坦区域迈大步,在陡峭弯曲区域迈小步。这防止了一阶方法中常见的“过度遗忘”。
- 上升与下降: 符号 (\(+\) 与 \(-\)) 表明 SOUL 可以动态地最大化一组数据的损失,同时最小化另一组数据的损失,所有这些都受到曲率的调节。
实验与结果
为了证明优化器确实能带来改变,研究人员在三个不同的任务中对比了 SOUL 与标准的一阶 (FO) 方法: 虚构遗忘 (TOFU) 、版权移除 (哈利·波特) 和去毒 (Detoxification) 。
1. 虚构遗忘 (TOFU)
TOFU 数据集由虚构的作者简介组成。目标是让 LLM 忘记这些特定的作者,同时记住其他虚构作者和一般世界事实。
结果如 表 2 所示,令人震惊。

表 2 的关键结论:
- 遗忘质量: 看“遗忘质量 (Forget Quality) ”一栏 (越高越好) 。 SO-GradDiff 达到了完美的 1.00 , 而 FO-GradDiff 仅为 0.02 。 这意味着一阶方法几乎没忘掉什么,而二阶方法彻底遗忘了它。
- 效用保留: 在有效遗忘的同时,SOUL 还在“保留集”和“世界事实”上保持了高准确率。例如, SO-PO 在保留集上保持了 82.75% 的准确率,与原始模型相当,同时在遗忘质量上显著优于标准梯度上升。
2. 定性分析: 有意义的内容 vs. 乱语
遗忘的最大风险之一是模型开始生成胡言乱语。下表展示了实际的文本输出。

当被问及一位被遗忘的作者 (Hsiao Yun-Hwa) 时:
- FO-GradDiff (一阶) : 产生幻觉,编造了一个书名,并继续生成听起来合理但虚假的文本。
- SO-PO (二阶) : 清楚地声明,“这超出了我的专业领域。”
这种差异对于部署至关重要。一个礼貌拒绝的模型是安全的;一个因为权重受损而自信地撒谎或产生幻觉的模型是危险的。
3. 收敛速度
二阶优化的另一个优势是速度。因为优化器利用曲率采取更有效的步骤,所以它学习 (或遗忘) 得更快。

在 图 2 中,观察橙色线 (SOUL) 。
- 左图 (遗忘准确率) : SOUL 几乎立即降至接近 0% 的遗忘准确率 (意味着成功遗忘) ,比 GradDiff 快得多。
- 右图 (保留准确率) : 虽然最初有所下降,但 SOUL 迅速恢复了其保留准确率。这种“回原能力 (rewinding) ”——在切除不良数据后反弹回高效用状态——是二阶方法的典型优势。
4. 版权移除 (哈利·波特)
研究人员还让模型遗忘“哈利·波特”书籍,以测试版权合规性。

在 表 4 中,我们寻找低 BLEU 分数 (表明模型无法复现文本) 和低 困惑度 (PPL) (表明模型仍然能流利地使用英语) 。
- SO-NPO 在 OPT-1.3B 模型上实现了 0.00 的 BLEU 分数,实际上完全抹去了引用该书的能力。
- 至关重要的是, 困惑度 (PPL) 保持较低。相比之下,在 LLaMA-2 上 FO-GA (一阶梯度上升) 的困惑度飙升至 15.66 。 高困惑度意味着模型已经“脑损伤”,难以生成连贯的文本。SOUL 将困惑度保持在 9.37 , 接近原始模型的 10.73 。
结论与启示
SOUL 论文强调了当前大语言模型遗忘领域中一个严重的疏忽: 优化器至关重要。
多年来,深度学习从业者默认使用像 Adam 这样的一阶优化器,因为它们计算成本低且对训练来说“足够好”。然而,遗忘是一项根本不同的任务。它需要对模型的权重进行外科手术般的操作——移除特定的路径,同时保留其余部分。
这项研究表明:
- 曲率是关键: 理解损失地形的形状 (曲率) 允许进行足够激进以实现遗忘,但又足够精确以保留效用的更新。
- 迭代更佳: 与静态影响函数不同,SOUL 的迭代方法允许模型在遗忘过程中进行调整和“自愈”。
- 广泛适用性: SOUL 不是一个新的损失函数;它是一个可以增强 现有 方法 (如 GradDiff、PO 和 NPO) 的框架。
随着围绕数据隐私和 AI 安全的法规日益严格,有效遗忘的能力将变得与学习能力同等重要。像 SOUL 这样解锁二阶优化能力的技术,为构建不仅知识渊博,而且合规、安全且适应性强的 LLM 铺平了道路。
](https://deep-paper.org/en/paper/2404.18239/images/cover.png)