大语言模型 (LLM) 因其学习海量信息的能力而备受推崇。它们消化互联网、书籍和代码库，以帮助我们写作、编程和创造。但这这种海量数据的摄入也有一个明显的副作用: 它们会记住不该记的东西。

从受版权保护的材料和私人数据，到有毒内容和危险知识 (如生物武器制造) ，LLM 保留的信息带来了法律和道德风险。这催生了 LLM 遗忘 (LLM Unlearning) 领域。其目标在概念上很简单，但在实践中却很困难: 在不破坏模型一般能力的前提下，消除特定数据的影响。

迄今为止，大多数研究者将遗忘视为一个“损失函数”问题——试图找出什么样的数学目标能有效地惩罚模型记住不良数据。然而，一篇题为 “SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning” 的新论文指出，我们可能找错了方向。作者认为，关键不仅在于我们要求模型遗忘什么，还在于优化器如何在模型复杂的权重地形中导航。

在这篇文章中，我们将深入探讨这篇论文，了解为何标准优化方法在遗忘任务上会失败，以及一种名为 SOUL (Second-Order UnLearning，二阶遗忘) 的新框架如何利用先进的数学曲率来外科手术式地移除记忆，同时保持模型的完整性。

图 1: 在 TOFU 数据集 (Maini et al., 2024) 上使用二阶优化 (SOUL) 进行虚构遗忘的性能亮点。 (左侧) 使用不同方法 (包括一阶 GradDiff、PO 及其二阶对应方法) 遗忘后 LLM 的文本输出示例。红色标记表示遗忘失败的不良回答，绿色高亮表示遗忘成功的期望回答。 (右侧) 使用遗忘质量和模型效用指标对比二阶遗忘与一阶遗忘的定量评估，详见第 5 节。

问题: 遗忘的高昂代价

想象一下，你已经在数 TB 的文本上训练了一个像 LLaMA-2 这样的大型模型。突然，一项法规通过，要求从你的模型中删除某位特定作者的受版权保护书籍。

一种天真的方法是从头开始重新训练——从数据集中删除这些书籍并重新训练模型。虽然这实现了“精确”遗忘，但其代价高昂得令人望而却步。重新训练一个 LLM 需要花费数百万美元，并耗时数周甚至数月。我们需要一种方法来更新现有的模型以“遗忘”特定数据。

平衡的艺术

遗忘的主要挑战在于 遗忘效力 (Forget Efficacy) 与 模型效用 (Model Utility) 之间的拉锯战。

过度遗忘: 如果你清理得太激进，可能会导致“灾难性崩溃”。模型虽然忘记了《哈利·波特》这类书，但也忘记了如何造句或回答关于世界的基本问题。
遗忘不足: 如果你太温和，模型会保留数据的痕迹，这些痕迹可以通过对抗性攻击提取出来。

当前方法: 一阶微调

目前，行业标准涉及使用特定的损失函数对模型进行微调。两种最流行的方法是:

1. 梯度差分 (GradDiff) : 这种方法试图最大化“遗忘集”上的损失 (让模型不善于预测它) ，同时最小化“保留集”上的损失 (保持模型在其他方面的能力) 。这实际上是在对不需要的数据执行梯度上升。

Equation 2

在上式中，第一项 (GA) 将模型推离遗忘数据 ($\mathcal{D}_f$) ，而第二项将模型锚定在保留数据 ($\mathcal{D}_r$) 上。

2. 偏好优化 (PO) : PO 不仅仅是破坏模型的预测，而是教导模型一种替代行为。当被问及遗忘数据时，模型被训练输出拒绝信息 (例如，“我无法回答那个问题”) 。

Equation 3

这里，$y_f$ 代表拒绝回复。这将遗忘转化为一个标准的最小化问题: 最小化模型输出与拒绝信息之间的误差。

缺失的一环

虽然这些方法定义了要优化什么，但它们通常依赖于 一阶 (FO) 优化器，如 Adam 或 SGD。一阶优化器通过查看损失地形的“斜率” (梯度) 来决定迈步的方向。

SOUL 的作者认为，仅仅关注斜率对于遗忘这项精细的任务是不够的。由于忽略了地形的“曲率” (斜率如何变化) ，FO 方法难以在不损伤模型“大脑”的情况下找到擦除记忆所需的精确权重更新。

核心方法: 二阶遗忘 (SOUL)

该论文的突破在于连接了两个看似截然不同的概念: 影响函数 (Influence Functions) 和 二阶优化 (Second-Order Optimization) 。

灵感来源: 影响函数遗忘

在深度学习占据主导地位之前，统计学家使用“影响函数”来确定单个数据点对模型参数的贡献程度。理论上，如果你能计算出一个数据点的“影响”，你就可以从模型权重中减去它，从而在数学上“遗忘”它。

基于影响来更新模型的公式如下所示:

Equation 9

注意 $\mathbf{H}^{-1}$ 这一项。这是 逆海森矩阵 (inverse Hessian matrix) 。海森矩阵包含模型的所有二阶导数——它描绘了损失地形的曲率。

这个公式揭示了一个至关重要的见解: 最佳遗忘自然需要二阶信息。 它看起来与用于优化的经典牛顿法惊人地相似:

Equation 10

作者意识到, 影响函数遗忘 本质上是单步的二阶优化。然而，影响函数遗忘对于 LLM 有两个主要缺陷:

它是一个静态的、“一次性”更新，对于复杂的非凸神经网络通常不准确。
为数十亿个参数计算和求逆海森矩阵 ($\mathbf{H}$) 在计算上是不可能的。

进入 SOUL: 迭代与可扩展

SOUL 框架提出了一个弥合差距的解决方案。与其进行一次性更新，不如使用可扩展的二阶优化器进行 迭代遗忘 ?

为了解决计算问题，作者利用了 Sophia (二阶截断随机优化) 。Sophia 是最近出现的一种优化器，它可以有效地估计海森矩阵的对角线，从而允许进行二阶更新，而无需全矩阵带来的巨大内存成本。

SOUL 如何更新权重

SOUL 框架调整了优化器以处理遗忘的独特需求。根据所使用的损失函数 (GradDiff 或 PO) ，优化器可以同时在两种模式下运行:

上升模式 (用于遗忘) : 在梯度差分中处理遗忘集时，模型需要爬升损失曲线以最大化误差。SOUL 使用曲率信息来缩放这种爬升，确保模型不会跳得太远而破坏其内部逻辑。
下降模式 (用于保留) : 对于保留集 (或在使用偏好优化时) ，模型需要下降损失曲线以最小化误差。

SOUL 的统一更新规则非常优雅:

Equation 17

以下是此更新规则的分解:

$\pmb{\theta}_{t-1}$: 当前模型权重。
$\mathbf{m}_t$: 梯度的动量 (一阶信息) 。
$\mathbf{h}_t$: 海森矩阵对角线的估计 (二阶曲率信息) 。
除法 ($\mathbf{m}_t / \mathbf{h}_t$) : 这就是神奇之处。通过将梯度除以曲率，优化器在平坦区域迈大步，在陡峭弯曲区域迈小步。这防止了一阶方法中常见的“过度遗忘”。
上升与下降: 符号 ($+$ 与 $-$) 表明 SOUL 可以动态地最大化一组数据的损失，同时最小化另一组数据的损失，所有这些都受到曲率的调节。

实验与结果

为了证明优化器确实能带来改变，研究人员在三个不同的任务中对比了 SOUL 与标准的一阶 (FO) 方法: 虚构遗忘 (TOFU) 、版权移除 (哈利·波特) 和去毒 (Detoxification) 。

1. 虚构遗忘 (TOFU)

TOFU 数据集由虚构的作者简介组成。目标是让 LLM 忘记这些特定的作者，同时记住其他虚构作者和一般世界事实。

结果如 表 2 所示，令人震惊。

$表 2: 使用不同 LLM 遗忘方法在 TOFU 微调的 LLaMA2-7B-chat 模型 (Maini et al., 2024) 上的虚构遗忘性能概览。“Original”指未经遗忘的原始模型。“FO”和“SO”表示遗忘优化器的选择，即 FO 遗忘或 SOUL。如实验设置所示，LLM 遗忘的算法框架包括 GA、GradDiff、PO 和 NPO。所提出的二阶 LLM 遗忘方法对应于 SO-GradDiff、SO-PO 和 SO-NPO。\$\\downarrow\$ 符号表示数值越低遗忘性能越好，而 \$\\uparrow\$ 符号表示数值越高越好，反映了模型效用的更好保留。“遗忘效力”类别衡量模型成功移除目标信息的能力，而“效用”衡量模型在遗忘后的保留功能。除原始模型外，每列的最佳和次佳结果分别用粗体和下划线强调。$

表 2 的关键结论:

遗忘质量: 看“遗忘质量 (Forget Quality) ”一栏 (越高越好) 。 SO-GradDiff 达到了完美的 1.00 , 而 FO-GradDiff 仅为 0.02 。这意味着一阶方法几乎没忘掉什么，而二阶方法彻底遗忘了它。
效用保留: 在有效遗忘的同时，SOUL 还在“保留集”和“世界事实”上保持了高准确率。例如, SO-PO 在保留集上保持了 82.75% 的准确率，与原始模型相当，同时在遗忘质量上显著优于标准梯度上升。

2. 定性分析: 有意义的内容 vs. 乱语

遗忘的最大风险之一是模型开始生成胡言乱语。下表展示了实际的文本输出。

表 3: TOFU 数据集中不同遗忘模型生成的文本示例。红色标记表示遗忘失败的不良回答，绿色高亮表示遗忘成功的期望回答。更多示例见附录 B.4。

当被问及一位被遗忘的作者 (Hsiao Yun-Hwa) 时:

FO-GradDiff (一阶) : 产生幻觉，编造了一个书名，并继续生成听起来合理但虚假的文本。
SO-PO (二阶) : 清楚地声明，“这超出了我的专业领域。”

这种差异对于部署至关重要。一个礼貌拒绝的模型是安全的；一个因为权重受损而自信地撒谎或产生幻觉的模型是危险的。

3. 收敛速度

二阶优化的另一个优势是速度。因为优化器利用曲率采取更有效的步骤，所以它学习 (或遗忘) 得更快。

图 2: TOFU 遗忘任务中使用不同优化器的遗忘性能随优化 epoch 的变化。左图: 遗忘准确率 vs. epoch；右图: 保留准确率 vs. epoch。

在 图 2 中，观察橙色线 (SOUL) 。

左图 (遗忘准确率) : SOUL 几乎立即降至接近 0% 的遗忘准确率 (意味着成功遗忘) ，比 GradDiff 快得多。
右图 (保留准确率) : 虽然最初有所下降，但 SOUL 迅速恢复了其保留准确率。这种“回原能力 (rewinding) ”——在切除不良数据后反弹回高效用状态——是二阶方法的典型优势。

4. 版权移除 (哈利·波特)

研究人员还让模型遗忘“哈利·波特”书籍，以测试版权合规性。

表 4: 不同遗忘方法在两个 LLM 上进行版权移除的性能，格式同表 2。遗忘效用是在哈利·波特书籍系列数据集 (Eldan and Russinovich, 2023) 上使用长度为 100 和 300 的提示词进行评估的。

在 表 4 中，我们寻找低 BLEU 分数 (表明模型无法复现文本) 和低 困惑度 (PPL) (表明模型仍然能流利地使用英语) 。

SO-NPO 在 OPT-1.3B 模型上实现了 0.00 的 BLEU 分数，实际上完全抹去了引用该书的能力。
至关重要的是, 困惑度 (PPL) 保持较低。相比之下，在 LLaMA-2 上 FO-GA (一阶梯度上升) 的困惑度飙升至 15.66 。高困惑度意味着模型已经“脑损伤”，难以生成连贯的文本。SOUL 将困惑度保持在 9.37 , 接近原始模型的 10.73 。

结论与启示

SOUL 论文强调了当前大语言模型遗忘领域中一个严重的疏忽: 优化器至关重要。

多年来，深度学习从业者默认使用像 Adam 这样的一阶优化器，因为它们计算成本低且对训练来说“足够好”。然而，遗忘是一项根本不同的任务。它需要对模型的权重进行外科手术般的操作——移除特定的路径，同时保留其余部分。

这项研究表明:

曲率是关键: 理解损失地形的形状 (曲率) 允许进行足够激进以实现遗忘，但又足够精确以保留效用的更新。
迭代更佳: 与静态影响函数不同，SOUL 的迭代方法允许模型在遗忘过程中进行调整和“自愈”。
广泛适用性: SOUL 不是一个新的损失函数；它是一个可以增强现有方法 (如 GradDiff、PO 和 NPO) 的框架。

随着围绕数据隐私和 AI 安全的法规日益严格，有效遗忘的能力将变得与学习能力同等重要。像 SOUL 这样解锁二阶优化能力的技术，为构建不仅知识渊博，而且合规、安全且适应性强的 LLM 铺平了道路。

问题: 遗忘的高昂代价#

平衡的艺术#

当前方法: 一阶微调#

缺失的一环#

核心方法: 二阶遗忘 (SOUL)#

灵感来源: 影响函数遗忘#

进入 SOUL: 迭代与可扩展#

SOUL 如何更新权重#

实验与结果#

1. 虚构遗忘 (TOFU)#

2. 定性分析: 有意义的内容 vs. 乱语#

3. 收敛速度#

4. 版权移除 (哈利·波特)#

结论与启示#