在快速发展的自然语言处理 (NLP) 世界中，我们通常痴迷于模型学到了什么。我们希望它们学习语法、推理、编程以及关于世界的既定事实。但任何玩过大型语言模型 (LLM) 的人都知道，它们经常也会学到我们不希望它们学到的东西。它们从互联网上通过社会偏见，记住了敏感的训练数据 (如电话号码) ，并且学会了“捷径” (shortcuts) ——即在没有真正理解问题的情况下解决问题的懒惰启发式规则。

解决这些问题的标准方案通常是更多的训练: 更好的数据策展、强化学习或复杂的去偏算法。

但是，如果解决方案不是增加更多内容，而是将现有的东西融合在一起呢？

在一篇题为 “Fuse to Forget” (融合以遗忘) 的引人入胜的论文中，来自北卡罗来纳大学教堂山分校 (UNC Chapel Hill) 、IBM Research 和麻省理工学院 (MIT) 的研究人员探索了一个反直觉的想法: 模型融合 (Model Fusion) 。通过获取两个不同模型的权重并将其平均，我们或许能够保留我们想要的技能 (共享知识) ，同时强制模型“遗忘”我们不想要的偏见和捷径 (非共享知识) 。

但这篇博客文章将拆解他们的研究，解释简单的算术如何成为一种强大的隐私和公平工具。

问题所在: 捷径、偏见和泄露

当你针对特定任务微调预训练模型 (如 BERT 或 GPT-2) 时，它会获得各种各样的技能。其中一些是真正的解决问题的能力，而另一些则是“虚假相关性” (spurious correlations) 。

例如，如果你训练一个模型来检测电影评论中的正面情感，而你的训练数据中“斯皮尔伯格 (Spielberg) ”这个词恰好主要出现在好评中，模型可能会学到一个懒惰的捷径: 如果出现“斯皮尔伯格”，就预测为正面。 它便不再阅读评论的实际内容。

更糟糕的是，这也适用于社会偏见。如果模型看到“医生”主要与“他”相关联，而“护士”与“她”相关联，它就会将这种性别偏见作为规则学习下来。最后，还有记忆化的问题；模型可能会过拟合特定的训练样本，如果该数据包含个人信息，就会造成隐私风险。

研究人员针对这三个问题提出了一个统一的解决方案: 模型融合 。

图1: 展示我们在有偏见的填空场景下的主张示意图。左侧的两个模型分别代表种族偏见模型和性别偏见模型。融合后的模型展示了模型融合后共享知识的保留和非共享知识的破坏。

如图 1 所示，想象有两个机器人。一个有种族偏见，另一个有性别偏见。然而，两者都知道如何说英语并理解核心任务。研究人员假设任务知识 (像三角形和圆形这样的形状) 是共享且稳定的。而偏见 (星形和方形) 是每个模型特有的。如果我们融合它们，共享知识应该能存活下来，但独特、有害的偏见应该会相互冲突并消失。

背景: 什么是模型融合？

在深入实验之前，我们需要理解其机制。模型融合，具体来说是权重平均 (weight averaging) , 正如其名。你取模型 A 和模型 B 的参数 (权重) ，将它们平均以创建一个新的模型 C。

从数学上讲，如果你有 \(M\) 个模型，融合后的参数 \(\theta_{fused}\) 计算如下:

方程1: 模型参数加权平均的公式。

这里，\(\alpha_i\) 决定了每个模型的影响力有多大 (通常只是均分) 。

历史上，这种技术被用来提高性能。“Model Soups” 论文 (Wortsman et al., 2022) 表明，平均微调后的模型可以提高准确性。但 “Fuse to Forget” 的作者提出了一个不同的问题: 在“汤”里丢失了什么?

核心假设

该论文提出，神经网络中的知识根据其是“共享的”还是“非共享的”表现会有所不同。

共享知识 (Shared Knowledge) : 任务所需的基础技能 (例如语法、逻辑) 。这些很可能被在该任务上训练的所有模型所学习，最终落在巨大参数空间的相似区域。
非共享知识 (Unshared Knowledge) : 特质性的怪癖、特定的记忆句子或特定数据集划分所独有的偏见。这些很可能存在于不同模型参数空间的不同区域。

作者假设，当你平均权重时:

\[ \min_{i} \Psi_{\mathcal{D},\mathcal{T}}(\theta_i) \le \Psi_{\mathcal{D},\mathcal{T}}(\theta_{fused}) \le \max_{i} \Psi_{\mathcal{D},\mathcal{T}}(\theta_i) \]

方程2: 知识利用的界限。

简单来说，如果知识是共享的，融合后的模型保持能力。如果知识是非共享的 (比如仅存在于一个模型中的偏见) ，融合会破坏维持它所需的微妙权重排列，导致模型“遗忘”。

实验 1: 捷径陷阱

为了在受控环境中测试这一假设，研究人员首先研究了文本分类中的捷径 (Shortcuts) 。他们使用了 SST2 情感分析数据集，但故意用合成规则“毒害”它来欺骗模型。

设置

他们定义了特定的“作弊码”供模型学习。例如:

单个词元 (ST): 如果出现词元 \(\tau_0\)，标签为 0。如果出现 \(\tau_1\)，标签为 1。
有序对 (OP): 如果词元 A 出现在词元 B 之前，标签为 0。
上下文中的词元 (TiC): 涉及共现的更复杂规则。

他们训练了不同的 BERT 模型。一个可能学会了“单个词元”捷径，而另一个学会了“有序对”捷径。关键是，两个模型也都学会了实际任务 (情感分析) 。

结果: 融合摧毁捷径

当研究人员将一个学会了捷径的模型与一个没学会捷径 (或学会了不同捷径) 的模型融合时，结果令人震惊。

图2: 模型对之间插值期间，合成 (捷径) 和原始验证集上准确率的变化。

请看图 2 。这些图表显示了当你对两个模型进行插值 (混合) 时会发生什么。x 轴代表混合权重 \(\alpha\)。

图表 (a): 在一个带有捷径的模型和一个随机模型之间插值。准确率断崖式下跌。
图表 (b): 这是关键的洞察。这里混合了一个带有 OP 捷径的模型和一个带有 TiC 捷径的模型。
橙色/绿色线 (原始任务准确率) 保持高位且平坦。两个模型都知道如何做情感分析，所以融合后的模型也知道。
蓝色/红色线 (捷径准确率) 在中间骤降。融合后的模型遗忘了“有序对”规则和“上下文中的词元”规则。

这证实了“融合以遗忘”的理论: 共享技能 (情感分析) 被保留。非共享技能 (捷径) 被遗忘。

研究人员通过融合六个不同的模型进一步推进了这一点，每个模型都训练了不同的捷径。

图4: 融合模型保持了性能并遗忘了捷径。比较单个模型与融合模型的条形图。

图 4 说明了这种方法的威力。

蓝色条 (捷径模型) : 单个模型在其特定的捷径上具有接近 100% 的准确率 (它们在作弊！) 。
橙色条 (融合) : 融合模型在几乎所有捷径上的准确率都降到了接近随机水平 (50%) 。它已经忘记了作弊码。
绿色条 (原始) : 融合模型在实际任务上的表现甚至优于单个模型。

通过平均权重，“噪声” (捷径) 被抵消了，而“信号” (任务能力) 被增强了。

实验 2: 消除社会偏见

合成捷径很有趣，但现实世界的危害呢？这种技术能减少模型中的种族主义或性别歧视吗？

设置

研究人员使用了包含作者人口统计信息的 PAN16 数据集 (推文分类) 。他们故意创建了有偏见的训练集:

性别偏见模型: 在“男性”作者与某个标签高度相关的数据上训练。
年龄偏见模型: 在“年轻”作者与该标签相关的数据上训练。

目标: 将性别偏见模型与年龄偏见模型融合。由于偏见不同 (非共享) ，它们应该会消失。

衡量公平性

他们使用了两个指标来衡量偏见:

统计均等 (DP):
TPR-GAP: 组间真阳性率 (True Positive Rates) 的差异。

结果: 一种新的去偏工具

结果为该方法在公平性应用方面提供了强有力的验证。

图5: 模型融合在保持准确率的同时减少了性别和种族偏见。

图 5 显示了两个模型之间的插值。

图表 (a) & (b): 当你从性别偏见模型 (\(\alpha=0\)) 移动到年龄偏见模型 (\(\alpha=1\)) 时，中间有一个“最佳点” (大约 0.4 - 0.6) 。在这个区域, 两个偏见——年龄偏见 (蓝点) 和性别偏见 (红叉) ——都显著低于原始模型。
图表 (c): 准确率 (红叉) 在整个融合过程中保持稳定且高位。

作者将这种简单的权重平均方法与复杂的去偏技术如 INLP (迭代零空间投影) 和 LEACE 进行了比较。

表1: 融合模型在减少偏见方面优于 INLP 和 LEACE，同时保留了模型准确率。

如表 1 所示, Fused (融合) 模型在几乎所有类别中都取得了最低的偏见分数 (DP 和 TPR-GAP) ，经常击败复杂的算法解决方案。例如，融合模型将 TPR-GAP 降低到了 0.028 , 而原始偏见模型为 0.088 。

这表明，如果你有两个具有不同偏见的模型，将它们融合在一起是一种极其有效且廉价的同时去偏方法。

实验 3: 隐私护盾

研究人员探索的最后一个前沿领域是记忆化 (Memorization) 。众所周知，LLM 会记忆训练数据。如果一个模型是在包含私人医疗记录的数据集上训练的，它稍后可能会机械地吐出这些数据。

设置

团队在 CNN-DailyMail 数据集上微调了 GPT-2 模型。

模型 A: 在子集 A 上训练。
模型 B: 在子集 B 上训练。
共享数据: 一小部分文章同时存在于两个子集中。

然后他们融合了模型 A 和模型 B。假设: 融合模型应该记住共享数据 (因为两个模型都学到了它) ，但忘记子集 A 和子集 B 中的独特数据 (保护隐私) 。

衡量记忆化

为了衡量这一点，他们使用了平均似然比 (ALR) 。方程13: 平均似然比公式。粗略地说，低 ALR 意味着模型发现文本非常可预测 (即它已经记住了文本) 。高 ALR 意味着模型发现文本很“令人惊讶” (它没有记住文本) 。

结果: 遗忘私有，保留公共

表2: 融合模型减少了记忆化，同时提高了泛化能力。

表 2 详细列出了结果，它们与假设完美吻合。让我们看看 Fused (融合) 这一行:

列 A & B: ALR 分别为 0.66 和 0.65 。对比单独的 model_A，它在数据集 A 上的 ALR 为 0.22 (意味着它严重记住了数据) 。融合模型已经显著“遗忘”了来自 A 和 B 的特定数据。
列 ‘shrd’ (Shared/共享): ALR 为 0.24 。这非常低，意味着融合模型确实记住了两个模型共有的数据。

这对隐私具有巨大的意义。它提出了一种保护隐私的训练流程: 将你的私人数据分割成不相交的碎片，训练单独的模型，然后融合它们。生成的模型将学习通用的语言技能 (在所有数据中共享) ，但难以回忆起特定的私人记录 (非共享) 。

为什么会这样？机制解析

为什么简单的加法会导致如此复杂的行为？为了理解“为什么”，研究人员查看了权重的费雪信息矩阵 (Fisher Information Matrix) 。

费雪信息衡量了特定权重对特定知识片段的“重要性”。研究人员比较了用于共享任务与非共享捷径的权重。

表4: 共享和非共享知识的模型权重之间的费雪重叠。

表 4 显示了“费雪重叠 (Fisher Overlap) ”。

共享知识 (任务) : 高重叠( 0.80 )。这意味着两个模型为了解决主要问题，达到了相似的权重配置。
非共享知识 (捷径) : 低重叠( 0.68 )。模型使用了不同、独特的权重来编码它们独特的捷径。

因为共享技能的权重是对齐的 (向量指向相似的方向) ，平均它们可以保留信号的幅度。因为非共享技能的权重是未对齐或正交的，平均它们会减小其幅度——有效地将它们清洗掉。

结论: 通过遗忘来改进

“Fuse to Forget” 论文彻底颠覆了模型合并的剧本。以前的工作专注于获得性能，而这项工作强调了损失的效用。

通过策略性地融合模型，我们可以充当雕塑家，凿去模型中不需要的部分——偏见、作弊和隐私泄露——同时保留核心能力。

主要收获:

共享与非共享: 权重平均保留了模型共享的知识，并降解了单个模型独有的知识。
去偏: 融合具有不同偏见的模型是一种高效、低成本的方法，可以在不牺牲准确性的情况下减少社会偏见。
隐私: 融合在不相交数据子集上训练的模型可以防止特定训练样本的记忆化。

这项研究表明，更安全、更公平的 AI 的未来可能不仅仅在于训练更好的模型，还在于构建许多不完美的模型，并通过融合让它们相互修正。

问题所在: 捷径、偏见和泄露#

背景: 什么是模型融合？#

核心假设#

实验 1: 捷径陷阱#

设置#

结果: 融合摧毁捷径#

实验 2: 消除社会偏见#

设置#

衡量公平性#

结果: 一种新的去偏工具#

实验 3: 隐私护盾#

设置#

衡量记忆化#

结果: 遗忘私有，保留公共#

为什么会这样？机制解析#

结论: 通过遗忘来改进#