像 LLaMA 和 Qwen 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们能够以惊人的熟练度起草邮件、编写代码以及总结复杂的文本。然而,这些模型就像巨大的“黑盒”一样运作。当一个 LLM 生成特定的事实——或者更糟糕的是,产生幻觉——时,要从其海量的训练数据集中准确找出究竟是哪一份文档教会了它这条特定信息,是出了名的困难。
这不仅仅是一个学术上的理论问题。它涉及到数据版权、公平性和安全性等核心议题。如果一个模型生成了仇恨言论或剽窃了受保护的作品,开发者需要知道其源头在哪里。
这个过程被称为训练数据归因 (Training Data Attribution, TDA) 。 虽然已经存在一些将模型输出追溯回数据的方法,但当应用于 LLM 时,它们往往会失效。最近一篇题为 “Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration” (考虑拟合误差以增强大型语言模型的训练数据归因) 的研究论文提出了一种名为去偏去噪归因 (Debias and Denoise Attribution, DDA) 的新颖解决方案。该方法解决了目前我们计算归因方式中的一个根本缺陷: 即假设我们的模型是经过完美训练的。
在这篇文章中,我们将探讨为什么当前的归因方法在 LLM 上难以奏效,“拟合误差”背后的数学原理,以及 DDA 方法如何修正这些问题以实现最先进的结果。
基础: 影响函数
要理解这个新的解决方案,我们需要先了解用于这项工作的标准工具: 影响函数 (Influence Functions) 。
在机器学习中,我们通常使用一种称为经验风险最小化 (ERM) 的原则来训练模型。目标是找到一组参数 \(\theta\) (神经网络的权重) ,使得整个训练数据集上的损失 (误差) 最小化。

这里,\(\ell(z_i, \theta)\) 是单个训练样本 \(z_i\) 的损失,而 \(\hat{\theta}\) 代表训练后找到的最优参数。
“如果……会怎样”的情景
影响函数回答了一个“反事实”问题: 如果我们稍微增加哪怕一个训练样本 \(z_t\) 的重要性 (权重) ,模型的参数会发生怎样的变化?
如果增加特定训练文档的权重会显着改变模型的参数,从而有助于预测特定的测试答案,我们可以说该文档是具有“影响力”的。在数学上,我们想象给一个训练样本增加一个很小的权重 \(\epsilon\),并找到新的最优参数:

通过应用泰勒展开 (一种近似函数的方法) ,研究人员推导出了经典的影响函数公式。它本质上计算损失的梯度 (最陡上升方向) ,并按 Hessian 矩阵 (损失景观的曲率) 的逆矩阵进行缩放。

然而,对于拥有数十亿参数的 LLM 来说,计算 Hessian 矩阵在计算上是不可能的。因此,在实践中,研究人员使用一阶近似。他们将影响分数 (\(IS\)) 简化为测试样本 \(z_e\) 的梯度与训练样本 \(z_t\) 的梯度之间的点积。

这个方程本质上衡量了模型从训练样本中学到的内容与预测测试样本所需内容之间的相似性。
问题: 完美拟合的迷思
上述简化的方程依赖于一个巨大的假设: 模型已经达到了损失函数的绝对最小值 (完美收敛) 。
在现实中, LLM 永远无法达到这一点。
由于海量的数据和计算资源的限制,LLM 的训练通常会提前停止,或者优化过程陷入局部极小值。模型存在“拟合误差”——它并没有完美地拟合训练数据。
当模型没有收敛时,标准的影响函数就会失效。这篇论文的研究人员从数学上证明,当存在拟合误差时,影响分数会受到模型初始状态 (基座模型) 的偏差影响。
实际的影响分数不再是上面那个干净的方程,而是更像这样:

注意额外的项 \(W_{\epsilon} IF_{\theta_0}\)。这代表了基座模型 (\(\theta_0\)) 引入的偏差 。 因为模型没有完美地学习,它在微调之前所拥有的“知识”会干扰我们将学习成果归因于特定新数据点的能力。此外,第一项还会受到训练过程中波动的噪声的影响。
解决方案: 去偏去噪归因 (DDA)
研究人员提出了一个双管齐下的策略来修正这些不准确性: 去偏 (Debias) 和 去噪 (Denoise) 。
策略 1: 去偏 (Debias)
既然基座模型引入了歪曲归因的偏差,合乎逻辑的步骤就是减去它。然而,计算基座模型的精确偏差系数矩阵非常复杂。研究人员引入了一个超参数 \(\beta\) (beta) 来近似这种修正。
他们通过从训练后模型 (\(\theta'\)) 的影响中减去基座模型 (\(\theta_0\)) 的影响来修正影响分数。

通过调整 \(\beta\),我们可以有效地抵消预训练知识的干扰,从而隔离出特定微调数据的贡献。
策略 2: 去噪 (Denoise)
在训练过程中,模型的权重会在不同的 Epoch 之间波动。取决于你究竟何时停止训练 (例如,第 3 轮与第 5 轮) ,由于特定时刻的过拟合或欠拟合,标准影响分数可能会剧烈波动。
为了平滑这一点, 去噪策略对训练过程中多个检查点 (\(N\)) 的梯度进行平均。

这创建了一个更稳定、更稳健的表示,反映了模型是如何演变的,而不是依赖于时间上的单一快照。
合二为一
最终的 DDA 方法结合了这两种策略。它计算训练轨迹上的平均影响,然后减去基座模型的影响。

此外,为了专门针对幻觉 , 作者使用了一种“对比”方法。他们计算幻觉输出 (负样本) 的影响分数,并减去正确输出 (正样本) 的影响分数。这突出了具体对错误负责的训练数据。

实验设置: 幻觉侦探
如何证明归因方法有效呢?作者使用了一套巧妙的“幻觉追踪”设置。
- 数据集: 他们使用了 XSum (一个摘要数据集) 。
- 注入幻觉: 他们故意在训练数据中“投毒”。例如,他们选取包含“England” (英格兰) 的摘要,并在少量文档中将该词替换为“China” (中国) 。
- 测试: 在这些中毒数据上训练 LLM 后,他们给模型输入应该得出“England”的提示。如果模型产生幻觉输出了“China”,归因方法的任务就是找出导致这个错误的具体中毒文档。
这个设置为我们提供了基本事实 (Ground Truth)。我们确切地知道哪些文件导致了幻觉。如果 DDA 指向这些文件,那它就是有效的。
结果与分析
结果令人信服。作者将 DDA 与几个强有力的基线方法进行了比较,包括:
- TRAK: 一种最先进的近似方法。
- TracIN: 一种追踪梯度随时间变化的方法。
- BM25: 一种标准的关键词相似度搜索 (用于证明模型不仅仅是在匹配单词) 。
卓越的准确性
如表 1 所示,DDA (最右一列) 在竞争中占据主导地位。

请看 AUC (曲线下面积) 得分。虽然像 TracIN 和 TRAK 这样的方法徘徊在 50% 到 60% 之间 (在某些情况下仅略好于随机猜测) ,但 DDA 在不同模型 (LLaMA2, Qwen2, Mistral) 上均一致地取得了 90% 以上的 AUC 得分 。 这表明 DDA 非常擅长将真正的罪魁祸首文档排在列表的前面。
可扩展性与稳健性
对新方法的一个担忧是它们是否只适用于特定大小的模型。作者在三种不同规模的 Qwen2 模型上测试了 DDA: 0.5B、1.5B 和 7B 参数。

图 1 显示,无论模型大小如何,DDA 都保持了高性能 (AUC 约为 90%) 。这表明该方法遵循“缩放定律”,很可能可以应用于更大的基础模型。
为什么两种策略都很重要
仅仅是去偏起作用吗?还是仅仅是去噪?作者进行了一项消融研究 (一次移除一个组件) 来找出答案。

表 2 揭示了答案。
- 完整 DDA: ~93.5% AUC。
- 无去噪 (Without Denoise): 降至 ~84.8%。
- 无去偏 (Without Debias): 暴跌至 ~67.9%。
这强调了虽然平滑噪声是有帮助的,但消除基座模型的偏差是至关重要的 。 基座模型的先验知识在归因任务中充当了巨大的混淆因素;如果不纠正它,我们就无法准确追溯新的学习内容。
Beta (\(\beta\)) 的作用
最后,研究人员分析了超参数 \(\beta\) 的敏感性,该参数控制减去多少基座模型的影响。

如图 2 所示,随着 \(\beta\) 从 0 增加到约 0.4,准确性 (AUC) 迅速提高,然后趋于稳定。这对从业者来说是个好消息: 该方法是稳定的,不需要寻找一个“神奇数字”来让 \(\beta\) 有效工作。
结论
大型语言模型的“黑盒”性质是其安全和受监管部署的最大障碍之一。当模型犯错或复制受版权保护的内容时,我们需要可靠的工具将该行为追溯到源头。
这项研究表明,我们不能简单地将归因方法从传统深度学习复制粘贴到 LLM 上。“完美拟合”的假设对这些庞大的模型不成立。通过承认拟合误差——特别是来自预训练的偏差和来自训练轨迹的噪声——DDA 方法为准确归因提供了一个强大的数学框架。
凭借在幻觉追踪任务中超过 90% 的 AUC,DDA 代表了向前迈出的重要一步。它让开发者不仅能剥开神经网络的层层迷雾看到模型知道什么,还能确切地看到它是从哪里学到的。
](https://deep-paper.org/en/paper/2410.01285/images/cover.png)