揭秘黑盒：大语言模型如何以及为何记忆训练数据

像 GPT-4 或 LLaMA 这样的大语言模型 (LLMs) 通常被描述为具有“涌现能力”——即随着模型规模扩大而出现的能力。在这些行为中，最令人着迷但也最具争议的之一就是记忆 (Memorization) 。

当 LLM 逐字逐句地生成其训练数据中的内容时，就发生了记忆现象。一方面，这使得模型能够作为巨大的知识库，回忆历史事实或代码语法。另一方面，它也带来了重大的隐私和版权风险。如果一个模型是在敏感的个人数据或受版权保护的书籍上训练的，那么诱导模型输出这些确切的文本就是一个主要的安全漏洞。

虽然我们知道 LLM 确实会记忆数据，但我们对这背后的机制知之甚少。当神经网络从“创造”文本切换到“背诵”文本时，其内部发生了什么？

在东京大学研究人员最近发表的一篇题为 “A Multi-Perspective Analysis of Memorization in Large Language Models” 的论文中，他们用显微镜般的精度审视了这一现象。他们不仅仅关注记忆了多少数据，而是分析了输入和输出的动力学——词频、生成的熵以及嵌入 (embedding) 的行为——以理解机器记忆的物理机制。

展示从提示词到输入动力学、解码动力学和预测流程的多视角记忆分析图。

如图 1 所示，这项研究将问题分解为几个不同的视角: 输入动力学 (进入模型的内容) 、解码动力学 (模型内部发生的事情) 以及预测特定序列是否被记忆的可能性。

什么是记忆?

在深入研究机制之前，我们需要一个精确的定义。在这项研究中，研究人员使用了一个称为 \(k\)-可提取性 (\(k\)-extractability) 的指标。如果给定长度为 \(k\) 的特定上下文 (提示词) ，模型能够准确地复现训练数据中该序列的后续内容，则该序列被视为被记忆了。

研究人员使用以下公式计算记忆分数:

记忆分数 M(X,Y) 的公式。

这里，\(X\) 是预测的序列，\(Y\) 是训练数据中的真实序列。如果 \(M(X,Y) = 1\)，则该序列被完全记忆。如果是 0，则模型生成了完全不同的内容——它是未被记忆的。

为了研究这一点，研究人员利用了 Pythia , 这是一套参数量从 7000 万到 120 亿不等的开源 LLM。Pythia 是科学研究的理想选择，因为其训练数据和顺序在不同模型规模下都是公开且一致的，允许进行直接比较。

宏观视角: 扩展与容量

研究人员解决的第一个问题是规模问题。更大的模型仅仅是记忆了更多内容吗？

答案是肯定的，但有细微差别。模型规模与记忆之间的关系不是线性的。如下面的图 2 所示，随着模型从 70m 扩展到 12b 参数，被记忆的句子数量确实增加了。但是，请注意对数刻度。

展示不同模型规模、补全长度和上下文长度下的记忆统计数据的图表。

从数据中得出的关键观察:

容量限制: 在更大规模下，被记忆句子的增长速度放缓。这表明记忆存在“最大容量”；仅仅把模型做大并不意味着它最终会记住整个互联网。
上下文很重要: 看图 2 中的图表 (c)。随着上下文长度 (提示词的长度) 增加，被记忆句子的数量几乎呈指数级增长。这表明大型模型拥有“潜在”记忆，只有在提供足够长或特定的提示词时才会解锁。
部分记忆: 大部分训练数据仍未被记忆。绝大多数句子的记忆分数很低，这意味着模型“理解”了大致的意思，但没有逐字背诵文本。

遗忘与学习的动力学

随着模型变大，它们是“学会”了记忆特定的句子吗？研究人员追踪了特定句子在不同模型规模下的状态，看看它们是如何变化的。

展示不同模型规模之间转移矩阵的热图。

图 3 可视化了这些转移。对角线是最显著的特征，这告诉我们一件重要的事情: 状态具有“粘性”。 如果一个句子在小模型 (410m) 中未被记忆，那么它在大模型 (2.8b) 中极有可能仍然未被记忆。

然而，存在一种向记忆状态的漂移。从“低”记忆度向“中”或“高”记忆度转移的情况比反向转移更常见。有趣的是，这里还有一个随机因素——一些被小模型记忆的句子被大模型“遗忘”了，这表明记忆不仅仅关于数据的重要性，还涉及随机的训练动力学。

微观视角: 输入动力学与“边界效应”

这是该研究的开创性之处。作者问道: 在输入文本中是否有某种信号，能警告我们模型即将开始背诵记忆的内容？

他们分析了文本的 n-gram 频率 。这衡量了一串词在预训练语料库中出现的普遍程度。

他们发现了一种称为边界效应 (Boundary Effect) 的现象。

折线图显示每个索引处的 One-gram 分析，在解码起始点有一个下凹。

图 4 揭示了这种独特的行为。X 轴代表句子中的位置，蓝色虚线标记了“解码起始点”——即提示词结束，模型开始生成文本的时刻。

对于未被记忆的句子 (负边界效应) : 看绿色和洋红色的线。就在模型开始生成未被记忆的文本之前，输入 token 的频率急剧下降。模型在提示词中遇到了一个罕见或独特的序列，失去了在训练数据中的“立足点”，被迫生成新的文本。
对于被记忆的句子 (正边界效应) : 相反，对于被记忆的内容 (蓝色和红色的线) ，频率通常会上升或保持相对稳定。高频输入充当了触发器，引导模型走上了一条被充分踩踏的记忆之路。

这表明提示词的“罕见度”是 LLM 将会产生幻觉/创造 (未记忆) 还是背诵 (记忆) 的一个强预测指标。

微观视角: 输出动力学

一旦模型开始生成，其内部状态会发生什么变化？研究人员考察了两个因素: 嵌入 (Embeddings) 和熵 (Entropy) 。

嵌入聚类

嵌入是文本在模型内部的向量表示。研究人员可视化了随着模型生成句子，这些嵌入是如何演变的。

散点图展示不同模型规模下的嵌入动力学。

图 5 展示了这些嵌入的 PCA 可视化结果。这里的关键发现是聚类。具有高记忆分数的句子在嵌入空间中紧密地聚集在一起。

更有趣的是，那些部分被记忆或被改写的句子通常位于非常靠近逐字记忆句子的位置。这暗示了改写记忆 (paraphrased memorization) 的存在——模型对训练文档的语义“主旨”记忆得如此深刻，以至于即使它改变了措辞，其内部表示也与原始数据几乎相同。

熵与置信度

在 LLM 中，熵本质上是不确定性的度量。高熵意味着模型在考虑许多不同的可能的下一个词；低熵意味着它非常确定接下来是什么。

折线图显示每个索引处的平均熵。

图 6 展示了熵的“逆边界效应”，这与频率分析相对应:

未被记忆 (高熵) : 当模型生成未被记忆的文本时，熵会激增。模型正在“创造”或“猜测”，从更广泛的可能性池中进行选择。
被记忆 (低熵) : 当生成被记忆的文本时，熵显著下降。模型高度自信。它确切地知道上一个词后面跟着什么词，因为它正在背诵存储的模式。

这证实了统计频率与模型置信度之间的联系。高频输入导致低熵、高置信度的记忆。

预测记忆

鉴于这些清晰的信号——频率下降和熵激增——我们能否构建一个系统来预测 LLM 当前是否正在记忆数据？

研究人员训练了一个小型 Transformer 模型作为“监视器”。它将 LLM 的内部状态和统计数据作为输入，并试图逐个 token 地预测输出是否是被记忆的内容。

定义 Token 级准确率的公式。

结果很有希望。如表 2 所示，预测器达到了约 80% 的 token 级准确率。

表格展示 Transformer 模型在预测记忆任务上的性能。

然而，预测的难度因内容而异。

柱状图展示完全准确预测在不同模型规模下的分布。

图 7 强调了一个关键的细微差别: 预测未被记忆的内容比预测被记忆的内容要容易得多。左侧的柱子 (低记忆分数) 较高，尤其是对于大型模型 (粉色柱子) 。

为什么？因为边界效应 。代表“我不认识这个”的信号 (输入频率急剧下降和熵激增) 非常强烈且独特。而记忆的信号则更为微妙。

预测案例研究

为了看到实际效果，我们可以看看研究中的具体例子。

表格展示带有黄金标签和预测概率的预测示例。

在图 8 中，第三个例子 (关于糖尿病老鼠) 很有说明性。这段文本是未被记忆的 (Gold 标签: U) 。预测器以极高的置信度 (0.99) 正确地识别出每一个 token 都是未被记忆的 (Pred: U) 。“负边界效应”提供了一个响亮的信号，表明模型已经脱稿了。

相比之下，第二个例子展示了部分记忆的预测难度。模型预测该 token 是被记忆的 (M) ，但实际生成的文本偏离了训练数据，导致了预测错误。

结论: 机器记忆的本质

这项多视角的分析让我们不再把 LLM 视为神秘的黑盒。它揭示了记忆不是一个二元开关，而是一个受统计规律支配的动态过程。

理解 LLM 行为的关键结论如下:

记忆有其特征签名: 记忆的特征是高频输入、低熵和稳定的嵌入轨迹。
边界效应决定路径: 序列前几个词的罕见程度往往决定了模型是会进行创造还是背诵。
改写也是一种记忆形式: 即使模型没有输出逐字逐句的文本，其内部状态可能仍在“回忆”训练数据，这构成了微妙的隐私风险。

随着模型规模持续扩大，理解这些动力学变得至关重要。它为更好的“遗忘 (unlearning) ”技术打开了大门，我们可以通过破坏边界效应来防止模型反刍敏感的训练数据，将逐字背诵转变为创造性生成。

什么是记忆?#

宏观视角: 扩展与容量#

遗忘与学习的动力学#

微观视角: 输入动力学与“边界效应”#

微观视角: 输出动力学#

嵌入聚类#

熵与置信度#

预测记忆#

预测案例研究#

结论: 机器记忆的本质#