在大型语言模型 (LLM) 的世界里,一场无声的战役正在两种记忆之间持续进行。一方是模型的内部训练——它在创建过程中背诵的事实( 参数化记忆 )。另一方是通过检索到的文档实时提供给它的新信息( 非参数化记忆 )。

想象一下,你问模型: “X 公司的 CEO 是谁?”如果模型是在 2021 年训练的,它的内部记忆可能会说是“Alice”。但如果检索系统抓取了一篇 2024 年的新闻文章,上面写着“Bob 是新任 CEO”,模型就会面临冲突。它应该相信它“知道”的,还是它现在正在“阅读”的?

这种动态是 检索增强生成 (Retrieval-Augmented Generation, RAG) 的核心。虽然 RAG 系统正逐渐成为可靠 AI 的行业标准,但我们对这些模型在机械层面上 如何 做出信任上下文而非训练数据的决定却知之甚少。

在论文 Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models 中,来自查尔姆斯理工大学和哥德堡大学的研究人员打开了 ATLAS 模型的“黑盒”。他们使用复杂的因果分析绘制出了当模型决定从文档中复制信息而不是背诵记忆时,具体哪些神经元和层被激活了。

核心问题: 你会信任谁?

标准的生成式模型 (如纯 GPT 系列模型) 完全依赖 参数化记忆——即存储在其权重中的知识。这使得它们在面对冷门话题或过时信息时容易产生幻觉。RAG 模型通过将生成器连接到检索器来解决这个问题,允许模型访问 非参数化记忆 (外部文档) 。

然而,拥有信息并不保证模型会使用它。研究人员通过一个关于瑞典首都的简单实验说明了这种二元性。

表 1: 模型在针对“瑞典的首都是哪里?”这一问题时,面对不同上下文的行为。表格显示了预测输出和概率。

如上方的 表 1 所示,当给模型一个上下文说明“1634 年,米兰成为瑞典的正式首都”时,它面临一个选择。模型在参数上 知道 斯德哥尔摩是首都。但上下文说是米兰。当模型回答“米兰”时,它为了非参数化的上下文而抑制了其内部记忆。

这项研究的目标就是理解这一决定背后的神经回路。

方法论: 因果中介分析

为了理解这种行为的“原因”和“方式”,作者采用了 因果中介分析 (Causal Mediation Analysis) 。 这种技术允许研究人员追踪信息在神经网络中的流动,就像电工排查电路板上的故障一样。

其核心思想是操纵输入的特定部分或模型的内部状态,并观察输出的变化。

定义变量

研究人员定义了 总效应 (Total Effect, TE) , 即当上下文改变时,模型行为的整体变化。

总效应公式 TE = Y(X=1) - Y(X=0)

在这里,\(X\) 代表输入条件 (例如,上下文是包含真实答案还是虚假的“反事实”答案) 。\(Y\) 代表模型的输出概率。

然而,仅知道总效应是不够的。我们要知道具体的 哪个组件 (或“中介”,\(M\)) 对此负责。是第 5 层的 Attention 机制吗?还是第 10 层的 MLP?为了找到答案,他们计算了 间接效应 (Indirect Effect, IE) :

间接效应公式 IE

这个公式本质上是在问: “如果我们保持输入不变,但强制特定的内部组件 (\(M\)) 表现得像输入已经改变了一样,会发生什么?”这种通常被称为“因果追踪 (causal tracing) ”的技术,使作者能够精确定位模型处理相关性和复制行为的确切位置。

信任的衡量

为了量化模型在多大程度上偏好上下文而非其内部记忆,研究人员观察了“反事实”答案 (上下文中提供的假新闻) 与“真实”答案 (内部事实) 之间的概率比率。

Y 对数概率比率方程

如果这个值很高,说明模型信任上下文 (反事实) 。如果这个值很低,说明模型在坚持己见 (参数化记忆) 。

设计陷阱: 反事实实验

为了分离这些机制,研究人员使用 ATLAS 模型设计了两个截然不同的实验。他们利用合成模板来确保对输入的完全控制。

表 2: 使用合成上下文模板构建的查询列表。

表 2 列出了使用的模板。例如,将真实事实 (“罗马是意大利的首都”) 替换为反事实 (“德黑兰是意大利的首都”) 。

可视化实验

图 1 完美地展示了实验设计。

图 1: 实验设置示意图,展示了 Transformer 架构中的破坏和恢复运行。

  • 实验 1 (复制行为) : 旨在调查模型 如何 进行复制。他们提供了一个对象 (答案) 被替换的上下文。在顶行 (a 和 b) 中,他们检查答案的表征是如何流经各层的。
  • 实验 2 (相关性评估) : 旨在调查模型 为什么 复制。在底行 (c 和 d) 中,他们破坏了 主体 (Subject)关系 (Relation) Token (例如,将上下文中的“伊朗”改为“罗马”) ,以查看模型是否因为上下文不再匹配问题而停止信任上下文。

主要发现

这些实验的结果描绘了一幅 RAG“思维过程”的详细图景。

1. 模型是个强迫性的复制者

首先,研究人员建立了基线行为。当 ATLAS 面对与其内部知识相矛盾的上下文时,它会怎么做?

图 3: 展示参数化和非参数化行为之间 TE 分布的小提琴图。

图 3 显示了总效应 (TE) 。巨大的橙色隆起表明模型的“一般 (General) ”行为强烈偏向于反事实。简单来说: 当模型在上下文中看到答案时,它几乎总是倾向于复制它,而不是依赖其内部记忆。 非参数化机制占据主导地位。

2. 复制机制: 一切皆关于对象 (Object)

既然模型决定要复制,那么上下文段落中的哪些 Token 承担了繁重的工作呢?

通过使用因果追踪,作者生成了热力图,显示了哪些 Token 对输出贡献最大。

图 2: 展示复制行为 (a-c) 和相关性 (d-i) 的 AIE 结果的热力图。

请看 图 2 (a-c) 的顶行。这些热力图展示了“复制”实验。纵轴代表 Token 的位置。

  • 结果: 鲜红色的热点几乎完全集中在 对象 Token (即被复制的实际单词) 上。
  • 机制: 模型识别上下文中的答案 Token 并将其向上传播穿过各层。上下文的其余部分 (主体、关系) 在实际复制阶段几乎没有产生“间接效应”。

3. 相关性机制: 检查主体 (Subject)

如果复制机制只关心对象,模型如何确保它没有复制一个随机词汇?这正是 实验 2 的切入点。

请看 图 2 (d-i) 的底部两行。在这里,研究人员干扰了 主体 (Subject)关系 (Relation) Token。

  • 浅层 (低层) : 你可以看到网络早期在主体和关系 Token 上出现了红点。这表明 相关性评估 首先发生。模型在浅层扫描主体和关系 (“…的首都”和“瑞典”) ,以确认“是的,这句话确实在回答我的问题”。
  • 深层: 一旦确立了相关性,焦点就会转移到后期的对象 Token 上进行提取。

图 5 进一步细分了主体与关系 Token 的重要性。

图 5: 主体和关系 Token 的 TE 分布。

虽然两者都很重要,但统计分析表明,在决定信任上下文时, 主体 Token (蓝色) 的影响力略高于关系 Token。如果主体不匹配,模型就会停止倾听。

4. MLP 与 Attention 的作用

也许最技术性也最迷人的发现是 Transformer 组件的具体角色: 多层感知机 (MLP)Attention (注意力) 头。

图 4: 柱状图展示了不同层中 MLP 和 Attention 的影响。

图 4 按层和组件分解了影响。

  • MLP 作为翻译者 (绿色柱) : 在中间层 (第 4-8 层) ,MLP 发挥了巨大作用 (见图表 a, b, c) 。作者推测,MLP 负责将检索到的上下文 (编码器空间) 中的 Token “翻译”成生成器 (解码器) 可以使用的格式。它充当了“阅读”和“说话”之间的桥梁。
  • Attention 作为协调者 (红色柱) : Attention 在后期层变得更加相关,这可能是为了确保复制的答案与句子结构的其余部分保持连贯。

现实世界验证

批评者可能会争辩说,这些发现仅适用于表 2 中使用的合成模板。为了解决这个问题,作者对 ATLAS 自身检索器抓取的 真实检索文档 进行了相同的分析。

图 6: ATLAS 检索到的实际文档的复制行为 AIE 结果。

图 6 所示,这种模式依然成立。真实文档的热力图与合成文档惊人地相似。对象 Token (a) 主导了复制阶段,而主体 Token (d) 触发了相关性检查。这证实了所发现的机制是模型运作的基础,而不仅仅是实验的人为产物。

结论: RAG 决策解剖

这篇论文为检索增强模型如何“思考”提供了蓝图。事实证明,利用文档回答问题并非一步到位的过程;它是一个多阶段的认知过程:

  1. 相关性检查 (浅层) : 模型使用 主体和关系 Token 来验证检索到的文本是否确实解决了用户的查询。这主要发生在浅层的 MLP 块中。
  2. 对象提取 (中深层) : 一旦验证通过,模型会强烈关注 对象 Token (答案) 。
  3. 翻译 (中间层) : MLP 将这些表征从编码器转换到解码器。
  4. 生成: 模型将答案复制到输出中,抑制其自身的参数化记忆。

理解这种相互作用至关重要。它告诉我们 RAG 模型对上下文高度敏感——也许过于敏感了。通过剖析这些机制,我们可以开始设计能够更好地从噪声中辨别真理的模型,而不是盲目地复制摆在面前的任何“米兰”或“罗马”。