引言: “Z 盒里的咖啡”问题

想象一下你面临这样一个逻辑谜题:

“咖啡在 Z 盒里,石头在 M 盒里,地图在 H 盒里。Z 盒里装的是什么?”

对人类来说,这显而易见。你浏览句子,找到“Z 盒”,查看与之关联的内容 (“咖啡”) ,然后给出答案。在认知科学和语言学中,这个过程被称为绑定 (binding) 。 你将一个实体 (Z 盒) 与一个属性 (咖啡) 绑定在了一起。

对于像 Llama 2 或 GPT-4 这样的大型语言模型 (LM) 来说,这个过程却出奇地复杂。模型是按顺序处理 Token 的。当它读到最后的那个问题时,它必须已经将“Z 盒 = 咖啡”这一信息存储在其高维内部状态中的某个地方,并且将其与“M 盒 = 石头”区分开来。如果模型把这些搞混了,它就会产生幻觉。

语言模型究竟是如何在物理层面上组织这些信息的?它们是否有一个特定的“文件抽屉”来存放第一项内容,另一个抽屉存放第二项内容?

一篇引人入胜的研究论文 《语言模型中绑定的表征分析》 (Representational Analysis of Binding in Language Models) 深入探究了语言模型的神经激活,以回答这个问题。研究人员发现,语言模型利用几何学来解决这个问题。他们在模型的数学宇宙中发现了一个特定的低秩子空间——一个特定的方向——它编码了实体的顺序 (Order) 。 通过物理操纵这个子空间,研究人员可以深入模型的“大脑”并强迫它交换对象,从而证明他们找到了负责追踪顺序的神经回路。

在这篇博文中,我们将通过可视化来拆解他们是如何找到这个“排序 ID (Ordering ID) ”子空间的,并看看他们是如何通过破解模型的内部状态来控制其推理过程的。


背景: 上下文绑定的奥秘

要理解这一突破,我们首先需要了解实体追踪 (Entity Tracking) 的难度。

当语言模型读取如下序列时:

  1. 咖啡 (属性 1) -> Z 盒 (实体 1)
  2. 石头 (属性 2) -> M 盒 (实体 2)
  3. 地图 (属性 3) -> H 盒 (实体 3)

它面临着绑定问题 。 它必须将“咖啡”和“Z 盒”表征在一起,但又要将它们与“石头”分开。先前的理论,如 Feng 和 Steinhardt (2023) 提出的 *绑定 ID (Binding ID) * 机制,认为语言模型会给配对分配抽象的“标签” (绑定 ID) 来进行分类。这就好比在熟食店取号: “咖啡”和“Z 盒”都拿着 1 号票。

然而,问题依旧存在: 这张票在物理上位于模型数字海洋的何处?

这篇论文的作者提出,关键在于排序 ID (Ordering ID,简称 OI) 。 这是实体的顺序索引 (例如,Z 盒是第 0 个实体,M 盒是第 1 个,H 盒是第 2 个) 。如果我们能找到模型在哪里存储数字“0”、“1”或“2”,我们就找到了绑定的机制。


核心方法: 搜寻“OI 子空间”

研究人员假设,在构成模型激活 (其内部思维过程) 的庞大且多维的数字云中,存在一个代表顺序的特定“方向”。

为了找到它,他们使用了主成分分析 (Principal Component Analysis, PCA)

在此背景下什么是 PCA?

想象一下,模型对单词“Z 盒”的激活是一个包含 4,096 个数字的向量。其中一些数字代表它是一个名词,一些代表它是一个字母。但如果假设是正确的,那么这些数字的某种组合代表了“我是列表中的第一项”。

如果你提取不同位置上数百个不同实体的激活值并应用 PCA,实际上就是在要求数学方法“找到这些点差异最大的方向”。如果项目的顺序是一个主要特征,PCA 将会把它作为一个主要方向 (或成分) 揭示出来。

可视化隐藏的几何结构

研究人员将此方法应用于 Llama2-7B 模型。他们在模型处理对象列表时,提取了网络不同层的内部状态。

Llama2-7B 上层级化的 OI 子空间可视化。 图 1: Llama2-7B 不同层中排序 ID (OI) 子空间的可视化。每个点代表一个实体。颜色代表它们在文本中的位置 (蓝色 = 第 1 个,红色 = 第 2 个,依此类推) 。

仔细观察上面的图片 (图 1) 。

  • 早期层 (0-7) : 颜色是杂乱无章的。模型尚未对信息进行“排序”。
  • 中间层 (8-15) : 看第 8 层。突然间,一种美丽的结构浮现出来。这些点根据颜色 (顺序) 自动组织成明显的簇或线条。蓝点 (第一项) 与红点 (第二项) 分开了。
  • 后期层: 随着模型准备输出,结构再次变得复杂。

这种可视化证实了中间层是发生“特征工程”的地方。模型主动构建了一个顺序表征来追踪实体。


实验: 入侵模型的大脑

发现模式是一回事;证明它起作用是另一回事。相关性不等于因果性。仅仅因为点按颜色排列,并不意味着模型使用这条线来解决谜题。

为了证明因果关系,研究人员进行了干预实验 (Interventional Experiments) 。 他们本质上是对模型的激活进行了“脑科手术”。

干预的逻辑

如果“顺序”被编码为空间中的一个方向 (我们称之为 OI 向量 ),那么从数学上向一个实体添加更多的该向量,应该会让模型认为该实体在列表中出现得更晚

设置如下:

  1. 输入: “咖啡在 Z 盒里……”
  2. 目标: 模型认为“Z 盒”在索引 0 处。
  3. 入侵: 我们获取“Z 盒”的激活值,并添加一个指向“排序方向”的向量。
  4. 假设: 模型现在应该认为“Z 盒”实际上在索引 1 处 (即 M 盒所在的位置) ,并回答它包含“石头”而不是“咖啡”。

说明 OI 子空间提取和修补过程的图表。 图 2: 干预过程。通过提取 OI 子空间 (通过 PCA) 并将其加回模型 (修补) ,研究人员旨在改变模型的输出。

它奏效了吗?

结果令人震惊。通过沿 OI 方向“滑动”激活值,他们可以系统地强迫模型输出第 2、第 3 或第 4 个项目的属性,即使文本提示根本没有改变。

让我们看看定量数据:

显示 Logit 差值 (LD) 随干预步长增加而变化的图表。 图 3: 此图显示了当我们沿排序 ID 方向“推动”时,模型的置信度如何变化。

如何解读这张图:

  • X 轴是“步长 (Step) ” (我们在 OI 方向上推动了多少) 。
  • Y 轴是“Logit 差值 (Logit Difference) ” (衡量模型选择特定单词可能性的指标) 。
  • 线条: 每条彩色线代表不同的绑定 ID (BI)。黄线 (底部) 是原始答案 (咖啡) 。
  • 结果: 随着我们增加步长 (在 X 轴向右移动) ,原始答案 (黄色) 下降。下一个项目 (绿线/BI_1) 飙升。再推远一点,第三个项目 (BI_2) 就会上升。

这本质上就像是模型注意力的无线电旋钮。通过转动“顺序旋钮”,研究人员可以调整模型,使其关注第一项,然后是第二项,接着是第三项。

可视化“翻转”

我们还可以查看答案的概率分布。

显示各干预步长下标签比例的堆积条形图。 图 4: 随着干预步长的增加 (X 轴) ,条形图中的主导颜色发生变化,表明模型正在将其答案切换到序列中的下一项。

在图 4 中,在步长 0 (无干预) 时,条形图主要是黄色的 (第 0 项) 。当我们移动到步长 1 时,条形图变为绿色 (第 1 项) 。在步长 2 时,它转移到下一种颜色。这证实了因果联系 : PCA 识别出的子空间确实是模型用来追踪实体顺序的机制。


这仅仅是位置 ID 吗?

怀疑论者可能会问: “等等,Transformer 已经有了*位置 ID (Position IDs) * (关于哪个 Token 是第 1、第 2、第 3 个的信息) 。你确定你发现的不是那个吗?”

这是一个至关重要的区别。 排序 ID (OI) 关注的是实体的语义顺序 (第 1 个实体,第 2 个实体) ,而不管它们之间有多少个单词。

为了测试这一点,研究人员创建了一个 “填充词 (Filler Word) ”数据集 。 他们在实体之间塞入无意义的文本,例如:

“咖啡是……你知道的……在 Z 盒里,然后石头是……其实……在 M 盒里。”

这改变了绝对 Token 位置 (位置 ID) ,但保持了实体顺序 (排序 ID) 不变。

比较 OI 和 PI 的相关性图表。 图 5: 斯皮尔曼等级相关系数。蓝色条显示与顺序 (OI) 的相关性,而红色条显示与位置 (PI) 的相关性。

图 5 中的结果是决定性的。第一主成分 (PC1) 与顺序 (OI, 蓝色条) 几乎完美相关,而与位置 (PI, 红色条) 几乎零相关。

这证明了模型是智能的。它忽略了废话 (填充词) ,并为重要的对象维护了一个专用的内部计数器。


这适用于其他模型吗?

这只是 Llama 2 的特例吗?研究人员在其他模型家族上测试了他们的方法,包括 Llama 3Float-7B (一个代码微调模型) 。

Llama3-8B 和 Float-7B 上的层级化 OI 子空间可视化。 图 6: Llama 3 和 Float-7B 中出现了相同的几何结构。注意中间层颜色的清晰分离。

如上图所示,中间层“秩序的涌现”是不同现代大语言模型中一致存在的现象。无论是 Llama 3 还是代码专用模型,它们似乎都“学会”了以这种特定的几何方式组织数据来解决绑定任务。有趣的是,代码微调模型 (Float-7B) 对这个子空间表现出更敏锐的敏感性,这可能是因为编码需要极其精确的变量追踪。


结论

“绑定问题”长期以来一直是神经网络的一个理论难题。你如何在不与“实体 B”混淆的情况下,将“属性 A”与“实体 A”联系起来?

这项研究提供了一个具体的、物理的答案。语言模型在其及中间层创建了一个排序子空间 (Ordering Subspace) ——一个低维几何结构。它们利用这个子空间按照顺序为实体打上标签。

这对 AI 可解释性具有重大意义:

  1. 透明度: 我们现在可以通过查看第 8 层的 PCA 图,字面上“看到”模型正在对列表进行排序。
  2. 控制: 我们可以进行干预。如果模型搞不清哪个对象拿着地图,理论上我们知道在它的激活空间中转动哪个“旋钮”来修复引用。
  3. 通用性: 这种机制似乎是 Transformer 学习推理序列的一个基本属性。

通过绘制思维的几何图,我们不仅离理解语言模型输出什么更近了一步,也离理解它们实际上如何思考更近了一步。