引言: “Z 盒里的咖啡”问题

想象一下你面临这样一个逻辑谜题:

“咖啡在 Z 盒里，石头在 M 盒里，地图在 H 盒里。Z 盒里装的是什么？”

对人类来说，这显而易见。你浏览句子，找到“Z 盒”，查看与之关联的内容 (“咖啡”) ，然后给出答案。在认知科学和语言学中，这个过程被称为绑定 (binding) 。你将一个实体 (Z 盒) 与一个属性 (咖啡) 绑定在了一起。

对于像 Llama 2 或 GPT-4 这样的大型语言模型 (LM) 来说，这个过程却出奇地复杂。模型是按顺序处理 Token 的。当它读到最后的那个问题时，它必须已经将“Z 盒 = 咖啡”这一信息存储在其高维内部状态中的某个地方，并且将其与“M 盒 = 石头”区分开来。如果模型把这些搞混了，它就会产生幻觉。

语言模型究竟是如何在物理层面上组织这些信息的？它们是否有一个特定的“文件抽屉”来存放第一项内容，另一个抽屉存放第二项内容？

一篇引人入胜的研究论文 《语言模型中绑定的表征分析》 (Representational Analysis of Binding in Language Models) 深入探究了语言模型的神经激活，以回答这个问题。研究人员发现，语言模型利用几何学来解决这个问题。他们在模型的数学宇宙中发现了一个特定的低秩子空间——一个特定的方向——它编码了实体的顺序 (Order) 。通过物理操纵这个子空间，研究人员可以深入模型的“大脑”并强迫它交换对象，从而证明他们找到了负责追踪顺序的神经回路。

在这篇博文中，我们将通过可视化来拆解他们是如何找到这个“排序 ID (Ordering ID) ”子空间的，并看看他们是如何通过破解模型的内部状态来控制其推理过程的。

背景: 上下文绑定的奥秘

要理解这一突破，我们首先需要了解实体追踪 (Entity Tracking) 的难度。

当语言模型读取如下序列时:

咖啡 (属性 1) -> Z 盒 (实体 1)
石头 (属性 2) -> M 盒 (实体 2)
地图 (属性 3) -> H 盒 (实体 3)

它面临着绑定问题 。它必须将“咖啡”和“Z 盒”表征在一起，但又要将它们与“石头”分开。先前的理论，如 Feng 和 Steinhardt (2023) 提出的 *绑定 ID (Binding ID) * 机制，认为语言模型会给配对分配抽象的“标签” (绑定 ID) 来进行分类。这就好比在熟食店取号: “咖啡”和“Z 盒”都拿着 1 号票。

然而，问题依旧存在: 这张票在物理上位于模型数字海洋的何处?

这篇论文的作者提出，关键在于排序 ID (Ordering ID，简称 OI) 。这是实体的顺序索引 (例如，Z 盒是第 0 个实体，M 盒是第 1 个，H 盒是第 2 个) 。如果我们能找到模型在哪里存储数字“0”、“1”或“2”，我们就找到了绑定的机制。

核心方法: 搜寻“OI 子空间”

研究人员假设，在构成模型激活 (其内部思维过程) 的庞大且多维的数字云中，存在一个代表顺序的特定“方向”。

为了找到它，他们使用了主成分分析 (Principal Component Analysis, PCA) 。

在此背景下什么是 PCA？

想象一下，模型对单词“Z 盒”的激活是一个包含 4,096 个数字的向量。其中一些数字代表它是一个名词，一些代表它是一个字母。但如果假设是正确的，那么这些数字的某种组合代表了“我是列表中的第一项”。

如果你提取不同位置上数百个不同实体的激活值并应用 PCA，实际上就是在要求数学方法“找到这些点差异最大的方向”。如果项目的顺序是一个主要特征，PCA 将会把它作为一个主要方向 (或成分) 揭示出来。

可视化隐藏的几何结构

研究人员将此方法应用于 Llama2-7B 模型。他们在模型处理对象列表时，提取了网络不同层的内部状态。

Llama2-7B 上层级化的 OI 子空间可视化。 图 1: Llama2-7B 不同层中排序 ID (OI) 子空间的可视化。每个点代表一个实体。颜色代表它们在文本中的位置 (蓝色 = 第 1 个，红色 = 第 2 个，依此类推) 。

仔细观察上面的图片 (图 1) 。

早期层 (0-7) : 颜色是杂乱无章的。模型尚未对信息进行“排序”。
中间层 (8-15) : 看第 8 层。突然间，一种美丽的结构浮现出来。这些点根据颜色 (顺序) 自动组织成明显的簇或线条。蓝点 (第一项) 与红点 (第二项) 分开了。
后期层: 随着模型准备输出，结构再次变得复杂。

这种可视化证实了中间层是发生“特征工程”的地方。模型主动构建了一个顺序表征来追踪实体。

实验: 入侵模型的大脑

发现模式是一回事；证明它起作用是另一回事。相关性不等于因果性。仅仅因为点按颜色排列，并不意味着模型使用这条线来解决谜题。

为了证明因果关系，研究人员进行了干预实验 (Interventional Experiments) 。他们本质上是对模型的激活进行了“脑科手术”。

干预的逻辑

如果“顺序”被编码为空间中的一个方向 (我们称之为 OI 向量 )，那么从数学上向一个实体添加更多的该向量，应该会让模型认为该实体在列表中出现得更晚。

设置如下:

输入: “咖啡在 Z 盒里……”
目标: 模型认为“Z 盒”在索引 0 处。
入侵: 我们获取“Z 盒”的激活值，并添加一个指向“排序方向”的向量。
假设: 模型现在应该认为“Z 盒”实际上在索引 1 处 (即 M 盒所在的位置) ，并回答它包含“石头”而不是“咖啡”。

说明 OI 子空间提取和修补过程的图表。 图 2: 干预过程。通过提取 OI 子空间 (通过 PCA) 并将其加回模型 (修补) ，研究人员旨在改变模型的输出。

它奏效了吗？

结果令人震惊。通过沿 OI 方向“滑动”激活值，他们可以系统地强迫模型输出第 2、第 3 或第 4 个项目的属性，即使文本提示根本没有改变。

让我们看看定量数据:

显示 Logit 差值 (LD) 随干预步长增加而变化的图表。 图 3: 此图显示了当我们沿排序 ID 方向“推动”时，模型的置信度如何变化。

如何解读这张图:

X 轴是“步长 (Step) ” (我们在 OI 方向上推动了多少) 。
Y 轴是“Logit 差值 (Logit Difference) ” (衡量模型选择特定单词可能性的指标) 。
线条: 每条彩色线代表不同的绑定 ID (BI)。黄线 (底部) 是原始答案 (咖啡) 。
结果: 随着我们增加步长 (在 X 轴向右移动) ，原始答案 (黄色) 下降。下一个项目 (绿线/BI_1) 飙升。再推远一点，第三个项目 (BI_2) 就会上升。

这本质上就像是模型注意力的无线电旋钮。通过转动“顺序旋钮”，研究人员可以调整模型，使其关注第一项，然后是第二项，接着是第三项。

可视化“翻转”

我们还可以查看答案的概率分布。

显示各干预步长下标签比例的堆积条形图。 图 4: 随着干预步长的增加 (X 轴) ，条形图中的主导颜色发生变化，表明模型正在将其答案切换到序列中的下一项。

在图 4 中，在步长 0 (无干预) 时，条形图主要是黄色的 (第 0 项) 。当我们移动到步长 1 时，条形图变为绿色 (第 1 项) 。在步长 2 时，它转移到下一种颜色。这证实了因果联系 : PCA 识别出的子空间确实是模型用来追踪实体顺序的机制。

这仅仅是位置 ID 吗？

怀疑论者可能会问: “等等，Transformer 已经有了*位置 ID (Position IDs) * (关于哪个 Token 是第 1、第 2、第 3 个的信息) 。你确定你发现的不是那个吗？”

这是一个至关重要的区别。 排序 ID (OI) 关注的是实体的语义顺序 (第 1 个实体，第 2 个实体) ，而不管它们之间有多少个单词。

为了测试这一点，研究人员创建了一个 “填充词 (Filler Word) ”数据集 。他们在实体之间塞入无意义的文本，例如:

“咖啡是……你知道的……在 Z 盒里，然后石头是……其实……在 M 盒里。”

这改变了绝对 Token 位置 (位置 ID) ，但保持了实体顺序 (排序 ID) 不变。

比较 OI 和 PI 的相关性图表。 图 5: 斯皮尔曼等级相关系数。蓝色条显示与顺序 (OI) 的相关性，而红色条显示与位置 (PI) 的相关性。

图 5 中的结果是决定性的。第一主成分 (PC1) 与顺序 (OI, 蓝色条) 几乎完美相关，而与位置 (PI, 红色条) 几乎零相关。

这证明了模型是智能的。它忽略了废话 (填充词) ，并为重要的对象维护了一个专用的内部计数器。

这适用于其他模型吗？

这只是 Llama 2 的特例吗？研究人员在其他模型家族上测试了他们的方法，包括 Llama 3 和 Float-7B (一个代码微调模型) 。

Llama3-8B 和 Float-7B 上的层级化 OI 子空间可视化。 图 6: Llama 3 和 Float-7B 中出现了相同的几何结构。注意中间层颜色的清晰分离。

如上图所示，中间层“秩序的涌现”是不同现代大语言模型中一致存在的现象。无论是 Llama 3 还是代码专用模型，它们似乎都“学会”了以这种特定的几何方式组织数据来解决绑定任务。有趣的是，代码微调模型 (Float-7B) 对这个子空间表现出更敏锐的敏感性，这可能是因为编码需要极其精确的变量追踪。

结论

“绑定问题”长期以来一直是神经网络的一个理论难题。你如何在不与“实体 B”混淆的情况下，将“属性 A”与“实体 A”联系起来？

这项研究提供了一个具体的、物理的答案。语言模型在其及中间层创建了一个排序子空间 (Ordering Subspace) ——一个低维几何结构。它们利用这个子空间按照顺序为实体打上标签。

这对 AI 可解释性具有重大意义:

透明度: 我们现在可以通过查看第 8 层的 PCA 图，字面上“看到”模型正在对列表进行排序。
控制: 我们可以进行干预。如果模型搞不清哪个对象拿着地图，理论上我们知道在它的激活空间中转动哪个“旋钮”来修复引用。
通用性: 这种机制似乎是 Transformer 学习推理序列的一个基本属性。

通过绘制思维的几何图，我们不仅离理解语言模型输出什么更近了一步，也离理解它们实际上如何思考更近了一步。

引言: “Z 盒里的咖啡”问题#

背景: 上下文绑定的奥秘#

核心方法: 搜寻“OI 子空间”#

在此背景下什么是 PCA？#

可视化隐藏的几何结构#

实验: 入侵模型的大脑#

干预的逻辑#

它奏效了吗？#

可视化“翻转”#

这仅仅是位置 ID 吗？#

这适用于其他模型吗？#

结论#