左与右：微不足道的平局决胜选择如何定义 Transformer 的表达能力

如果你一直在关注 Transformer 理论研究的爆发，你会知道，理解这些模型实际上能计算什么，与看着它们的损失曲线下降同样重要。我们经常将 Transformer 理想化以便于数学研究。一种常见的简化是 唯一硬注意力 (Unique Hard Attention, UHA) 。

在标准的“软”注意力中 (如 GPT-4) ，模型以不同的权重关注所有过去的 Token。而在 UHA 中，模型只关注一个 Token——即注意力得分最高的那个。

这听起来很简单。但是，如果有两个 Token 获得了完全相同的最高分，会发生什么呢？你必须选择一个。你需要一个平局决胜 (tiebreaking) 规则。你可以选择 最左 (Leftmost) 的那个 (最早出现的) ，或者 最右 (Rightmost) 的那个 (最近出现的) 。

长期以来，研究人员将这一选择视为微不足道的实现细节。一篇新论文 Unique Hard Attention: A Tale of Two Sides 揭示了这种看似“琐碎”的选择实际上是计算能力的一个根本转折点。

在这篇深度文章中，我们将探讨为什么 最右 (Rightmost) 平局决胜使 Transformer 比 最左 (Leftmost) 平局决胜强大得多，以及这些模型如何与形式逻辑和自动机的世界相联系。

1. 设定: 理想化的 Transformer

为了证明关于表达能力的数学界限，我们需要将 Transformer 剥离至其逻辑核心。这篇论文的作者在一套现实的约束条件下进行研究，称为 有限精度 UHA Transformer :

有限精度 (Finite Precision): 真实的硬件使用固定位数 (16位，32位) 。我们不假设无限精度的浮点数。
无位置编码 (No Positional Encodings): 模型必须依靠序列本身和掩码来理解顺序。
严格未来掩码 (Strict Future Masking): 位置 \(t\) 处的 Token 只能关注位置 \(t' < t\)。它不能看到自己或未来。
唯一硬注意力 (UHA): 注意力机制选择单一的过去位置，使评分函数最大化。

信息如何流动

在这个框架中，Transformer 层通过从一个特定的过去 Token “提取”信息来计算当前 Token 的新表示。

图 1: 唯一硬注意力。模型选择单一的过去向量与当前向量结合。

如上图 1 所示，第 \(\ell\) 层在位置 \(t\) 的表示 \(x_t\) 关注选定的位置 \(t^*\)，并通过残差连接将该向量加到自身。这意味着 Transformer 本质上是在从过去“收集”符号。

这种注意力机制的数学定义非常直观:

方程 35: 带归一化的注意力的数学定义。

在这里，norm 是 hardmax 函数。这就是我们故事的开始。hardmax 函数必须返回单一索引 \(t^*\)。

岔路口: 平局决胜

当多个位置 \(t'\) 产生相同的最高分时，我们必须选择一个。论文定义了两个截然不同的算子:

最左 (\(\blacktriangleleft\)): 选择最小的索引 (时间上最早) 。
最右 (\(\blacktriangleright\)): 选择最大的索引 (时间上最近) 。

方程 12: 定义平局决胜机制。最左取 Min，最右取 Max。

这项工作的核心论点是 \(\blacktriangleleft\) (最左) 严格弱于 \(\blacktriangleright\) (最右) 。

2. 直觉: 为什么“左”更弱？

为了理解为什么方向很重要，我们可以看一个名为 B-RASP 的编程语言类比。B-RASP 是一种布尔序列编程语言，用于描述 Transformer 的行为。

想象一下，你正在处理一个句子，并希望从过去查找特定信息。

最左操作

最左操作扫描过去并锁定到 第一个 符合你搜索标准 (得分为 1) 的 Token。

方程 1: B-RASP 中的最左操作。

如果你有序列 A ... A ... A 并且你搜索 A，最左机制会返回第一个 A 的值。它是“有粘性”的。一旦它找到匹配项，就会忽略所有后续的匹配项。

最右操作

最右操作找到 最后一个 符合你标准的 Token。

方程 5: 最右操作。

为什么这更强？因为严格的未来掩码允许我们严格地查看过去 (\(t' < t\)) 。如果我们使用最右注意力，我们可以轻易地定位 直接前驱 (\(t-1\)) 。

逻辑如下:

给所有过去的 Token 分配 1 分。
“最右”平局决胜将自然地选择小于 \(t\) 的最大索引，这正是 \(t-1\)。

如果我们使用最左注意力，我们就无法轻易定位 \(t-1\)。如果我们给所有过去的 Token 分配 1 分，注意力会吸附到位置 0 (字符串的开头) 并卡在那里。它实际上失去了区分某物“有多近”的能力。

这个看似微小的机制差异意味着 最右 UHA 可以执行等同于“Since (自…以来) ”的逻辑 (例如，“自上次 Y 发生以来，X 是否发生过？”) ，而 最左 UHA 仅限于更简单的“Eventually (最终/曾经) ”逻辑 (例如，“X 是否曾经发生过？”) 。

3. 逻辑联系: 线性时序逻辑 (LTL)

为了使这些主张严谨，作者将这些 Transformer 模型与 线性时序逻辑 (LTL) 联系起来。LTL 是一种使用基于时间的运算符编写关于事件序列的公式的方法。

方程 7: 线性时序逻辑 (LTL) 的语义。

关键运算符是:

\(\Diamond\) (Eventually Past / 过去曾经): “在过去的某个时刻…”
\(\mathbf{S}\) (Since / 自…以来): “自条件 B 发生以来，条件 A 一直为真。”

表达能力层级

该论文建立了一个严格的层级结构，总结在下表中。这是理解 Transformer 理论图景最重要的结论。

表 1: 有限精度 Transformer 的已知等价关系。注意最左 (左上/左下) 和最右 (右上/右下) 的区别。

让我们拆解表 1:

最右 UHA (\(\mathcal{T}^F_{\blacktriangleright}\)): 等价于完全的一阶逻辑 (FO[<]) 和无星 (Star-Free) 语言。它可以处理复杂的 Since (自…以来) 和 Until (直到) 运算符。
最左 UHA (\(\mathcal{T}^F_{\blacktriangleleft}\)): 仅等价于 LTL[\(\Diamond\)] 。它缺少 Since 运算符。它严格更弱。

与软注意力的惊人联系

仔细看表 1 的第二行。 未来掩码软注意力 也等价于 LTL[\(\Diamond\)] 。

这是一个深刻的见解。在有限精度制度下，标准的 Softmax Transformer (对值取平均) 与最左硬注意力 Transformer 属于同一个表达能力类别。它们都不具备最右硬注意力的“计数”或“直接前驱”能力。

这表明，尽管最右 UHA 更强大，但 最左 UHA 实际上是研究现实世界 Transformer (如 GPT) 更好的理论代理。

4. 证明等价性

我们如何证明一个神经网络等价于一个逻辑公式？作者使用了涉及 B-RASP 的构造性证明策略。

从逻辑到 Transformer

他们展示了对于每一个逻辑公式，都存在一个 B-RASP 程序 (因此也存在一个 Transformer) 可以计算它。

如果我们想计算一个包含“Since” (需要最右注意力) 的公式，该公式看起来像这样:

方程 27: 最右注意力操作所需的复杂逻辑公式。

这个公式显式地使用了 S (Since) 运算符。

然而，对于最左注意力，我们只能支持“Eventually” (\(\Diamond\)) 运算符。公式构造更简单，但表达能力较弱:

方程 25: 最左注意力的逻辑公式，仅使用 ‘Eventually’ 运算符。

方程 25 表明，最左注意力可以验证条件 \(\psi_S\) 是否在过去发生过 (\(\Diamond \psi_S\)) 并选择它 第一次 发生的时间 (\(\neg \Diamond \psi_S\) 确保我们看到的是最早的实例) 。它无法表达“Since”所需的依赖关系。

自动机理论: 偏序有限自动机 (POFA)

该论文还将这些 Transformer 连接到了自动机理论。

最右 UHA 连接到无计数器自动机 (Counter-Free Automata，即广泛的非计数语言类别) 。
最左 UHA 连接到 偏序有限自动机 (POFA) 。

POFA 是一类特殊的机器，其中状态流向是严格定向的。你可以从状态 A 移动到状态 B，但永远不能回到 A。不存在循环 (自环除外) 。

图 2: 单向分叉 (半重置) 。自动机可以向前转换或保持不变，但永远不能循环回退。

图 2 展示了一个“半重置 (Half-reset)”。这代表了最左注意力的“锁定”行为。一旦注意力机制找到一个 Token (转换到 \(q_1\)) ，它就会“粘”在那里。它无法根据复杂的模式轻易重置或循环，这限制了其识别像“奇偶校验 (Parity)” (检查 1 的数量是偶数还是奇数) 这类语言的能力。

5. 直接翻译: 作为公式的 Transformer

论文的贡献之一是直接的“范式”转换。他们展示了任何最左 UHA Transformer 都可以直接转换为一个巨大的 LTL[\(\Diamond\)] 公式。

他们首先定义了 Transformer 的可能状态。由于精度是有限的，可能的上下文向量数量是有限的 (尽管很大) 。

方程 43: 限制唯一上下文表示的数量。

因为状态是有限的，我们可以枚举 Transformer 每一个可能的“接受”状态。代表整个神经网络的最终逻辑公式本质上是一个巨大的“或 (OR)”语句: “如果最终状态是状态 A 或状态 B 或状态 C… 则输入有效”。

方程 53: 代表 Transformer 的最终公式是所有接受最终状态的析取。

这证实了神经网络不能“神奇地”计算出超出 LTL[\(\Diamond\)] 边界的东西。

6. 这对 AI 为何重要

这可能感觉像是抽象数学，但它解释了我们在大型语言模型 (LLM) 中看到的经验行为。

1. “触发器 (Flip-Flop)” 问题: 最近的实证研究 (Liu et al., 2023) 表明，Transformer 在“触发器”语言上表现挣扎——在这类任务中，模型必须记住最近的指令 (例如，“写入 A… (稍后) 写入 B…”) 。这篇论文解释了原因。标准的 Transformer (在理论上接近最左 UHA) 缺乏“最右”能力，无法使用硬注意力机制轻易锁定到最近的相关 Token。它们自然倾向于聚合信息，而不是精确定位最新的变化。

2. 位置编码 (ALiBi, RoPE): 这里研究的标准 Transformer 架构没有位置编码。最右 UHA 更强的事实解释了为什么现代位置编码 (如 ALiBi) 如此有效。它们有效地根据距离偏置注意力得分，允许模型更容易地模拟“最右”行为 (关注最近的 Token) 。它们弥补了较弱的“最左”理论与较强的“最右”需求之间的差距。

3. 理解局限性: 我们现在知道，如果没有特定的增强，这些模型无法解决需要以下能力的问题:

模计数 (奇偶校验)。
任意深度的 嵌套括号 (Dyck 语言)。
严格局部 依赖链 (在没有位置辅助的情况下找到直接邻居 \(t-1\))。

结论

论文 Unique Hard Attention: A Tale of Two Sides 教导我们，在神经网络的理论分析中，细节决定成败。

一个简单的实现选择——平局时取 min 还是 max 索引——将模型从等价于完全无星逻辑 (Star-Free logic) 变为严格更弱的模型，仅等价于简单的“Eventually”逻辑。

通过将 最左 UHA 映射到 软注意力 , 作者为理解标准 Transformer 能做什么和不能做什么提供了一个严格的基准。它们是过去信息的强大聚合器，但如果没有明确的位置偏置，它们很难推理事件的直接序列。

所以，下次当你观察注意力图时，问问自己: 它是在向左看，还是在向右看？答案定义了它逻辑的极限。

1. 设定: 理想化的 Transformer#

信息如何流动#

岔路口: 平局决胜#

2. 直觉: 为什么“左”更弱？#

最左操作#

最右操作#

3. 逻辑联系: 线性时序逻辑 (LTL)#

表达能力层级#

与软注意力的惊人联系#

4. 证明等价性#

从逻辑到 Transformer#

自动机理论: 偏序有限自动机 (POFA)#

5. 直接翻译: 作为公式的 Transformer#

6. 这对 AI 为何重要#

结论#