如果你一直在关注 Transformer 理论研究的爆发,你会知道,理解这些模型实际上 能 计算什么,与看着它们的损失曲线下降同样重要。我们经常将 Transformer 理想化以便于数学研究。一种常见的简化是 唯一硬注意力 (Unique Hard Attention, UHA) 。
在标准的“软”注意力中 (如 GPT-4) ,模型以不同的权重关注所有过去的 Token。而在 UHA 中,模型只关注 一个 Token——即注意力得分最高的那个。
这听起来很简单。但是,如果有两个 Token 获得了完全相同的最高分,会发生什么呢?你必须选择一个。你需要一个平局决胜 (tiebreaking) 规则。你可以选择 最左 (Leftmost) 的那个 (最早出现的) ,或者 最右 (Rightmost) 的那个 (最近出现的) 。
长期以来,研究人员将这一选择视为微不足道的实现细节。一篇新论文 Unique Hard Attention: A Tale of Two Sides 揭示了这种看似“琐碎”的选择实际上是计算能力的一个根本转折点。
在这篇深度文章中,我们将探讨为什么 最右 (Rightmost) 平局决胜使 Transformer 比 最左 (Leftmost) 平局决胜强大得多,以及这些模型如何与形式逻辑和自动机的世界相联系。
1. 设定: 理想化的 Transformer
为了证明关于表达能力的数学界限,我们需要将 Transformer 剥离至其逻辑核心。这篇论文的作者在一套现实的约束条件下进行研究,称为 有限精度 UHA Transformer :
- 有限精度 (Finite Precision): 真实的硬件使用固定位数 (16位,32位) 。我们不假设无限精度的浮点数。
- 无位置编码 (No Positional Encodings): 模型必须依靠序列本身和掩码来理解顺序。
- 严格未来掩码 (Strict Future Masking): 位置 \(t\) 处的 Token 只能关注位置 \(t' < t\)。它不能看到自己或未来。
- 唯一硬注意力 (UHA): 注意力机制选择单一的过去位置,使评分函数最大化。
信息如何流动
在这个框架中,Transformer 层通过从一个特定的过去 Token “提取”信息来计算当前 Token 的新表示。

如上图 1 所示,第 \(\ell\) 层在位置 \(t\) 的表示 \(x_t\) 关注选定的位置 \(t^*\),并通过残差连接将该向量加到自身。这意味着 Transformer 本质上是在从过去“收集”符号。
这种注意力机制的数学定义非常直观:

在这里,norm 是 hardmax 函数。这就是我们故事的开始。hardmax 函数必须返回单一索引 \(t^*\)。
岔路口: 平局决胜
当多个位置 \(t'\) 产生相同的最高分时,我们必须选择一个。论文定义了两个截然不同的算子:
- 最左 (\(\blacktriangleleft\)): 选择最小的索引 (时间上最早) 。
- 最右 (\(\blacktriangleright\)): 选择最大的索引 (时间上最近) 。

这项工作的核心论点是 \(\blacktriangleleft\) (最左) 严格弱于 \(\blacktriangleright\) (最右) 。
2. 直觉: 为什么“左”更弱?
为了理解为什么方向很重要,我们可以看一个名为 B-RASP 的编程语言类比。B-RASP 是一种布尔序列编程语言,用于描述 Transformer 的行为。
想象一下,你正在处理一个句子,并希望从过去查找特定信息。
最左操作
最左操作扫描过去并锁定到 第一个 符合你搜索标准 (得分为 1) 的 Token。

如果你有序列 A ... A ... A 并且你搜索 A,最左机制会返回第一个 A 的值。它是“有粘性”的。一旦它找到匹配项,就会忽略所有后续的匹配项。
最右操作
最右操作找到 最后一个 符合你标准的 Token。

为什么这更强?因为严格的未来掩码允许我们严格地查看过去 (\(t' < t\)) 。 如果我们使用 最右 注意力,我们可以轻易地定位 直接前驱 (\(t-1\)) 。
逻辑如下:
- 给 所有 过去的 Token 分配 1 分。
- “最右”平局决胜将自然地选择小于 \(t\) 的最大索引,这正是 \(t-1\)。
如果我们使用 最左 注意力,我们就无法轻易定位 \(t-1\)。如果我们给所有过去的 Token 分配 1 分,注意力会吸附到位置 0 (字符串的开头) 并卡在那里。它实际上失去了区分某物“有多近”的能力。
这个看似微小的机制差异意味着 最右 UHA 可以执行等同于“Since (自…以来) ”的逻辑 (例如,“自上次 Y 发生以来,X 是否发生过?”) ,而 最左 UHA 仅限于更简单的“Eventually (最终/曾经) ”逻辑 (例如,“X 是否 曾经 发生过?”) 。
3. 逻辑联系: 线性时序逻辑 (LTL)
为了使这些主张严谨,作者将这些 Transformer 模型与 线性时序逻辑 (LTL) 联系起来。LTL 是一种使用基于时间的运算符编写关于事件序列的公式的方法。

关键运算符是:
- \(\Diamond\) (Eventually Past / 过去曾经): “在过去的某个时刻…”
- \(\mathbf{S}\) (Since / 自…以来): “自条件 B 发生以来,条件 A 一直为真。”
表达能力层级
该论文建立了一个严格的层级结构,总结在下表中。这是理解 Transformer 理论图景最重要的结论。

让我们拆解表 1:
- 最右 UHA (\(\mathcal{T}^F_{\blacktriangleright}\)): 等价于完全的一阶逻辑 (FO[<]) 和无星 (Star-Free) 语言。它可以处理复杂的 Since (自…以来) 和 Until (直到) 运算符。
- 最左 UHA (\(\mathcal{T}^F_{\blacktriangleleft}\)): 仅等价于 LTL[\(\Diamond\)] 。 它缺少 Since 运算符。它严格更弱。
与软注意力的惊人联系
仔细看表 1 的第二行。 未来掩码 软 注意力 也等价于 LTL[\(\Diamond\)] 。
这是一个深刻的见解。在有限精度制度下,标准的 Softmax Transformer (对值取平均) 与最左硬注意力 Transformer 属于同一个表达能力类别。它们都不具备最右硬注意力的“计数”或“直接前驱”能力。
这表明,尽管最右 UHA 更强大,但 最左 UHA 实际上是研究现实世界 Transformer (如 GPT) 更好的理论代理。
4. 证明等价性
我们如何证明一个神经网络等价于一个逻辑公式?作者使用了涉及 B-RASP 的构造性证明策略。
从逻辑到 Transformer
他们展示了对于每一个逻辑公式,都存在一个 B-RASP 程序 (因此也存在一个 Transformer) 可以计算它。
如果我们想计算一个包含“Since” (需要最右注意力) 的公式,该公式看起来像这样:

这个公式显式地使用了 S (Since) 运算符。
然而,对于最左注意力,我们只能支持“Eventually” (\(\Diamond\)) 运算符。公式构造更简单,但表达能力较弱:

方程 25 表明,最左注意力可以验证条件 \(\psi_S\) 是否在过去发生过 (\(\Diamond \psi_S\)) 并选择它 第一次 发生的时间 (\(\neg \Diamond \psi_S\) 确保我们看到的是最早的实例) 。它无法表达“Since”所需的依赖关系。
自动机理论: 偏序有限自动机 (POFA)
该论文还将这些 Transformer 连接到了自动机理论。
- 最右 UHA 连接到无计数器自动机 (Counter-Free Automata,即广泛的非计数语言类别) 。
- 最左 UHA 连接到 偏序有限自动机 (POFA) 。
POFA 是一类特殊的机器,其中状态流向是严格定向的。你可以从状态 A 移动到状态 B,但永远不能回到 A。不存在循环 (自环除外) 。

图 2 展示了一个“半重置 (Half-reset)”。这代表了最左注意力的“锁定”行为。一旦注意力机制找到一个 Token (转换到 \(q_1\)) ,它就会“粘”在那里。它无法根据复杂的模式轻易重置或循环,这限制了其识别像“奇偶校验 (Parity)” (检查 1 的数量是偶数还是奇数) 这类语言的能力。
5. 直接翻译: 作为公式的 Transformer
论文的贡献之一是直接的“范式”转换。他们展示了任何最左 UHA Transformer 都可以直接转换为一个巨大的 LTL[\(\Diamond\)] 公式。
他们首先定义了 Transformer 的可能状态。由于精度是有限的,可能的上下文向量数量是有限的 (尽管很大) 。

因为状态是有限的,我们可以枚举 Transformer 每一个可能的“接受”状态。代表整个神经网络的最终逻辑公式本质上是一个巨大的“或 (OR)”语句: “如果最终状态是状态 A 或 状态 B 或 状态 C… 则输入有效”。

这证实了神经网络不能“神奇地”计算出超出 LTL[\(\Diamond\)] 边界的东西。
6. 这对 AI 为何重要
这可能感觉像是抽象数学,但它解释了我们在大型语言模型 (LLM) 中看到的经验行为。
1. “触发器 (Flip-Flop)” 问题: 最近的实证研究 (Liu et al., 2023) 表明,Transformer 在“触发器”语言上表现挣扎——在这类任务中,模型必须记住 最近 的指令 (例如,“写入 A… (稍后) 写入 B…”) 。 这篇论文解释了原因。标准的 Transformer (在理论上接近最左 UHA) 缺乏“最右”能力,无法使用硬注意力机制轻易锁定到 最近 的相关 Token。它们自然倾向于聚合信息,而不是精确定位最新的变化。
2. 位置编码 (ALiBi, RoPE): 这里研究的标准 Transformer 架构 没有 位置编码。最右 UHA 更强的事实解释了为什么现代位置编码 (如 ALiBi) 如此有效。它们有效地根据距离偏置注意力得分,允许模型更容易地模拟“最右”行为 (关注最近的 Token) 。它们弥补了较弱的“最左”理论与较强的“最右”需求之间的差距。
3. 理解局限性: 我们现在知道,如果没有特定的增强,这些模型无法解决需要以下能力的问题:
- 模计数 (奇偶校验)。
- 任意深度的 嵌套括号 (Dyck 语言)。
- 严格局部 依赖链 (在没有位置辅助的情况下找到直接邻居 \(t-1\))。
结论
论文 Unique Hard Attention: A Tale of Two Sides 教导我们,在神经网络的理论分析中,细节决定成败。
一个简单的实现选择——平局时取 min 还是 max 索引——将模型从等价于完全无星逻辑 (Star-Free logic) 变为严格更弱的模型,仅等价于简单的“Eventually”逻辑。
通过将 最左 UHA 映射到 软注意力 , 作者为理解标准 Transformer 能 做什么和 不能 做什么提供了一个严格的基准。它们是过去信息的强大聚合器,但如果没有明确的位置偏置,它们很难推理事件的直接序列。
所以,下次当你观察注意力图时,问问自己: 它是在向左看,还是在向右看?答案定义了它逻辑的极限。
](https://deep-paper.org/en/paper/2503.14615/images/cover.png)