教 LLM 学会未雨绸缪：深入解析 Semformer 架构

像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 彻底改变了人工智能，展现出了常常让人感觉像是真正推理的能力。然而，在这些令人印象深刻的系统表面之下，是一个出奇简单的训练范式: 下一个 token 预测 (next-token prediction) 。这些模型被训练为根据之前的单词来预测紧接着的下一个单词。

虽然有效，但这种“贪婪”的方法有一个根本性的缺陷。它迫使模型以线性的、从左到右的方式思考，而不会停下来进行规划。试想一下，如果只能一个词一个词地思考，而不去展望句子的走向，要写出一篇复杂的文章或解决一个导航谜题会有多难。

这种局限性导致了一种被称为“捷径学习 (shortcut learning) ”或“聪明的汉斯 (Clever Hans) ”效应的现象，即模型依赖于肤浅的模式，而非真正的理解。

在这篇深度文章中，我们将探讨论文 “Semformer: Transformer Language Models with Semantic Planning” 中提出的一个迷人的解决方案。研究人员引入了一种新颖的架构，强制模型在生成响应之前构建一个高层的“语义规划”。我们将剖析短视训练的问题，分解 Semformer 架构，并分析“三思而后言”如何让模型解决标准 Transformer 根本无法解决的问题。

问题所在: Teacher Forcing 的短视

要理解为什么我们需要一种新的架构，我们首先需要了解标准模型是如何失败的。

目前的 LLM 是使用 Teacher Forcing (教师强制) 进行训练的。在训练过程中，模型被输入一系列真实 (ground-truth) token (即“老师”的答案) ，并被要求预测下一个 token。从数学上讲，对于序列 \(x\)，模型试图在给定先前 token \(x_{

公式 1: 标准自回归对数似然目标。

问题在于这创造了一条捷径。如果模型可以仅根据最后几个词 (局部上下文) 猜出下一个 token，它就会这样做，从而忽略了更广泛的问题结构。

图路径搜索测试

作者使用一个图路径搜索任务来说明这一失败。这是一个“最小前瞻”任务: 给定一个起始节点、一个目标节点和连接列表 (图) ，找出从起点到终点的路径。

图 1: 图路径搜索问题中的“聪明的汉斯”作弊行为，这是一个最小前瞻任务。任务是根据邻接表、起始节点和目标节点找到正确的路径。

请看上面的 图 1 。

问题: 找到从节点 0 到节点 2 的路径。
陷阱: 节点 7 连接到节点 3。在训练数据中，也许节点 7 通常会去往节点 3。
失败: 标准 Transformer 看到当前节点 (例如 7) ，并根据训练频率立即预测最可能的下一个邻居 (例如 3) ，而不检查该路径是否实际通向目标 (节点 2) 。

这就是 聪明的汉斯作弊 (Clever Hans cheat) 。模型记住了局部转换，而不是学习算法来向前看并找到连通路径。正如我们在实验部分将看到的，标准 GPT-2 模型在这项任务上彻底失败，因为它们无法在迈出第一步之前“停下来思考”目的地。

解决方案: Semformer

Semformer (语义 Transformer) 的核心洞察简单而深刻: 人类并不完全依赖历史语境。 我们会根据问题制定一个抽象的计划，然后该计划会指导我们的回答。

Semformer 通过在标准解码器 (Decoder-only) Transformer 中引入两阶段生成过程来实现这一点:

规划阶段: 模型生成一系列“规划 token”。这些不是单词，而是未来答案的潜在表示。
生成阶段: 模型使用这些规划 token 来生成实际的文本响应。

架构

Semformer 由两个主要组件组成: 语言模型 (学生) 和自编码器 (老师/向导) 。

图 2: 我们的 Semformer 示意图。我们在语言建模中引入了可训练的 token。由语言模型编码的这些 token 的表示通过 L2 损失回归到响应的潜在表示。

让我们分解一下 图 2 :

自编码器 (顶部) : 该组件仅在训练期间使用。它获取整个未来响应 (真实答案) 并将其压缩为一系列潜在向量，表示为 \(Z\)。这个 \(Z\) 代表了答案的“要点”或语义含义。
语言模型 (底部) : 这是我们实际想要训练的模型。它看到输入前缀和一系列特殊的“规划 token” (\(d\)) 。
连接: 模型像往常一样学习预测下一个词。然而，它还有第二项工作: 规划 token (\(d\)) 的表示必须与自编码器产生的潜在向量 (\(Z\)) 相匹配。

本质上，模型被训练为在实际生成具体单词之前，先幻化出未来答案的“大意”。

数学框架

训练涉及三个不同的损失函数，它们组合在一起。

1. 语言建模损失 (\(\mathcal{L}_{\mathrm{LM}}\)) 这是标准目标。模型必须预测序列中的下一个 token。注意，规划 token (\(d\)) 是输入上下文的一部分，但模型不会因为使用标准交叉熵“预测”规划 token 本身而受到惩罚；它只是利用它们来预测随后的文本。

公式 2: 语言建模损失函数，应用于文本 token 但排除规划 token。

2. 自编码器损失 (\(\mathcal{L}_{\mathrm{AE}}\)) 为了确保规划 token 有意义，我们需要一个关于计划应该是什么样子的“金标准”。自编码器提供了这一点。它将目标响应 (\(x_{n+1:T}\)) 编码为潜在向量 \(Z\)，并尝试从 \(Z\) 重构响应。如果自编码器可以从 \(Z\) 重构句子，那么 \(Z\) 必定包含了所有必要的语义信息。

公式 5 和 6: 自编码器的编码和重构过程。

公式 6: 自编码器重构损失。

3. 表示预测损失 (\(\mathcal{L}_{\mathrm{RP}}\)) 这是一座桥梁。我们强制语言模型的规划 token 看起来像自编码器的潜在向量 \(Z\)。我们使用均方误差 (\(L_2\)) 损失来最小化预测的计划与未来的实际语义摘要之间的距离。

公式 7: 预测计划与目标潜在计划之间的表示预测损失 (L2 距离) 。

总训练目标 最终的损失函数结合了所有三个要素。\(\alpha\) 是一个超参数，用于权衡规划任务相对于生成任务的重要性。

公式 8: 总联合损失函数。

推理: 实际如何工作

在训练期间，自编码器通过查看答案来“作弊”以创建目标计划 \(Z\)。但在推理 (测试) 期间，我们没有答案。

这就是神奇之处。因为语言模型被训练为最小化 \(\mathcal{L}_{\mathrm{RP}}\)，它已经学会了仅基于输入前缀生成有效的规划向量 \(Z\)。它有效地在具体生成未来之前抽象地预测了未来。

实验验证

这种额外的复杂性真的有帮助吗？研究人员在特定的图路径搜索任务和通用语言建模上都测试了 Semformer。

攻克图路径搜索任务

主要的测试平台是引言中描述的图问题。研究人员将 Semformer 与以下模型进行了比较:

Standard (标准) : 常规 GPT-2 模型 (Teacher Forcing) 。
Teacher-less: 非自回归模型。
Pause: 一个仅仅添加“哑”token 来思考，但没有自编码器提供的显式语义监督的模型。

结果如 表 1 (包含在下图中) 所示，令人震惊。

表 1: 图路径搜索测试集上的准确率。Semformer 实现了近乎 100% 的准确率，而 Standard 模型则举步维艰。

关键要点:

标准模型的失败: 标准 GPT-2 模型在困难的图 (例如 G(20,5) 准确率为 4.8%) 上几乎完全失败。它无法向前看。
Pause 模型的失败: 仅仅给模型“暂停 token” (额外的计算时间) 而不指导思考什么是行不通的。Pause 模型的表现与标准模型相似。
Semformer 的统治力: Semformer 在几乎所有设置中都达到了 99.9% 到 100% 的准确率 。通过强制模型首先预测路径的表示，它消除了聪明的汉斯捷径。

收敛速度

Semformer 不仅学会了任务，而且学得非常快。

图 3: Teacher-less、BoW 和 Semformer 的收敛曲线比较。Semformer (红色) 收敛到高准确率的速度比基线快得多。

在 图 3 中，红线 (Semformer) 在 50,000 步内飙升至高准确率。词袋 (BoW) 基线 (绿色) 试图在不考虑顺序的情况下预测未来节点的集合，其速度要慢得多且准确率较低。Teacher-less 方法 (橙色) 在这些设置中完全未能学习到模式。

为什么有效？可视化注意力

为了证明模型实际上是在“规划”而不仅仅是运气好，研究人员可视化了注意力权重——即模型在做决定时关注的地方。

图 6: Pause 和 Semformer 的注意力权重可视化。Semformer 的规划 token (左下) 强烈关注正确的路径 token。

在 图 6 中:

顶部 (Standard/Pause) : 注意力是分散的。模型没有关注输入中的相关路径节点。
底部 (Semformer) : 请看左侧面板中明亮的黄色垂直线。规划 token 正在重点关注图定义中构成正确路径的特定节点。在输出单个数字之前，模型已经在其潜在空间中有效地“解开”了迷宫。

超越玩具任务: 通用语言建模

至关重要的是，作者希望确保这不仅仅是针对图问题的一个把戏。他们在 OpenWebText (用于 GPT-2 的相同数据) 上训练了一个 1.25 亿参数的模型，看看语义规划是否有助于英语写作。

困惑度 (Perplexity) 分数 困惑度是衡量模型困惑程度的指标 (越低越好) 。

表 4: 以困惑度衡量的语言建模性能。与基线相比，Semformer 在 Wikitext 和 LAMBADA 上实现了更低的困惑度。

如 表 4 所示，与标准 Transformer (TF) 和 Pause 基线相比，Semformer 在 Wikitext 和 LAMBADA 上实现了更低的困惑度。这表明，即使对于通用文本，在写作之前预测句子的“含义”也能带来更好的预测。

上下文学习 研究人员还测试了模型在情感分析 (SST-2) 和释义检测 (MRPC) 等任务上从示例中学习 (少样本学习) 的效果。

图 7: 上下文学习性能。在少样本设置中，Semformer (绿色/黄色条) 通常优于标准 TF (蓝色) 。

图 7 显示 Semformer (特别是绿色条，\(\alpha=0.1\)) 始终优于标准 Transformer (蓝色条) ，特别是在 MRPC 数据集上。这表明规划能力有助于模型更有效地从提示中掌握任务结构。

摘要最后，他们在文本摘要任务上对模型进行了微调。摘要本质上需要在写作之前理解全部内容，这使其成为语义规划的理想候选者。

表 5: 生成式文本摘要的评估。Semformer 在 XSum、SAMSum 和 DialogSum 上实现了更高的 ROUGE 分数。

表 5 证实了这一假设: Semformer 在三个不同的数据集上实现了更高的 ROUGE 分数 (一种文本重叠度量标准) ，优于那些在没有规划目标的情况下直接进行写作的模型。

启示与结论

“聪明的汉斯”效应是大型语言模型可靠性的主要瓶颈。当模型仅仅关联相邻的 token 而不理解生成的更广泛轨迹时，它们就容易产生幻觉和逻辑错误。

Semformer 提供了一个引人注目的架构修复方案。通过明确地将规划 (预测潜在的未来) 与执行 (生成 token) 分离开来，它迫使模型学习对输出的全局理解。

关键要点

Teacher Forcing 有局限性: 标准训练鼓励模型走捷径，在需要前瞻的任务上会失败。
潜在监督是有效的: 我们不需要人类写下“计划”。自编码器可以自动从目标文本中提取语义计划来监督模型。
规划不同于计算: 仅仅添加“暂停 token” (计算时间) 是不够的。模型需要被教导如何利用这段时间来表示未来状态。

当我们致力于实现通用人工智能 (AGI) 和能够进行复杂推理的模型时，像 Semformer 这样的架构突显了内部状态和前瞻的重要性。未来的语言模型可能不仅仅通过它们所说的话来评判，还要看它们在开口之前无声思考的质量。

问题所在: Teacher Forcing 的短视#

图路径搜索测试#

解决方案: Semformer#

架构#

数学框架#

推理: 实际如何工作#

实验验证#

攻克图路径搜索任务#

收敛速度#

为什么有效？可视化注意力#

超越玩具任务: 通用语言建模#

启示与结论#

关键要点#