像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 彻底改变了人工智能,展现出了常常让人感觉像是真正推理的能力。然而,在这些令人印象深刻的系统表面之下,是一个出奇简单的训练范式: 下一个 token 预测 (next-token prediction) 。 这些模型被训练为根据之前的单词来预测紧接着的下一个单词。
虽然有效,但这种“贪婪”的方法有一个根本性的缺陷。它迫使模型以线性的、从左到右的方式思考,而不会停下来进行规划。试想一下,如果只能一个词一个词地思考,而不去展望句子的走向,要写出一篇复杂的文章或解决一个导航谜题会有多难。
这种局限性导致了一种被称为“捷径学习 (shortcut learning) ”或“聪明的汉斯 (Clever Hans) ”效应的现象,即模型依赖于肤浅的模式,而非真正的理解。
在这篇深度文章中,我们将探讨论文 “Semformer: Transformer Language Models with Semantic Planning” 中提出的一个迷人的解决方案。研究人员引入了一种新颖的架构,强制模型在生成响应之前构建一个高层的“语义规划”。我们将剖析短视训练的问题,分解 Semformer 架构,并分析“三思而后言”如何让模型解决标准 Transformer 根本无法解决的问题。
问题所在: Teacher Forcing 的短视
要理解为什么我们需要一种新的架构,我们首先需要了解标准模型是如何失败的。
目前的 LLM 是使用 Teacher Forcing (教师强制) 进行训练的。在训练过程中,模型被输入一系列真实 (ground-truth) token (即“老师”的答案) ,并被要求预测下一个 token。从数学上讲,对于序列 \(x\),模型试图在给定先前 token \(x_{ 问题在于这创造了一条捷径。如果模型可以仅根据最后几个词 (局部上下文) 猜出下一个 token,它就会这样做,从而忽略了更广泛的问题结构。 作者使用一个图路径搜索任务来说明这一失败。这是一个“最小前瞻”任务: 给定一个起始节点、一个目标节点和连接列表 (图) ,找出从起点到终点的路径。 请看上面的 图 1 。 这就是 聪明的汉斯作弊 (Clever Hans cheat) 。 模型记住了局部转换,而不是学习算法来向前看并找到连通路径。正如我们在实验部分将看到的,标准 GPT-2 模型在这项任务上彻底失败,因为它们无法在迈出第一步之前“停下来思考”目的地。 Semformer (语义 Transformer) 的核心洞察简单而深刻: 人类并不完全依赖历史语境。 我们会根据问题制定一个抽象的计划,然后该计划会指导我们的回答。 Semformer 通过在标准解码器 (Decoder-only) Transformer 中引入两阶段生成过程来实现这一点: Semformer 由两个主要组件组成: 语言模型 (学生) 和自编码器 (老师/向导) 。 让我们分解一下 图 2 : 本质上,模型被训练为在实际生成具体单词之前,先幻化出未来答案的“大意”。 训练涉及三个不同的损失函数,它们组合在一起。 1. 语言建模损失 (\(\mathcal{L}_{\mathrm{LM}}\))
这是标准目标。模型必须预测序列中的下一个 token。注意,规划 token (\(d\)) 是输入上下文的一部分,但模型不会因为使用标准交叉熵“预测”规划 token 本身而受到惩罚;它只是利用它们来预测随后的文本。 2. 自编码器损失 (\(\mathcal{L}_{\mathrm{AE}}\))
为了确保规划 token 有意义,我们需要一个关于计划应该是什么样子的“金标准”。自编码器提供了这一点。它将目标响应 (\(x_{n+1:T}\)) 编码为潜在向量 \(Z\),并尝试从 \(Z\) 重构响应。如果自编码器可以从 \(Z\) 重构句子,那么 \(Z\) 必定包含了所有必要的语义信息。 3. 表示预测损失 (\(\mathcal{L}_{\mathrm{RP}}\))
这是一座桥梁。我们强制语言模型的规划 token 看起来像自编码器的潜在向量 \(Z\)。我们使用均方误差 (\(L_2\)) 损失来最小化预测的计划与未来的实际语义摘要之间的距离。 总训练目标
最终的损失函数结合了所有三个要素。\(\alpha\) 是一个超参数,用于权衡规划任务相对于生成任务的重要性。 在训练期间,自编码器通过查看答案来“作弊”以创建目标计划 \(Z\)。但在推理 (测试) 期间,我们没有答案。 这就是神奇之处。因为语言模型被训练为最小化 \(\mathcal{L}_{\mathrm{RP}}\),它已经学会了仅基于输入前缀生成有效的规划向量 \(Z\)。它有效地在具体生成未来之前抽象地预测了未来。 这种额外的复杂性真的有帮助吗?研究人员在特定的图路径搜索任务和通用语言建模上都测试了 Semformer。 主要的测试平台是引言中描述的图问题。研究人员将 Semformer 与以下模型进行了比较: 结果如 表 1 (包含在下图中) 所示,令人震惊。 关键要点: Semformer 不仅学会了任务,而且学得非常快。 在 图 3 中,红线 (Semformer) 在 50,000 步内飙升至高准确率。词袋 (BoW) 基线 (绿色) 试图在不考虑顺序的情况下预测未来节点的集合,其速度要慢得多且准确率较低。Teacher-less 方法 (橙色) 在这些设置中完全未能学习到模式。 为了证明模型实际上是在“规划”而不仅仅是运气好,研究人员可视化了注意力权重——即模型在做决定时关注的地方。 在 图 6 中: 至关重要的是,作者希望确保这不仅仅是针对图问题的一个把戏。他们在 OpenWebText (用于 GPT-2 的相同数据) 上训练了一个 1.25 亿参数的模型,看看语义规划是否有助于英语写作。 困惑度 (Perplexity) 分数
困惑度是衡量模型困惑程度的指标 (越低越好) 。 如 表 4 所示,与标准 Transformer (TF) 和 Pause 基线相比,Semformer 在 Wikitext 和 LAMBADA 上实现了更低的困惑度。这表明,即使对于通用文本,在写作之前预测句子的“含义”也能带来更好的预测。 上下文学习
研究人员还测试了模型在情感分析 (SST-2) 和释义检测 (MRPC) 等任务上从示例中学习 (少样本学习) 的效果。 图 7 显示 Semformer (特别是绿色条,\(\alpha=0.1\)) 始终优于标准 Transformer (蓝色条) ,特别是在 MRPC 数据集上。这表明规划能力有助于模型更有效地从提示中掌握任务结构。 摘要
最后,他们在文本摘要任务上对模型进行了微调。摘要本质上需要在写作之前理解全部内容,这使其成为语义规划的理想候选者。 表 5 证实了这一假设: Semformer 在三个不同的数据集上实现了更高的 ROUGE 分数 (一种文本重叠度量标准) ,优于那些在没有规划目标的情况下直接进行写作的模型。 “聪明的汉斯”效应是大型语言模型可靠性的主要瓶颈。当模型仅仅关联相邻的 token 而不理解生成的更广泛轨迹时,它们就容易产生幻觉和逻辑错误。 Semformer 提供了一个引人注目的架构修复方案。通过明确地将规划 (预测潜在的未来) 与执行 (生成 token) 分离开来,它迫使模型学习对输出的全局理解。 当我们致力于实现通用人工智能 (AGI) 和能够进行复杂推理的模型时,像 Semformer 这样的架构突显了内部状态和前瞻的重要性。未来的语言模型可能不仅仅通过它们所说的话来评判,还要看它们在开口之前无声思考的质量。
图路径搜索测试

解决方案: Semformer
架构

数学框架





推理: 实际如何工作
实验验证
攻克图路径搜索任务

G(20,5) 准确率为 4.8%) 上几乎完全失败。它无法向前看。收敛速度

为什么有效?可视化注意力

超越玩具任务: 通用语言建模



启示与结论
关键要点
](https://deep-paper.org/en/paper/2409.11143/images/cover.png)