ChatGPT 问世之前：生成式预训练如何彻底改变 NLP（GPT-1 论文详解）

在今天的人工智能世界里，像 ChatGPT 这样的模型几乎如同魔法。它们能够编写代码、创作诗歌，并以惊人的流畅度回答复杂问题。但这场革命并非一夜之间发生——它建立在一系列基础性突破之上。其中最关键的一项，是 OpenAI 在 2018 年发表的一篇论文，题为 《通过生成式预训练提升语言理解能力》。

这篇论文介绍了我们现在所称的 GPT-1，提出了一个简单却极其有效的框架，改变了自然语言处理 (NLP) 的发展轨迹。其核心思想是: 首先让模型从海量原始文本中学习语言模式，然后将这些知识针对特定任务进行微调。

当时，NLP 面临着一个典型的数据瓶颈。无标签的文本 (如维基百科、书籍、文章) 非常丰富，但训练模型以执行问答或情感分析等专门任务所需的有标签数据集却规模小、成本高，且创建过程耗时。这种稀缺性阻碍了该领域的进步。

OpenAI 的研究人员提出了一个强大的两步解决方案:

生成式预训练 (Generative Pre-training) : 在一个多样化的无标签文本语料库上训练一个大型神经网络，让它做一件简单的事——预测序列中的下一个词。这迫使模型深入、隐式地理解语法、事实，甚至推理能力。
判别式微调 (Discriminative Fine-tuning) : 利用这个预训练好的模型，使用规模小得多的有标签数据集，将其适配到特定任务上。

事实证明，这种方法改变了游戏规则。一个单一的、任务无关的模型，在 12 个基准任务中的 9 个上，表现超过了经过高度工程化、为特定任务设计的架构，为该领域树立了新标准。在这篇文章中，我们将深入探讨这篇开创性的论文，以理解其工作原理及其为何影响如此深远。

背景: 2018 年的 NLP 格局

在 GPT 出现之前，NLP 领域利用无标签数据的主要方式是通过 预训练词嵌入，如 Word2Vec 和 GloVe。这些模型为每个词分配一个密集向量，捕捉词与词之间的语义关系。例如，“国王”的向量减去“男人”的向量再加上“女人”的向量，结果会非常接近“女王”的向量。

这是一个巨大的进步，但也有其局限性。词嵌入只捕捉了词汇层面的信息，忽略了完整的句子含义，而后者在很大程度上依赖于上下文、语序和句法。像 ELMo 和 ULMFiT 这样的模型开始通过使用 LSTM (长短期记忆网络) 创建 上下文 嵌入来解决这个问题，使得一个词的表示取决于它所在的句子。

然而，这些模型通常涉及复杂的训练方案，或需要大量针对特定任务的架构调整。OpenAI 的论文通过采用一种不同的神经架构——Transformer，提出了一种更简单、更具可扩展性且最终更强大的方法。

核心方法: 一个两阶段框架

GPT 框架的美妙之处在于其简洁性——两个清晰的阶段:** 无监督预训练**，随后是 有监督微调。

阶段一: 无监督生成式预训练

第一阶段专注于学习一种通用的语言表示。模型在 BooksCorpus 上进行训练，这是一个包含超过 7000 本未出版书籍的数据集，涵盖了冒险、奇幻和浪漫等多种类型。与其他语料库不同，BooksCorpus 包含长篇连续文本，使模型能够学习长程依赖关系。

训练目标是标准的 语言建模: 给定一个词序列，预测下一个词。形式上，目标是最大化:

语言建模的目标函数。

标准的语言建模目标: 在给定固定大小的上下文情况下，最大化预测下一个词的对数似然。

这个任务迫使模型内化大量的知识。要补全“第一个登上月球的人是尼尔…”，它必须知道“尼尔·阿姆斯特朗”这个事实。要完成“她打碎了玻璃杯后，它…”，它必须掌握因果关系。

该架构是一个 12 层仅解码器 Transformer，带有掩码自注意力机制。与原始的 Transformer (编码器 + 解码器) 不同，它只使用解码器堆栈——这非常适合语言建模，因为自注意力机制可以考虑 上下文中所有前面的词，从而比 LSTM 更有效地处理长程依赖。

文本输入经过分词处理，转换为词嵌入，与位置嵌入相结合，然后经过 12 个相同的 Transformer 模块: 多头自注意力层，后接逐位置前馈网络。

Transformer 解码器模型的方程。

定义 Transformer 解码器计算的方程: 词元 + 位置嵌入、顺序的 Transformer 模块，以及词汇表上的 softmax 输出。

最终的输出是在词汇表上的下一个词元的概率分布。在数百万个句子上进行训练，使模型参数 (\(\Theta\)) 具备了对语言的深刻理解。

阶段二: 有监督判别式微调

一旦预训练完成，模型就会被适配到特定任务上。对于一个有标签的数据集 (例如，标记为“垃圾邮件”/“非垃圾邮件”的电子邮件) ，我们在预训练的 Transformer 之上添加一个简单的线性层，后接一个 softmax 层。这个输出层是唯一需要从头开始训练的部分。

用于微调的 softmax 预测层。

在预训练的 Transformer 之上添加一个任务特定的线性层 + softmax 层，用于分类。

微调的目标为:

有监督微调的目标函数。

有监督微调旨在最大化在给定输入序列情况下正确标签的概率。

性能随着一个巧妙的改进而进一步提升: 在微调过程中，将阶段一的语言建模目标作为 辅助损失 一并使用。

包含辅助语言建模损失的组合目标函数。

组合了任务特定损失和语言建模损失的总目标，由 \(\lambda\) 加权。

这样做的好处包括:

起到正则化作用，防止模型“忘记”其丰富的预训练语言知识。
加速收敛，帮助模型更快地掌握新任务。

秘诀: 任务特定的输入转换

如何将一个期望接收单一连续文本序列的模型适配到像蕴含或问答这类结构化输入任务？作者们使用了一个简单而强大的想法: 将结构化输入重新格式化为带有分隔符标记的单一有序序列。

展示 GPT 架构以及针对不同任务的输入转换的图表。

图 1: 共享的 Transformer 核心，以及用于分类、蕴含、相似度和多项选择等不同任务的输入转换格式。

关键格式:

分类: 一个带有开始/结束标记的单句。
文本蕴含: 前提 + 分隔符 + 假设。
相似度: 两个序列 (A + 分隔符 + B，以及 B + 分隔符 + A) ，分别运行，最后一层的输出相加。
问答 / 常识推理: 对每个候选答案，将上下文 + 问题 + 分隔符 + 答案拼接起来，分别处理，然后通过 softmax 选择。

这种“遍历式”方法意味着每个任务仅需引入极少的新参数，使迁移学习效率极高。

实验与惊人成果

该框架在四个类别、共 12 个数据集上进行了测试: 自然语言推断 (NLI) 、问答 (QA) 、语义相似度和分类。

列出用于评估的各种 NLP 任务和数据集的表格。

表 1: 用于评估的多样化任务和数据集，涵盖推断、问答、相似度和分类。

单一的 GPT 模型在 12 个任务中的 9 个上达到了最先进水平——击败了专门构建的模型，有时甚至超过了集成模型。

自然语言推断 (NLI)

NLI 任务要求判断两个句子是矛盾、蕴含还是中立关系。GPT 在五个数据集中的四个上超越了此前最佳模型。

自然语言推断任务的结果。

表 2: GPT-1 在 MNLI、SNLI、SciTail 和 QNLI 上超越了先前模型。

问答与常识推理

在 RACE 数据集上，GPT 将最先进水平提升了 5.7%。在 Story Cloze 数据集上，它比此前最佳模型提升了 8.9%，达到了 86.5% 的准确率。

问答与常识推理任务的结果。

表 3: GPT-1 在问答和常识推理任务上取得了巨大提升。

语义相似度与分类

在 CoLA (语法性判断) 任务上，GPT 得分为 45.4，高于此前的 35.0，展示了它学到的语法直觉。在释义检测和情感分析任务中，它同样表现强劲。

GLUE 基准测试中语义相似度与分类任务的结果。

表 4: GPT-1 在 GLUE 基准测试任务中取得顶级成绩。

总体来看，这是一次压倒性的成功。一个统一的框架在广泛的 NLP 挑战中占据了主导地位。

分析: 为何效果如此卓越？

该论文对这种方法为何奏效提供了深入的洞察。

预训练层的力量

通过改变迁移层数，作者们观察到性能随着迁移层数的增加而稳步提升，直到全部 12 层。

显示迁移更多层的影响以及预训练期间零样本性能的图表。

图 2 (左) : 在 RACE 和 MultiNLI 中，迁移更多的层会带来更好的结果。

零样本行为: 语言建模的魔力

研究人员测试了预训练模型是否能在无微调的情况下，通过简单的启发式方法执行任务。随着预训练的推进，零样本分数稳步提升——证明了优秀的语言模型可以学到可迁移的技能。

与 LSTM 相比，Transformer 在零样本迁移中表现得更稳定、更有效。

消融研究

消融研究结果，显示不同模型组件的影响。

表 5: 通过消融分析评估各组件的影响。

主要发现:

无预训练: 平均分下降了 14.8%——这清晰地证明了预训练的价值。
Transformer vs. LSTM: LSTM 平均分低了 5.6%——自注意力机制至关重要。
无辅助语言建模目标: 移除它会降低性能，尤其是在大型数据集上。

结论与深远影响

《通过生成式预训练提升语言理解能力》 远不止是渐进式的改进——它在 NLP 领域奠定了一个 新范式。

其简单、可扩展的 生成式预训练 + 判别式微调 框架成为主流方法。这个蓝图直接催生了 GPT-2、GPT-3，并最终推动了 ChatGPT 背后的模型，将研究焦点从手工架构设计转向了模型、数据与计算的规模化。

这篇论文是现代人工智能的重要基石。理解其核心原理，对于理解我们今天所见证的人工智能革命至关重要。

背景: 2018 年的 NLP 格局#

核心方法: 一个两阶段框架#

阶段一: 无监督生成式预训练#

阶段二: 有监督判别式微调#

秘诀: 任务特定的输入转换#

实验与惊人成果#

自然语言推断 (NLI)#

问答与常识推理#

语义相似度与分类#

分析: 为何效果如此卓越？#

预训练层的力量#

零样本行为: 语言建模的魔力#

消融研究#

结论与深远影响#