让 Dropout 在 RNN 上奏效的简单技巧

循环神经网络 (RNNs) 是序列建模的主力。从预测句子中的下一个词，到语音转录和语言翻译，它们按序处理信息的能力已经改变了无数现代应用。但和所有深度神经网络一样，它们也有一个致命弱点:** 过拟合**。

当一个模型过拟合时，它会过于完美地学习训练数据——记忆了噪声和特例，而不是通用的模式。它在训练样本上表现出色，但在未见过的数据上却步履维艰。在前馈网络中，对抗过拟合无可争议的王者是 dropout。这个想法简单而强大: 在训练期间，随机“关闭”一部分神经元，以防止它们协同依赖，从而迫使网络学习更鲁棒、更分布式的表示。

很自然地，研究人员尝试将 dropout 应用于 RNNs。结果呢？令人失望。标准的 dropout 降低了 RNN 的性能，使它们忘记了序列，而不是更好地泛化。似乎正是赋予 RNN 力量的特性——其循环的、依赖时间的记忆——恰恰是导致 dropout 失败的原因。

2014 年，Wojciech Zaremba、Ilya Sutskever 和 Oriol Vinyals 发表了论文《循环神经网络正则化》 (“Recurrent Neural Network Regularization”) ，提出了一个极其简单的修正方案。通过调整 dropout 在 LSTM 网络内部的应用方式和位置，他们展示了如何有效地对 RNN 进行正则化——从而解锁了更大、更强大的模型，并在多个领域取得了当时的最佳成果。让我们来解析一下这种方法是如何彻底改变循环模型训练的。

背景: RNN、LSTM 与时间带来的麻烦

在深入探讨解决方案之前，回顾一下 RNN 和 LSTM 的工作原理，以及为什么它们给 dropout 带来了独特的挑战，会很有帮助。

循环神经网络 (RNNs)

与独立处理输入的标准前馈网络不同，RNN 专为文本、音频或时间序列等序列数据而设计。在每个时间步，RNN 接收一个输入 (例如一个词或一个声学帧) ，并将其与前一个时间步的隐藏状态结合起来。这个隐藏状态充当记忆，让网络能够跨时间传递信息。

一个简单的 RNN 接收来自下一层的输入和来自前一时间步的隐藏状态，以计算新的隐藏状态。

图 1: RNN 通过其隐藏状态在时间上传递信息，从而能够建模时间依赖关系。

在数学上，隐藏状态的更新通常写为:

经典 RNN 隐藏状态更新的方程。

图 2: RNN 使用前一个状态和当前输入的非线性变换来计算新的隐藏状态。

尽管这种设计十分优雅，但在学习长期关系时会遇到一个根本性问题:** 梯度消失/爆炸**。当梯度在多个时间步之间反向传播时，它们可能会趋近于零或无限增大，导致模型难以学习到远距离事件间的联系。

记忆问题与 LSTM

为了解决这一问题，Hochreiter 和 Schmidhuber 提出了 长短期记忆 (LSTM) 架构。LSTM 为 RNN 增加了一个记忆单元 $ c_t $，它可以无缝地在时间步之间传递信息。这个单元如同信息高速公路，通过若干“门”来控制信息的存储、更新与输出。

LSTM 使用三个关键的门:

遗忘门 ($ f $) – 决定从上一状态中丢弃哪些信息。
输入门 ($ i $) – 控制要添加哪些新信息。
输出门 ($ o $) – 决定单元内容的哪一部分作为隐藏状态输出。

一个 LSTM 记忆单元的示意图，显示了输入门、遗忘门和输出门如何控制单元状态。

图 3: LSTM 单元结构。门控机制调节信息的流入、流出与单元内部流动。

LSTM 的方程可表示为:

LSTM 的核心方程，包括门的计算、单元状态更新及最终隐藏状态的计算。

图 4: LSTM 操作的数学公式，描述门控如何更新记忆单元与隐藏状态。

这些机制使得 LSTM 能够在多个时间步上保持信息，从而比普通 RNN 更有效地建模长程依赖。

核心方法: 以正确的方式正则化 LSTM

那么，为什么 dropout 会在 RNN 和 LSTM 中失效呢？问题出在 dropout 噪声被应用的位置。

在典型的 RNN 层中，我们可以区分两类连接:

循环连接 – 将信息跨时间传递，从 $ h_{t-1}^l $ 到 $ h_t^l $。
非循环 (垂直) 连接 – 将信息在层间传递，从 $ h_t^{l-1} $ 到 $ h_t^l $。

如果将 dropout 直接应用在循环连接上，就意味着在每个时间步随机擦除部分隐藏状态。想象一下: 你在听一个故事，但有人不断随机删除你记忆中的片段——想保持上下文几乎不可能。循环噪声会随时间不断累积，最终破坏信息流。

作者提出了一个简单修正: 只在非循环连接上应用 dropout。

一个多层 RNN 展开的示意图。层间的虚线箭头表示应用了 dropout，而时间方向上的实线则表示未应用。

图 5: Dropout (虚线箭头) 垂直应用于层间，而不是水平应用于时间步之间。

在数学上，这个修改看似微小，却非常强大。dropout 算子 $ \mathbf{D} $，即随机将部分分量置零，只应用在来自下层的输入 $ h_t^{l-1} $ 上:

$修改后的 LSTM 方程，其中 dropout 算子 D 仅应用于 h_t^{l-1} 项。$

图 6: 仅在 $ h_t^{l-1} $ 上应用 dropout，可在不破坏长期依赖的前提下实现网络正则化。

通过保留循环连接的完整性，模型既能保持长期记忆能力，又能在层间获得 dropout 带来的正则化效果。

信息传播的可视化有助于理解其原理。如下图所示，在时间步 $ t-2 $ 发生的事件可以通过时间方向的水平路径和层间的垂直路径影响到 $ t+2 $ 的预测。在这种 dropout 方案下，信息仅被干扰 $ L+1 $ 次 (其中 $ L $ 为层数) ，且与序列长度无关。

深层 LSTM 中信息流动路径示意图。信息在时间上水平传播，在网络层之间垂直传播。

图 7: 信息在时间和层次间的流动。Dropout 仅在层转换处影响信号，从而实现一致、可控的正则化。

这种巧妙分离既保持了记忆的完整性，又为垂直计算注入了有益的随机性——在鲁棒性与记忆保持之间达成理想平衡。

实验与结果: 验证这一理论

作者们在四个领域验证了他们的方法——语言建模、语音识别、机器翻译和图像字幕生成——每个实验都给出了定量结果。

1. 语言建模

语言建模是根据已有的词预测下一个词。团队在 Penn Tree Bank (PTB) 数据集上进行了测试，使用了困惑度 (perplexity) 指标 (越低越好) 。

表格展示了在 Penn Tree Bank 数据集上的困惑度结果。经过正则化的 LSTM 明显优于未正则化的基线模型。

表 1: PTB 数据集上的词级困惑度。

一个未正则化的 LSTM (每层仅 200 个单元) 因严重过拟合，测试困惑度为 114.5。相比之下，一个大型正则化 LSTM (每层 1500 个单元，65% dropout) 取得了显著更低的 78.4。

一个由 38 个正则化 LSTM 组成的集成模型更是达到了 68.7 的记录困惑度，确立了该方法在语言建模领域的新标杆。

2. 语音识别

团队在内部冰岛语语音数据集上评估了 LSTM 的性能，使用帧级准确率作为指标。

表格展示了在冰岛语语音数据集上的帧级准确率。正则化 LSTM 取得更高的验证准确率。

表 2: 在声学建模任务上的帧级准确率。

正则化模型取得了 70.5% 调验证准确率，高于未正则化基线 (68.9%) 。虽然 dropout 注入噪声略降训练准确率，但模型在未见语音上的表现更好——这是成功正则化的典型特征。

3. 机器翻译

在英法翻译任务中，研究人员训练了多层 LSTM 作为条件语言模型，输入为拼接的源语和目标语句。

表格展示了英法翻译任务的结果。正则化 LSTM 改善了困惑度与 BLEU 分数。

表 3: 在 WMT’14 数据集上的英法翻译性能。

正则化再次带来显著提升: 相比未正则化版本，正则化 LSTM 取得了更低的困惑度 (5.0 vs. 5.8) 和更高的 BLEU 分数 (29.03 vs. 25.9) 。尽管仍未超越当时最好的短语系统，这一结果证明 dropout 能有效提升神经机器翻译质量。

4. 图像字幕生成

最后，他们将这种 dropout 变体应用于 Show and Tell 图像字幕生成模型中。该结构使用 CNN 编码图像，并由 LSTM 解码生成文字描述。

表格展示了图像字幕生成任务的结果。正则化模型优于单个未正则化模型。

表 4: 在 MSCOCO 图像字幕生成任务上的结果。

正则化模型比未正则化版本获得更佳的困惑度和 BLEU 分数。更有趣的是，它的性能接近一个包含十个未正则化模型的集成模型，显示出 dropout 能在单一高效网络中达到类似集成模型的鲁棒性。

结论与深远影响

《循环神经网络正则化》的核心洞察极其简单却具有变革意义。通过区分循环连接与垂直连接的性质，Zaremba 等人提出了一种有原则的 dropout 应用方式，使记忆保持不再受干扰。

这一思想可概括为一句话:

要有效地正则化 RNN，应在层间应用 dropout，而非时间步之间。

该方法使 LSTM 能够优雅地扩展到更大架构，减少过拟合，并在语言建模到图像字幕生成等任务上提升泛化能力。如今，这一技巧——常被称为变分 Dropout (variational dropout)——已成为深度学习框架与研究中的标配，成为现代序列建模的基石。

这正是一个绝佳的例证，展示了对模型内在机制的深入理解如何引出一个优雅、简单的改动——却对神经网络的训练方式产生巨大影响。

背景: RNN、LSTM 与时间带来的麻烦#

循环神经网络 (RNNs)#

记忆问题与 LSTM#

核心方法: 以正确的方式正则化 LSTM#

实验与结果: 验证这一理论#

1. 语言建模#

2. 语音识别#

3. 机器翻译#

4. 图像字幕生成#

结论与深远影响#