ReLU如何改变深度学习：从max(0,x)说起

在深度学习的历史长河中，有些论文标志着一个转折点——一个看似简单的想法，却开启了性能和认知的新高度。由 Xavier Glorot、Antoine Bordes 和 Yoshua Bengio 于 2011 年发表的《Deep Sparse Rectifier Neural Networks》正是这样一篇工作。在此之前，训练深度神经网络是出了名的困难过程，往往需要复杂、多阶段的无监督预训练才能获得良好的效果。

当时常用的激活函数——逻辑 sigmoid 函数和双曲正切函数 (tanh)——存在一个致命缺陷:** 梯度消失问题**。当误差信号在多层网络中反向传播时，梯度会呈指数衰减，从而使网络早期层几乎无法学习。

这篇论文引入了一种受神经科学启发、令人耳目一新的简单替代方案:** 整流激活函数**，定义为:

\[ \text{rectifier}(x) = \max(0, x) \]

该函数如今被广泛称为修正线性单元 (Rectified Linear Unit, ReLU) ，它不仅规避了梯度消失问题，还引入了一种强大的特性——稀疏性。作者们证明，使用整流函数的深度网络可以直接通过标准的监督学习高效训练，并且性能往往优于基于 tanh 的网络，且无需无监督预训练。

让我们来探究一下，这个简洁优雅的思想为何能改变深度学习的格局。

背景: 大脑、稀疏性与激活函数

要理解这篇论文的贡献，我们需要先了解当时神经网络研究的现状——尤其是机器学习模型与计算神经科学发现的原理之间的差距。

来自神经科学的启示

神经科学家早已观察到，大脑中的神经元采用稀疏发放的方式工作——在任一时刻，只有极少部分神经元 (估计在 1–4% 之间) 处于活跃状态。这一机制在最大限度减少能量消耗的同时，仍能产生丰富的表征。

此外，生物神经元的行为与常用的 sigmoid 或 tanh 函数不同。一种常见的生物模型——漏积分放电模型 (Leaky Integrate-and-Fire, LIF) ——具有单侧响应曲线，只有在输入足够高时才会发放。相比之下，tanh 是反对称的: 强负输入会产生强负输出，而真实神经元并不存在这种性质。

左: 符合生物学特性的神经元发放率曲线。右: 常用的 sigmoid 和 tanh 激活函数。

稀疏性的魅力

稀疏性不仅是生物学上的趣闻——它在机器学习模型中同样备受青睐:

信息解耦: 稀疏表征对输入的微小变化不敏感，使模型更容易分离变化的因果因素。
高效表征: 不同复杂度的输入可以用不同比例的活跃神经元来表示。
线性可分性: 稀疏的高维表征通常更容易被线性分类器分离。
计算效率: 输出为零意味着可跳过后续计算。

早期引入稀疏性的技术 (如 \(L_1\) 惩罚) 往往带来的是很小但非零的激活值。而这篇论文展示了一种自然地产生真零值的方法。

核心思想: 深度整流网络

作者们用简单的整流函数取代了 sigmoid 和 tanh:

\[ \text{rectifier}(x) = \max(0, x) \]

它是分段线性的: 对负输入输出零，对正输入则线性输出。

左: 整流网络中的稀疏激活路径。右: 整流函数与其平滑近似 Softplus 的对比。

优势

真正的稀疏性: 接收负输入的神经元输出硬零值。当权重在零附近初始化时，对任何给定输入，大约 50% 的神经元会处于非活跃状态。
无梯度消失: 活跃神经元的导数为 1，使梯度在反向传播中可沿活跃路径无衰减传递。
计算简单: max 运算比 sigmoid/tanh 中使用的指数运算开销小得多。

潜在问题——以及为何它们并未影响训练

零点不可微: 在 \(x = 0\) 处的拐点很少引发问题；次梯度方法可轻松处理。
ReLU 死亡: “死亡”神经元永不激活，也不更新权重。作者认为这反而能将学习集中于活跃神经元。
激活值无界: 激活可能变得很大，因此作者在激活上引入了轻微的 \(L_1\) 惩罚，以促进稳定性和额外稀疏性。

整流函数在无监督预训练中的应用

在 2011 年，深度网络通常先用去噪自编码器进行逐层无监督预训练，然后再监督微调。作者们将这一流程延伸至整流函数。

挑战在于: 在重建层使用整流函数可能有问题——若它对一个非零目标输出零，梯度会中断传播。

作者尝试了以下解决方案:

一个使用整流函数隐藏层的简单自编码器方程。

图像数据: 在重建层使用 softplus (\(\log(1+e^x)\))，并搭配二次代价函数。
文本数据: 将隐藏层激活缩放到 [0, 1]，并使用 sigmoid 重建层及交叉熵代价函数。

实验与结果

图像识别

基准数据集:** MNIST**、CIFAR10、NISTP、NORB。

表1: 三层网络在不同图像数据集上的测试错误率。

主要发现:

预训练差距弥合: 无论有无预训练，整流函数的表现几乎相同 (NORB: 无预训练 16.40%，有预训练 16.46%) ，而 tanh/softplus 并非如此。
硬零值取胜: 硬零值整流函数优于平滑的 softplus 激活。
高天然稀疏性: 隐藏层平均零值比例约为 68–83%。

为探究稀疏性的作用，他们在 MNIST 上训练了 200 个具有不同 \(L_1\) 惩罚的整流网络。

图3: MNIST 测试错误率与平均网络稀疏度的关系。

当稀疏度在 70–85% 之间时，性能最优且稳定。

半监督场景

预训练在整流网络中是否总有价值？答案是: 当标注数据稀缺时，有帮助。

图4: NORB 测试错误率与所用带标签训练数据百分比的关系。

发现:

少量数据: 预训练显著提升性能。
数据充足: 性能差异消失。

整流网络可直接从大规模标注数据中学习，但当标签不足时，依然能从无标签数据中获益。

情感分析——整流函数只适用于图像吗？

为了验证其普适性，作者在一个餐厅评论数据集 (OpenTable) 上进行了情感分析。文本向量采用“词袋模型”表示，稀疏度极高 (非零值约占 0.6%) 。

表2: 在 OpenTable 数据集上的情感分析 RMSE 和稀疏度。

结果:

深度带来提升: 三层整流网络 RMSE 为 0.746，优于单层网络的 0.807。
整流优于 Tanh: 三层整流网络 RMSE 为 0.774，而性能更好。
稀疏性保持: 隐藏层稀疏度达 53.9%。

在亚马逊情感分析基准上，他们还取得了 78.95% 的准确率——超越了此前最佳成绩 (73.72%) 。

结论与深远影响

整流函数是更优的激活函数: 简单的 max(0, x) 有效缓解梯度消失，使深度网络高效可训。
稀疏性极具威力: 真零值表征在生物学上合理、在计算上高效，并有助于优化和泛化。
监督式深度学习变得实用: 借助整流函数，大型深度网络仅用标准反向传播就能良好训练，无需复杂的预训练。

自提出以来，ReLU 已成为深度学习的默认激活函数——从视觉领域的 CNN 到语言模型中的 Transformer 无处不在。这篇论文是一个里程碑式的案例，展示了神经科学启发下的简洁思路如何推动 AI 的重大突破，释放深度学习在各领域的潜力。

背景: 大脑、稀疏性与激活函数#

来自神经科学的启示#

稀疏性的魅力#

核心思想: 深度整流网络#

优势#

潜在问题——以及为何它们并未影响训练#

整流函数在无监督预训练中的应用#

实验与结果#

图像识别#

半监督场景#

情感分析——整流函数只适用于图像吗？#

结论与深远影响#