在深度学习的历史长河中,有些论文标志着一个转折点——一个看似简单的想法,却开启了性能和认知的新高度。由 Xavier Glorot、Antoine Bordes 和 Yoshua Bengio 于 2011 年发表的《Deep Sparse Rectifier Neural Networks》正是这样一篇工作。在此之前,训练深度神经网络是出了名的困难过程,往往需要复杂、多阶段的无监督预训练才能获得良好的效果。

当时常用的激活函数——逻辑 sigmoid 函数和双曲正切函数 (tanh)——存在一个致命缺陷:** 梯度消失问题**。当误差信号在多层网络中反向传播时,梯度会呈指数衰减,从而使网络早期层几乎无法学习。

这篇论文引入了一种受神经科学启发、令人耳目一新的简单替代方案:** 整流激活函数**,定义为:

\[ \text{rectifier}(x) = \max(0, x) \]

该函数如今被广泛称为修正线性单元 (Rectified Linear Unit, ReLU) ,它不仅规避了梯度消失问题,还引入了一种强大的特性——稀疏性。作者们证明,使用整流函数的深度网络可以直接通过标准的监督学习高效训练,并且性能往往优于基于 tanh 的网络,且无需无监督预训练。

让我们来探究一下,这个简洁优雅的思想为何能改变深度学习的格局。


背景: 大脑、稀疏性与激活函数

要理解这篇论文的贡献,我们需要先了解当时神经网络研究的现状——尤其是机器学习模型与计算神经科学发现的原理之间的差距。

来自神经科学的启示

神经科学家早已观察到,大脑中的神经元采用稀疏发放的方式工作——在任一时刻,只有极少部分神经元 (估计在 1–4% 之间) 处于活跃状态。这一机制在最大限度减少能量消耗的同时,仍能产生丰富的表征。

此外,生物神经元的行为与常用的 sigmoid 或 tanh 函数不同。一种常见的生物模型——漏积分放电模型 (Leaky Integrate-and-Fire, LIF) ——具有单侧响应曲线,只有在输入足够高时才会发放。相比之下,tanh 是反对称的: 强负输入会产生强负输出,而真实神经元并不存在这种性质。

左: 符合生物学特性的神经元发放率曲线。右: 常用的 sigmoid 和 tanh 激活函数。


稀疏性的魅力

稀疏性不仅是生物学上的趣闻——它在机器学习模型中同样备受青睐:

  • 信息解耦: 稀疏表征对输入的微小变化不敏感,使模型更容易分离变化的因果因素。
  • 高效表征: 不同复杂度的输入可以用不同比例的活跃神经元来表示。
  • 线性可分性: 稀疏的高维表征通常更容易被线性分类器分离。
  • 计算效率: 输出为零意味着可跳过后续计算。

早期引入稀疏性的技术 (如 \(L_1\) 惩罚) 往往带来的是很小但非零的激活值。而这篇论文展示了一种自然地产生真零值的方法。


核心思想: 深度整流网络

作者们用简单的整流函数取代了 sigmoid 和 tanh:

\[ \text{rectifier}(x) = \max(0, x) \]

它是分段线性的: 对负输入输出零,对正输入则线性输出。

左: 整流网络中的稀疏激活路径。右: 整流函数与其平滑近似 Softplus 的对比。

优势

  1. 真正的稀疏性: 接收负输入的神经元输出硬零值。当权重在零附近初始化时,对任何给定输入,大约 50% 的神经元会处于非活跃状态。
  2. 无梯度消失: 活跃神经元的导数为 1,使梯度在反向传播中可沿活跃路径无衰减传递。
  3. 计算简单: max 运算比 sigmoid/tanh 中使用的指数运算开销小得多。

潜在问题——以及为何它们并未影响训练

  • 零点不可微: 在 \(x = 0\) 处的拐点很少引发问题;次梯度方法可轻松处理。
  • ReLU 死亡: “死亡”神经元永不激活,也不更新权重。作者认为这反而能将学习集中于活跃神经元。
  • 激活值无界: 激活可能变得很大,因此作者在激活上引入了轻微的 \(L_1\) 惩罚,以促进稳定性和额外稀疏性。

整流函数在无监督预训练中的应用

在 2011 年,深度网络通常先用去噪自编码器进行逐层无监督预训练,然后再监督微调。作者们将这一流程延伸至整流函数。

挑战在于: 在重建层使用整流函数可能有问题——若它对一个非零目标输出零,梯度会中断传播。

作者尝试了以下解决方案:

一个使用整流函数隐藏层的简单自编码器方程。

  1. 图像数据: 在重建层使用 softplus (\(\log(1+e^x)\)),并搭配二次代价函数。

    使用 softplus 重建的二次代价函数。

  2. 文本数据: 将隐藏层激活缩放到 [0, 1],并使用 sigmoid 重建层及交叉熵代价函数。

    使用 sigmoid 重建的交叉熵代价函数。


实验与结果

图像识别

基准数据集:** MNIST**、CIFAR10NISTPNORB

表1: 三层网络在不同图像数据集上的测试错误率。

主要发现:

  • 预训练差距弥合: 无论有无预训练,整流函数的表现几乎相同 (NORB: 无预训练 16.40%,有预训练 16.46%) ,而 tanh/softplus 并非如此。
  • 硬零值取胜: 硬零值整流函数优于平滑的 softplus 激活。
  • 高天然稀疏性: 隐藏层平均零值比例约为 68–83%。

为探究稀疏性的作用,他们在 MNIST 上训练了 200 个具有不同 \(L_1\) 惩罚的整流网络。

图3: MNIST 测试错误率与平均网络稀疏度的关系。

当稀疏度在 70–85% 之间时,性能最优且稳定。


半监督场景

预训练在整流网络中是否总有价值?答案是: 当标注数据稀缺时,有帮助。

图4: NORB 测试错误率与所用带标签训练数据百分比的关系。

发现:

  • 少量数据: 预训练显著提升性能。
  • 数据充足: 性能差异消失。

整流网络可直接从大规模标注数据中学习,但当标签不足时,依然能从无标签数据中获益。


情感分析——整流函数只适用于图像吗?

为了验证其普适性,作者在一个餐厅评论数据集 (OpenTable) 上进行了情感分析。文本向量采用“词袋模型”表示,稀疏度极高 (非零值约占 0.6%) 。

表2: 在 OpenTable 数据集上的情感分析 RMSE 和稀疏度。

结果:

  • 深度带来提升: 三层整流网络 RMSE 为 0.746,优于单层网络的 0.807。
  • 整流优于 Tanh: 三层整流网络 RMSE 为 0.774,而性能更好。
  • 稀疏性保持: 隐藏层稀疏度达 53.9%。

在亚马逊情感分析基准上,他们还取得了 78.95% 的准确率——超越了此前最佳成绩 (73.72%) 。


结论与深远影响

  • 整流函数是更优的激活函数: 简单的 max(0, x) 有效缓解梯度消失,使深度网络高效可训。
  • 稀疏性极具威力: 真零值表征在生物学上合理、在计算上高效,并有助于优化和泛化。
  • 监督式深度学习变得实用: 借助整流函数,大型深度网络仅用标准反向传播就能良好训练,无需复杂的预训练。

自提出以来,ReLU 已成为深度学习的默认激活函数——从视觉领域的 CNN 到语言模型中的 Transformer 无处不在。这篇论文是一个里程碑式的案例,展示了神经科学启发下的简洁思路如何推动 AI 的重大突破,释放深度学习在各领域的潜力。