十多年来,深度学习的口号一直是 “越深越好”。这个逻辑听起来很自然: 神经网络的每一层都在上一层的基础上学习,从而捕捉越来越复杂的特征。最早的几层识别边缘和颜色,中间层将这些组合成纹理和形状,更深的层则识别出诸如人脸、汽车或动物等抽象概念。这种优雅的分层表征结构解释了为什么深度模型彻底改变了计算机视觉、语言建模以及众多人工智能领域。

但如果这种普遍认知并不完整——甚至是误导性的呢?如果在达到一定深度后,继续增加层数不仅不能带来效益递减,而是会主动削弱网络的泛化能力呢?

在 NeurIPS 2023 上发表的一项令人瞩目的研究《隧道效应: 在深度神经网络中构建数据表征》挑战了“深度永远有益”的长期假设。作者们发现,足够深且过参数化的网络会自然分裂成两个功能区域:

  • 提取器 (Extractor) : 构建丰富且线性可分的表征;
  • 隧道 (Tunnel) : 强烈压缩这些表征,对准确率贡献有限,甚至可能阻碍泛化。

本文将探讨研究人员如何发现这种 隧道效应,隧道内部发生了什么、它的意义何在,以及它可能如何重塑我们设计、训练与使用深度神经网络的方式。


窥探网络内部: 表征的测量方式

为了可视化神经网络内部的表征变化,研究者们使用了几种分析工具来逐层追踪数据在网络中的演化:

  1. 线性探针准确率 在网络训练完成后,将一个简单的线性分类器插入某个隐藏层的输出。如果该分类器的准确率很高,说明该层的表征已经是线性可分的,包含足够的判别信息来完成分类任务。此指标揭示了每一层对任务的“理解”程度。

  2. 表征的数值秩 数值秩可视作表征多样性或维度的衡量标准。高秩意味着表征丰富、多维;低秩则说明数据被压缩到较小的空间。通过比较各层的秩变化,研究人员能观察表征复杂性在传播过程中的演变。

凭借这两个指标,再结合 中心核对齐 (Centered Kernel Alignment, CKA) 等相似性度量方法,他们描绘出深度模型的内部“地理图”,并揭示了其中潜伏的隧道。


发现“隧道效应”

作者用隧道效应假说总结他们的主要观点:

足够大的神经网络会形成一种结构,其中的层划分为两个不同的群组。前者——“提取器”——创造线性可分的表征;后者——“隧道”——压缩这些表征,从而限制模型对新数据的泛化能力。

为了直观地呈现这一过程,考虑一个在 CIFAR-10 数据集上训练的 VGG19 网络:

VGG19 中的隧道效应。线性探针准确率 (蓝色) 迅速饱和,而表征秩 (红色) 崩塌,标志着隧道区域 (青色阴影部分) 。

图 1: 在 CIFAR-10 上训练的 VGG19 的隧道效应。阴影区域表示隧道层,在这些层中准确率趋于平稳,而秩发生崩塌。

在模型的早期阶段, 蓝线 (线性探针准确率) 稳步上升——这些层正在构建越来越好的表征。大约在第 7 层附近,准确率达到峰值并饱和,标志着提取器部分的结束。从那以后,尽管层数继续增加,准确率几乎不再提升。

与此同时, 红色虚线 (数值秩) 急剧下降: 表征结构被压缩成低维子空间。更深的层——即隧道——不再丰富表征,而是对其进行精化和收缩。

这种模式不仅存在于 VGG19 中,也在多种架构中出现,从简单的 MLP 到更深的残差模型:

隧道效应在不同架构中的表现: (a) 在 CIFAR-10 上训练的 MLP-12 和 (b) ResNet-34。隧道区域 (阴影部分) 一致出现,但在 ResNet 中出现得更晚。

图 2: 隧道效应在不同网络中普遍存在,展现出一致的提取器—隧道转换模式。

一项全面的对比总结如下,展示了各模型提取器与隧道的分布比例:

总结图表,显示了每个模型达到最终准确率 95% 和 98% 所在的层,标志着隧道的开始。

图/表: 隧道起点 (模型达到 95–98% 最终准确率的位置) 。括号内为用于表征构建 (提取器) 的层数比例。


隧道内部: 压缩与崩塌

那么,隧道内部究竟发生了什么?为什么表征会崩塌?

研究者利用 类间方差类内方差 (类别之间与类别内部的离散度) 来可视化表征的演变。结果令人震惊:

表征的压缩与分离: 类内方差 (橙色) 收缩,而类间方差 (蓝色) 增加;UMAP 图显示簇在通过隧道时收紧成弧形。

图 3: 随着表征通过隧道,类别簇逐渐收缩,丢弃非必要特征。右侧的 UMAP 图展示了几何上的收缩过程。

  • 类内方差减小: 同一类别的样本 (如“猫”) 变得更紧密,类别内部的多样性降低。
  • 类间方差增加: 类别中心彼此距离拉大,分类边界变得更清晰。

这似乎是有益的,但也意味着网络丢弃了可能对新任务有用的细微差异。这种压缩现象与 神经崩塌 (Neural Collapse) 相似——即在最后几层,每个类别的表征几乎收缩成一个点。

通过 CKA 进行的表征相似性分析表明,隧道层之间变化极小:

热图显示 MLP-12 网络隧道层内部具有高 CKA 相似度 (左) 和低层间差异 (右) 。

图 4: 隧道层几乎完全相同,而提取器层保持多样且信息丰富。


隧道何时以及如何形成

令人惊讶的是: 隧道在训练早期就开始形成。

通过测量不同训练周期的权重变化,研究者发现提取器层持续变化,而隧道层几乎立即稳定:

在训练过程中,提取器层不断变化,而隧道层几乎保持静态,并在训练早期就出现。

图 5: VGG19 在 CIFAR-10 上的权重变化热图。隧道层早期稳定,表明隧道结构迅速形成。

表征的数值秩崩塌——隧道形成的关键标志——甚至在最初几十次迭代内就已发生:

在最初的 75 个梯度步内,较深层的表征秩就发生崩塌,从而在早期就定义了隧道。

图 6: 优化初期各层表征秩的崩塌过程。

隧道并非后期精炼的结果,而是从训练开始就融入网络的学习动态中。一旦形成,它会在整个训练过程中保持存在。


隧道对泛化能力的影响

这里隐藏着一个重要的实际警告: 隧道会削弱模型对 *分布外 (OOD) * 数据的泛化能力。

在迁移学习中,常见做法是从预训练网络的最后几层提取特征。然而研究表明,这些层——也就是隧道部分——对新任务的适应性最差。相反,隧道入口处的层提供了最具可迁移性的表征。

在 OOD 任务上的线性探针性能在隧道入口处达到峰值,然后急剧下降,与秩崩塌现象相吻合。

图 7: OOD 性能在隧道内部显著下降,与表征秩的崩塌高度一致。

当源任务更简单 (类别更少) 时,这种效应更为明显,隧道变长,泛化能力下降:

更简单的源任务会产生更长的隧道和更差的 OOD 泛化能力。

图 8: 源任务复杂度影响隧道长度与 OOD 性能——任务越简单,隧道越深。

核心结论: 在迁移学习中,最具信息量的特征来自 分布内性能饱和的层——即提取器的末端——而不是网络的最后几层。


决定隧道长度的因素

隧道长度与模型容量和任务复杂度之间密切相关:

  • 更深的网络 → 更长的隧道 当深度超过一定阈值,新增层不再扩展提取器,而只是延长隧道。

对于不同深度的 MLP,无论总深度如何,提取器都在第 4 层左右结束;增加的层数扩展了隧道。

图 9: 增加网络深度会延长隧道,但不会扩大提取器部分。

  • 更宽的网络 → 更长的隧道 扩展宽度使模型能以更少的提取器层完成任务,剩余层因此形成更长的隧道。

加宽 VGG 和 ResNet 模型会减少提取器部分的比例并延长隧道。

图/表 2: 更宽的网络分配更少的层用于特征提取,从而延长隧道。

  • 更简单的数据集 → 更长的隧道 在更容易的任务或类别较少的数据集上训练时,网络用于表征构建的层更少,形成的隧道更长。

在较少类别上训练的网络会形成更长的隧道,证实了任务复杂度与隧道深度之间的联系。

图/表 3: 数据集复杂度越低,隧道部分比例越高。


隧道在持续学习中的作用

隧道效应也为 灾难性遗忘 (即模型在顺序学习新任务时遗忘旧任务的现象) 提供了新的视角。

研究人员使用一个 VGG19 网络,在两个连续任务上进行训练 (先是 CIFAR-10 的前五类,再是后五类) ,分析了交换提取器与隧道时的性能变化:

混合不同任务的提取器-隧道对表明隧道是任务无关的: E1+T2 的表现与 E1+T1 类似。遗忘发生在提取器中。

表 4: 隧道与任务无关;遗忘源于任务相关的提取器。

结果表明:

  • 隧道可以在任务间自由交换 , 影响极小,说明其表征压缩与任务语义无关。
  • 提取器是任务相关的——遗忘主要发生在这里。
  • 仅对隧道输出重新训练几乎不能恢复性能,验证了隧道阻碍旧知识重用。

有趣的是,完全移除隧道不仅减轻了遗忘,还能保持相似的准确率:

训练网络的浅层版本 (仅提取器) 可以达到相似的准确率,并且在不同任务间的遗忘程度要小得多。

图 10: 仅包含提取器的浅层网络在性能上相近,同时显著减少灾难性遗忘。

实践启示: 在持续学习中,使用较浅的架构或有选择地剪除隧道层,可以在保持性能的同时减少遗忘并保存已有知识。


结论与实践经验

隧道效应重新定义了我们对深度神经网络的理解。网络并非所有层都同样贡献于学习,而是自然分裂为两个阶段:

  • 提取器: 学习有意义的表征;
  • 隧道: 压缩这些表征,带来有限的性能提升,却损害泛化。

这一发现挑战了“越深越好”的传统理念,为构建更聪明、更高效的模型提供了新的思路。

实践者的关键启示:

  1. 重新思考迁移学习 提取特征时应选择提取器的末端层,而非最后的隧道层,以获得更好的下游性能。

  2. 对抗灾难性遗忘 在持续学习场景中,应优先关注提取器并考虑使用较浅的网络结构——隧道层会加剧遗忘。

  3. 提升效率 隧道部分占用了大量计算与容量,却几乎不提高性能。通过修剪或跳过隧道,可以显著减少推理时间,而不会造成明显的准确率损失。

“隧道效应”提醒我们: 深度本身不是魔法,关键在于网络如何分配和利用这种深度。认识到提取层与压缩层之间的分工,我们才能设计出不仅更大,而且真正更高效、更有效的模型。