现代神经网络堪称庞然大物。像 GPT-3 这样的模型包含数千亿个参数,需要海量数据和惊人的计算资源。深度学习领域普遍认为,这些网络是过度参数化的——它们拥有远超完成任务所需的连接数量。

多年来,研究人员一直使用一种称为剪枝 (pruning) 的技术,在训练之后对大型网络进行“瘦身”。通过移除多达 90% 的权重 (通常是那些数值较小的) ,可以得到更紧凑的网络: 运行更快、存储更高效,而准确率几乎没有下降。这种优化方法在移动设备或嵌入式硬件上部署模型时尤为宝贵。

然而,这种成功也引出了一个令人困惑的问题: 如果模型仅用原始参数的 10–20% 就能表现良好,为什么不从一开始就训练这些较小的网络呢?理论上,这本可节省大量的时间和能源。令人沮丧的事实是, 从零训练稀疏网络并不理想——它们往往学习更慢,最终准确率也不如它们的密集版本。

这个问题启发了麻省理工学院的 Jonathan Frankle 和 Michael Carbin 在 2019 年发表的开创性论文: 《彩票假说》。他们提出了一个革命性的观点: 在大型、随机初始化的网络中,隐藏着一些微小的子网络,它们天生就非常契合学习任务。这些特殊的子网络就是 “中奖彩票” (winning tickets) 。 这一思想此后深刻影响了研究者对深度学习中初始化、优化和过度参数化的理解。

本文将解读“彩票假说”,探讨作者如何通过严谨的实验验证其观点,并分享这一发现对神经网络构建和理解的启示。


问题所在: 为何稀疏网络难以训练

在讨论解决方案前,我们先来看看问题本身。现代的训练策略使用随机梯度下降 (SGD) 或 Adam 等优化算法来更新数百万个权重。剪枝通常是在训练之后实施的——移除对性能贡献最小的权重,以获得更稀疏的网络结构。

挑战出现在我们试图重新训练这一稀疏架构时。取一个经过剪枝的网络结构,随机初始化后从头训练——通常无法达到原始模型的性能。

Frankle 和 Carbin对此进行了清晰演示。他们训练了多个网络,通过随机删除权重来模拟剪枝,并测量了它们的学习速度和准确率。

图1显示,随机采样的稀疏网络 (虚线) 学习更慢、准确率更低,而作者找到的特殊“中奖彩票” (实线) 则表现更优。

图 1: MNIST 和 CIFAR-10 数据集上多种网络结构的早停迭代数 (左) 与测试准确率 (右) 。虚线代表随机采样的稀疏网络。实线代表通过剪枝识别出的子网络 (“中奖彩票”) 。

如上图所示,随机采样的稀疏网络 (虚线) 在准确率上明显下降,需要更多迭代才能达到最佳性能。而密集网络学习更快,并取得更高的最终准确率。显然,仅有稀疏结构并不足以保证成功训练——关键因素另有所在。


核心思想: 彩票假说

Frankle 和 Carbin 提出,关键不仅在于哪些权重被保留 , 还在于它们的原始初始化值 。 有些权重仅凭运气,初始状态就非常契合学习目标。剪枝过程恰好揭示了这些“幸运”组合。

他们明确提出了彩票假说 :

一个随机初始化的神经网络中包含一个子网络,其初始化方式使得——单独训练该子网络时——在不超过原始网络相同迭代次数的情况下,可以达到与原始网络相当的测试准确率。

简而言之,初始化一个大型模型就像买几百万张彩票。每个潜在子网络都是一张彩票——绝大多数会“没中”,但某些幸运的组合拥有绝佳的结构和权重初始化,从而能学习得特别好。训练完整的密集网络就像运行开奖——它发现并强化了这些“中奖彩票”。而剪枝,则揭示了哪些子网络中奖。


寻找“中奖彩票”

那么,如何在一个神经网络中找到“中奖彩票”呢?

Frankle 和 Carbin 设计了一个四步算法:

  1. 随机初始化一个密集网络 \(f(x; \theta_0)\),参数为 \(\theta_0\)。
  2. 训练该网络 \(j\) 次迭代,得到训练后的参数 \(\theta_j\)。
  3. 从 \(\theta_j\) 中剪枝掉 \(p\%\) 数值最小的权重,生成一个二元掩码 \(m\) (1 = 保留,0 = 剪除) 。
  4. 将剩余参数重置为它们在 \(\theta_0\) 中的原始值,形成子网络 \(f(x; m \odot \theta_0)\)——即候选“中奖彩票”。

最后一步,即“回溯”至原始初始化状态,至关重要。这一步将稀疏结构与其幸运初始化值结合。

作者测试了两种剪枝策略:

  • 一次性剪枝 (One-shot pruning): 单次剪枝后直接回溯;
  • 迭代剪枝 (Iterative pruning): 多次循环执行训练、剪枝少量权重并回溯。

结果表明,迭代剪枝效果远优于一次性剪枝,能够产生更小但性能更优的“中奖彩票”。


实验一: 首次中奖 —— LeNet 在 MNIST 上的表现

研究人员首先使用 LeNet,这是一种在 MNIST 手写数字数据集上训练的经典全连接网络。通过迭代剪枝,他们获得了一系列保留权重比例逐步减少的子网络。

图3展示原始 LeNet 网络 (100%) 与多个“中奖彩票”的训练曲线。剪枝后的网络通常学习更快,且准确率更高。

图 3: LeNet 子网络在训练过程中的测试准确率。较小的子网络 (如 51.3%、21.1%) 学习更快,并取得相同或更高的测试准确率。

结果令人瞩目:

  • 完整网络 (100%) 作为基线;
  • 保留 51.3% 权重 的“中奖彩票”学习更快,测试准确率略高;
  • 更小的子网络 (21.1%) 在速度与准确率上均超越前者。

即使在极高稀疏度下 (约 3.6%) ,子网络仍几乎能媲美原始性能。


关键验证: 重新初始化“彩票”

为考察初始化的作用,作者重复实验,但将“中奖彩票”的原始权重替换为新的随机初始化值。

图4总结了原始“中奖彩票”与随机重新初始化子网络的性能对比。蓝线 (迭代“中奖彩票”) 在高稀疏度下表现优异,而橙线 (重新初始化) 性能急剧下降。

图 4: 原始“中奖彩票” (蓝色) 与随机重新初始化子网络 (橙色) 的对比。在相似稀疏度下训练,重新初始化的网络准确率显著下降。

结果一锤定音: 随机重新初始化同样稀疏的结构后,性能立即崩塌。原始初始化——“彩票”的“幸运数字”——至关重要;仅靠架构本身无法驱动成功。

同时,“中奖彩票”的泛化表现更优 : 在得到相同的 100% 训练准确率时,它们拥有更高的测试准确率,表明剪枝移除了冗余参数,却未降低学习能力。


实验二: 卷积网络中的“中奖彩票”

作者进一步将该假说扩展到更复杂的卷积网络,在 CIFAR-10 图像数据集上测试了 Conv-2、Conv-4 与 Conv-6 (VGG 的简化版本) 。

图5显示,对于更复杂的卷积网络,“中奖彩票” (实线) 学习更快、准确率更高,而随机重新初始化的网络 (虚线) 表现更差。

图 5: Conv-2/4/6 网络在迭代剪枝下的早停迭代与测试准确率。实线代表“中奖彩票”;虚线代表重新初始化的网络。

结果与 LeNet 实验高度一致,但效果更显著:

  • “中奖彩票”学习速度比原始模型快至 3.5 倍 ;
  • 即使剪掉高达 98% 的权重,测试准确率仍提升 3–4 个百分点

随机重新初始化的网络再次失利——进一步证明了初始化的重要性。


Dropout 的作用

研究者还思考: 正则化技巧 dropout 是否已隐含类似“中奖彩票”的行为?Dropout 在训练过程中随机屏蔽部分神经元,实际上每次迭代都在抽样不同的子网络。

Frankle 和 Carbin 将 dropout 与剪枝过程结合进行了实验。

图6显示,寻找“中奖彩票”与使用 dropout 是互补的。使用 dropout 训练的网络初始准确率提升,而迭代剪枝进一步增强准确率。

图 6: 使用 dropout (实线) 与未使用 dropout (虚线) 的 Conv-2/4/6 网络的测试准确率与学习速度。Dropout 提高了准确率;迭代剪枝进一步增强表现。

结果显示,Dropout 提升了基准准确率,而迭代剪枝则进一步优化。这表明 dropout 有助于突出可剪枝的优质子网络——展示了正则化与“彩票现象”之间的潜在协同效应。


实验三: 深度架构 —— VGG-19 与 ResNet-18

最后,作者检验了更深的现代网络结构中是否存在“中奖彩票”: 他们在 CIFAR-10 数据集上训练了 VGG-19 和 ResNet-18,配合批归一化及学习率调度等技术。

在默认的高学习率下,迭代剪枝未能找到“中奖彩票” 。 剪枝后的模型表现与随机初始化的网络无异。

然而,当学习率降低或采用学习率预热 (learning rate warmup) (即学习率逐渐上升) 后,现象再次出现。

图7展示 VGG-19 的结果: 高学习率 0.1 (蓝线) 失败;低学习率 0.01 (橙线) 有效;高学习率配合预热 (绿色) 效果更佳,可在极端稀疏条件下找到“中奖彩票”。

图 7: VGG-19 在不同学习率与预热条件下的测试准确率。学习率预热使得在高学习率及极端剪枝情况下也能发现“中奖彩票”。

通过预热,研究者获得了高准确度的子网络——这些“中奖彩票”仅占原始 VGG-19 的 1.5% , 却达到完整网络的性能。ResNet-18 亦显示类似趋势。

这说明深层网络的训练动力学非常敏感;预热可稳定早期优化阶段,保留“彩票现象”出现的条件。


彩票假说揭示的意义

“彩票假说”重新塑造了我们对过度参数化模型的理解。它暗示,庞大网络“过完备”并非只是为容纳更多参数,更是为了提升找到一个初始化完美、易于训练子网络的概率。

从某种意义上说, SGD 实际上是在发现并发展一张“中奖彩票”。

这一洞见带来了深远影响:

1. 提升训练效率

若能在早期——甚至初始化阶段——识别出“中奖彩票”,仅训练这些子网络即可,大幅减少计算开销。这一方向正催生关于早期彩票检测方法高效剪枝算法的研究。

2. 改进网络设计与初始化

“中奖彩票”揭示了某些结构与权重初始化模式更有利于学习。研究这些模式或将带来更精简的架构设计准则与更智能的初始化策略。

3. 理解过度参数化为何有效

该假说提供了新视角: 大型模型之所以易于训练,是因为其参数冗余让 SGD 有更多机会命中一个初始化优良的子网络。成功关键不只是参数数量,更在于子网络的多样组合空间。


结论

“彩票假说”优雅地解释了深度学习中的一个长期谜题: 庞大网络内部隐藏着稀疏且初始化良好的子网络,它们能像完整模型一样高效学习。这些*“中奖彩票”*证明,成功的基础在初始化时已被埋下——需要的仅是揭示它们。

Frankle 和 Carbin 的研究桥接了理论与实践,引发了关于剪枝、优化与模型高效性的全新研究浪潮。接下来的挑战是: 如何更快地找到这些“彩票” , 让网络从一开始就更小、更智能、更可持续。

在神经网络的世界里,成功有时真的取决于那张幸运的彩票。