缩小“巨人”: 我们能预测神经网络剪枝的行为吗?
现代神经网络是庞然大物。像 GPT‑3 和 Stable Diffusion 这样的模型彻底改变了人工智能的可能性——但它们巨大的规模也带来了代价。这些模型需要大量计算能力来训练和部署,使它们在许多应用中难以使用,且对环境成本高昂。
一种最受欢迎的解决方案是神经网络剪枝 : 系统性地移除已训练网络的一部分,使其更小、更快,同时不显著降低准确率。过去十年间,研究者们提出了八十多种剪枝技术。然而,即使取得了进展,我们仍缺乏对剪枝在不同架构与尺度上的行为的基本理解。
设想你是一名机器学习工程师,要在智能手机上部署误差低于 10% 的模型。你可以选择一系列架构——比如不同深度和宽度的 ResNet。那么你应该选择哪一种?又该剪枝多少?
最笨的方法是训练并剪枝每种可能的组合,但那需要数月时间和巨大的计算资源。为了更聪明地处理,我们必须假设剪枝的影响遵循某种可预测的结构。如果这种结构存在,我们就能通过分析而非穷举搜索来找到最优的剪枝模型。
这直接引出了麻省理工学院计算机科学与人工智能实验室 (MIT CSAIL) 的论文 《关于剪枝在不同尺度下的可预测性》 。 作者证明,对于一种标准的剪枝技术,网络规模、剪枝程度与最终误差之间存在一个惊人地简单且可预测的数学规律。这个缩放定律为我们深入理解剪枝的行为提供了洞察,并为推理模型效率提供了实用框架。
本文将探讨作者们如何揭示这些隐藏规则——以及它们对构建高效深度学习系统意味着什么。
背景知识: 什么是迭代量级剪枝?
在进入缩放定律之前,先回顾所使用的具体剪枝技术: 迭代量级剪枝 (Iterative Magnitude Pruning,IMP) 。 它是一种功能强大且被广泛采用的方法,核心思想非常直接——移除那些数值量级最小、即最不重要的权重。
“迭代”意味着剪枝与再训练是反复进行的,而非一次完成。过程如下:
- 训练 一个网络至收敛完成。
- 剪枝 : 移除所有层中量级最小的固定比例 (例如 20%) 的权重。
- 回溯 : 将剩余权重恢复到早期训练周期 (如第 10 个 epoch) 的值。此“权重回溯”步骤比剪枝后微调更有效。
- 重新训练 : 从回溯状态再次训练,被剪枝部分的权重永远屏蔽不再更新。
- 重复 : 继续剪枝—回溯—重训循环,直到达到期望的稀疏度。
每次迭代都会生成一个不同密度 (density) 的模型——即剩余权重的比例。密度为 1.0 表示未剪枝的网络;0.01 表示 99% 的权重被移除。
MIT 团队在整个架构族 (主要是 ResNet) 上,对 CIFAR‑10 和 ImageNet 数据集应用了 IMP,系统地改变四个关键维度:
- 深度 (l) : 层数。
- 宽度 (w) : 每层通道数的缩放因子。
- 数据集规模 (n) : 训练样本数。
- 密度 (d) : 剩余权重比例。
他们的目标是找到一个统一公式,预测测试误差 \(\varepsilon(d, l, w, n)\),适用于这四个变量的任意组合。
单个剪枝网络的误差建模
在研究整个网络族之前,作者首先问: 单个网络的误差如何随剪枝程度变化?
他们将测试误差与密度绘制在对数坐标轴上。结果——如下图——显示出明显一致的三阶段模式。

图 1. CIFAR‑10 ResNet 的密度与误差关系。曲线揭示了三个明显阶段: 低误差平台、幂律区与高误差平台。
解析中图可见的三个区域:
低误差平台 (Low‑Error Plateau) : 当网络仍然密集时,其误差几乎等于未剪枝模型的误差 \(\varepsilon_{np}\)。少量剪枝几乎不影响性能。
幂律区 (Power‑Law Region) : 随着剪枝加深,误差开始上升——在对数‑对数图上,它呈线性上升。这样的直线表示幂律关系 :
\[ \varepsilon(d)\approx c\,d^{-\gamma}, \]其中 \(\gamma\) 为斜率。剪枝的过程遵循一致的数学模式,而非随机。
高误差平台 (High‑Error Plateau) : 极度剪枝会使网络失效,使误差趋近最大值 \(\varepsilon^{\uparrow}\),随后不再提升。此时网络无法再学习。
这种统一的曲线形状启发作者提出一种来自有理函数族的函数近似,以优雅地刻画不同幂律区间的转变:
\[ \hat{\varepsilon}(\varepsilon_{np}, d | l, w, n) = \varepsilon_{np}\left\| \frac{d - j p \left(\frac{\varepsilon^{\uparrow}}{\varepsilon_{np}}\right)^{1/\gamma}} {d - j p} \right\|^{\gamma},\quad j=\sqrt{-1}。 \]其中:
- \(\varepsilon_{np}\) 与 \(\varepsilon^{\uparrow}\) 定义两个平台;
- \(\gamma\) 控制幂律区斜率;
- \(p\) 控制转变点位置。
该函数与实验数据拟合后,预测结果几乎完美。

图 2. CIFAR‑10 ResNet 模型拟合。数千个剪枝网络的预测与实测误差平均偏差低于 2 %。
至此,作者对任意单个经 IMP 剪枝的网络的行为进行了精确数学刻画。
联合缩放定律与误差保持不变量
下一步更为宏大: 构建一个涵盖所有深度、宽度、数据集大小与密度的联合缩放定律 。 为此,作者寻找潜在的不变量。
通过绘制密度与架构维度下恒定误差的等高线,他们发现在对数‑对数坐标上,这些等高线近似直线——暗示新的幂律权衡关系。

图 3. CIFAR‑10 ResNet 恒定误差等高线。直线关系显示深度、宽度与剪枝密度可互换。
由此得到一个误差保持不变量 :
\[ m^{*} = l^{\phi}\,w^{\psi}\,d。 \]其中 \(\phi\)、\(\psi\) 表示深度、宽度与密度的权衡速率。两个网络若具有相同 \(m^{*}\),无论架构或稀疏度如何,误差应相同。即一个深、窄、稀疏的网络与一个浅、宽、稠密的网络,若 \(m^{*}\) 相等,其性能相当。
将此不变量代入早前的单网络公式,得到联合缩放定律 :

方程 2. 统一缩放定律以不变量 \(m^{*}\) 表示跨深度、宽度、数据规模与密度的误差。
在这里,参数 \(\varepsilon^{\uparrow}\)、\(p'\)、\(\gamma\)、\(\phi\)、\(\psi\) 对整个架构族 (如所有 CIFAR‑10 ResNet) 都是常数 , 仅 \(\varepsilon_{np}\) 随单网络变化。
实验结果强力支持此假设。当误差以 \(m^{*}\) 为横轴绘制时,不同架构与数据规模的曲线几乎完全重合。

图 4. 不同宽度、深度及数据集规模下的误差与不变量 \(m^{*}\) 关系。各曲线形状相似,说明核心参数恒定。
联合缩放定律的准确度如何?
研究者将统一公式在 CIFAR‑10 和 ImageNet ResNet 的数千个数据点上联合拟合,结果令人惊讶地精确。

图 5. CIFAR‑10 与 ImageNet 所有配置的预测与实测测试误差对比。平均偏差低于 2 %,与随机种子间自然波动相当。
在 4,301 个 CIFAR‑10 配置和 274 个 ImageNet 配置中,平均相对误差低于 2 %,其方差与训练噪声相当。仅需五个参数即可描述剪枝在网络规模与稀疏度上跨数量级的行为。
拟合所需数据量有多大?
虽然完整评估使用了数千个网络,但实际应用中我们很少拥有如此充裕的资源。幸运的是,这个缩放定律极其数据高效。
作者随机采样数据的子集,并多次重新拟合模型。

图 6. 拟合精度与训练点数量关系。只需少量剪枝配置即可获得稳定参数估计。
仅利用约 15 个覆蓋所有密度的网络配置,拟合参数即稳定并保持准确预测。换言之,工程师只需在小模型上进行少数廉价实验,即可推断更大系统的剪枝行为。
运用缩放定律: 寻找最高效的模型
现在,我们可以用分析方法解决最初的问题。
在一个网络家族中,应剪枝哪一个、剪多少,才能获得在目标精度下最小的模型?
利用缩放定律,这一问题转化为一个优化公式:
\[ \min_{l,w,d}\;l\,w^{2}\,d \quad\text{s.t.}\quad \varepsilon_{np}\left\| \frac{l^{\phi}w^{\psi}d - j\,p' \left(\frac{\varepsilon^{\uparrow}}{\varepsilon_{np}}\right)^{1/\gamma}} {l^{\phi}w^{\psi}d - j\,p'} \right\|^{\gamma} = \varepsilon_{k}。 \]
图 7. 在误差约束条件下寻找最小参数网络的优化公式。
解此问题揭示一个与直觉相反的发现: 从一个大型高精度网络开始, 并剪枝直到误差升至目标值 , 通常比从较小网络开始能得到更紧凑的模型。

图 8. CIFAR‑10 ResNet 的最优剪枝策略。虚线表示有效前沿——对应每个可达误差的最小参数数量。
在上述图中,黑色虚线为有效前沿。注意单个网络的平坦低误差平台从未与前沿相交。只有将更大模型剪枝至幂律区域——即误差开始上升的地方——才能到达前沿。起点过小阻止达到最优效率;起点过大则超出最优点。
该结论为以往工程师凭经验采用的“先增长后剪枝”策略提供了理论依据。
核心要点
研究 《关于剪枝在不同尺度下的可预测性》 将剪枝从启发式经验变为可预测的科学。它揭示了神经网络参数收缩的深层规律。
- 剪枝具有规律性。 经 IMP 剪枝的网络呈现一致的三阶段误差曲线——低误差平台、幂律区、高误差平台。
- 一个不变量主导权衡。 深度、宽度、稀疏度可通过不变量 \(m^{*}=l^{\phi}w^{\psi}d\) 互相替换而保持误差不变。
- 一个简单定律可预测性能。 五参数缩放定律能准确刻画不同架构和数据集间的误差。
- 实际应用价值。 只需少量小模型实验即可拟合该定律,从而快速分析剪枝与模型效率。
随着模型规模持续扩张,如何智能地缩小它们将对可持续 AI 至关重要。像这样的缩放定律揭示了隐藏的规律,为构建更精简、更快速且同样强大的神经网络提供了路线图。
](https://deep-paper.org/en/paper/2006.10621/images/cover.png)