神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。它的愿景简单而深远: 为特定任务自动设计出最优的神经网络,从而将人类从繁琐且依赖直觉的手动架构设计过程中解放出来。然而,这一承诺一直伴随着高昂的代价——传统的 NAS 方法可能需要耗费数千个 GPU 小时,在庞大的搜索空间中训练和评估无数候选架构。这种巨大的计算成本使 NAS 仅限于少数资金雄厚的研究实验室。
如果我们能完全绕过这一过程中最昂贵的环节呢?
如果我们能在不进行任何训练的情况下,就识别出性能最强的架构呢?
这正是德克萨斯大学奥斯汀分校的研究人员在其论文《Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective》中提出的激进问题。他们提出了一个名为 TE-NAS (免训练神经架构搜索) 的框架,该框架利用深度学习理论,在网络“诞生”之初——即随机初始化状态下——就评估其潜力。
结果令人惊叹: TE-NAS 可以在约 30 分钟 内在 CIFAR-10 数据集上发现最先进的架构,在规模庞大的 ImageNet 数据集上也仅需 4 小时,且只用一块 GPU。
本文将剖析 TE-NAS 背后的理论与方法。我们将探讨它用来评估网络质量的两个关键指标,它如何在一种巧妙的基于剪枝的搜索中平衡二者,以及为何这项工作标志着 NAS 向高效与普及迈出重要一步。
传统 NAS 的瓶颈
要理解 TE-NAS 的突破性,首先要明白为何传统 NAS 速度如此缓慢。任何 NAS 算法都必须回答两个核心问题:
- 如何评估? 给定一个候选架构,我们如何判断它是否“优秀”?
- 如何优化? 我们如何高效地探索庞大的可能架构空间以找到最佳方案?
多数 NAS 方法用验证准确率回答第一个问题——将架构训练一段时间 (或完全收敛) 并测量其性能。这种方法可靠,但也是最大的瓶颈。训练一个深度神经网络就已耗时漫长,在搜索中训练成千上万个网络更是代价高昂。
为此,研究人员提出了一些加速策略:
- 超网 (Supernet) 方法: 构建包含所有候选架构的巨型网络,从中采样子网络并通过共享权重进行评估。此法节省时间,但可能误导搜索——超网内的性能并不总能反映从零训练的表现。
- 代理评估 (Proxy evaluations) : 在更少的轮次或更小的数据集上训练候选架构。虽能加快评估,但会偏向那些早期收敛快、却未必泛化良好的架构。
TE-NAS 采取完全不同的路径: 它提出了一种无需训练、无需标签、几乎不耗时间的架构评估方法。
好网络的两大支柱: 可训练性与表达能力
TE-NAS 的作者认为,任何高性能网络都建立在两种基本素质之上:
- 可训练性 (Trainability) —— 网络必须易于通过梯度下降进行优化。如果损失曲面过于复杂,优化器将难以收敛。
- 表达能力 (Expressivity) —— 网络必须有足够的能力表示复杂函数,从而对数据中的模式进行刻画。
TE-NAS 的精妙之处在于,它提出了这两种特性在网络初始化时 (尚未进行任何梯度更新) 即可计算的理论指标。
用神经正切核 (NTK) 衡量可训练性
如何判断一个随机初始化的网络是否容易训练?
近年的理论研究提供了一个强有力的工具:** 神经正切核 (Neural Tangent Kernel, NTK)** 。
NTK 描述了宽网络的训练动态。对于无限宽的网络,在梯度下降下有:
\[ \mu_t(\mathbf{X}_{\text{train}}) = (\mathbf{I} - e^{ -\eta \Theta_{\text{train}} t}) \mathbf{Y}_{\text{train}} \]其中:
- \(\mu_t\): 时间 \(t\) 时的网络输出
- \(\mathbf{Y}_{\text{train}}\): 真实标签
- \(\Theta_{\text{train}}\): NTK 矩阵
\(\Theta_{\text{train}}\) 的*谱 *(特征值分布) 决定了收敛速度。条件数:
\[ \kappa_{\mathcal{N}} = \frac{\lambda_0}{\lambda_m} \]是最大与最小特征值的比值。较大的 \(\kappa_{\mathcal{N}}\) 意味着某些方向上的学习速度很慢,从而妨碍训练;较小的 \(\kappa_N\) 则预示着更好的可训练性。
作者在 NAS-Bench-201 的架构上评估了 \(\kappa_N\),发现两者存在显著负相关: \(\kappa_N\) 较低的架构往往有更高的最终准确率。
图 1: 在 NAS-Bench-201 (CIFAR-10) 数据集上,较低的 NTK 条件数 (\(\kappa_N\)) 往往对应更高的测试准确率。
关键在于,计算 \(\kappa_N\) 只需一个 mini-batch 的无标签数据以及一次前向/反向传播——无需训练。
用线性区域衡量表达能力
对于 ReLU 网络,有一个自然的表达能力衡量指标: 网络将输入空间划分成的线性区域数量。
ReLU 网络本质上是分段线性函数:
- 每个 ReLU 引入一个线性分界,划分输入空间;
- 多个 ReLU 的组合会形成大量不同区域,每个区域对应一个线性映射。
能划分出越多线性区域,说明网络越能逼近复杂函数。
图 2: ReLU 网络将输入空间划分为大量互不相同线性区域的示例。
作者通过给初始化的网络输入数千个随机样本,并统计不同激活模式的数量,来估计该网络的线性区域数 \(\hat{R}_N\)。
在 NAS-Bench-201 上,他们观察到正相关关系: 拥有更多线性区域的架构通常有更高的测试准确率。
图 3: 在 NAS-Bench-201 (CIFAR-100) 数据集上,更多的线性区域 (\(\hat{R}_N\)) 往往对应更高的测试准确率。
两个指标的故事
可训练性和表达能力,哪个更重要?TE-NAS 发现二者是互补的。
不同操作在两个指标上的偏好各不相同:
图 4: 不同操作的偏好有所差异: NTK 条件数 (\(\kappa_N\)) 偏好有助梯度流的跳跃连接,而线性区域数 (\(\hat{R}_N\)) 偏好提升表达能力的 1×1 卷积。
平衡是关键: 二者都认可 3×3 卷积的价值,但 \(\kappa_N\) 更倾向跳跃连接,而 \(\hat{R}_N\) 更倾向 1×1 卷积。
TE-NAS 搜索策略: 基于重要性的剪枝
有了 \(\kappa_N\) 和 \(\hat{R}_N\) 这两大指标,TE-NAS 选择高效且确定性的基于剪枝的搜索策略,而非随机采样。
流程:
- 从超网开始: 每条边包含所有可能的操作——表达能力最强但可训练性最差;
- 衡量重要性: 对每个操作,计算去除该操作后 \(\kappa_N\) 与 \(\hat{R}_N\) 的变化;
- 排名而非直接比较数值: 结合可训练性提升 (\(\kappa_N\) 下降) 与表达能力保持 (\(\hat{R}_N\) 下降幅度小) 的排名。重要性评分 = rank(Δ\(\kappa_N\)) + rank(Δ\(\hat{R}_N\));
- 迭代剪枝: 在每条边上移除重要性最低的操作,重复直到每条边仅剩一个操作。
这将搜索复杂度从指数级降到与边数成线性关系。
图 5 展示了剪枝过程: 从高 \(\kappa_N\)、高 \(\hat{R}_N\) 的初始超网,到逐步降低 \(\kappa_N\) 并保持较高的 \(\hat{R}_N\) 。
图 5: 在 NAS-Bench-201 和 DARTS 上的剪枝轨迹。“0”点是初始超网——表达能力强但可训练性差,早期剪枝迅速改善了可训练性。
惊艳的结果: 以空前速度达到 SOTA 性能
真正的考验是性能与速度。TE-NAS 在 NAS-Bench-201 和 DARTS 搜索空间中都有出色表现。
NAS-Bench-201: TE-NAS 在 CIFAR-10、CIFAR-100 和 ImageNet-16-120 数据集上均找到最佳架构,搜索成本降低 5–19 倍。
表 1: TE-NAS 在准确率上超越了随机搜索与其他免训练方法,并极大提升了搜索效率。
DARTS 搜索空间 (CIFAR-10) :
在单卡 1080Ti 上,用 **0.05 GPU-天 **(约 1 小时) 实现 2.63% 的测试错误率——媲美最先进的基于梯度的 NAS 方法。
表 2: CIFAR-10 结果: TE-NAS 表现与顶级 NAS 方法相当,但速度快 10–100 倍。
ImageNet (移动端设定) :
Top-1 错误率 24.5%,搜索耗时仅 4 GPU-小时——而此类数据集的搜索通常需数天。
表 3: ImageNet 结果: TE-NAS 在极短搜索时间内取得了具有竞争力的表现。
最终得到的架构体现了 TE-NAS 在可训练性与表达能力之间的平衡:
图 6: TE-NAS 发现的 CIFAR-10 cells: 混合多种操作以平衡可训练性与表达能力。
图 7: TE-NAS 发现的 ImageNet cells,针对移动端资源约束进行了优化设计。
结论: NAS 的新范式
TE-NAS 不仅是一个高速 NAS 算法,更是一种理念上的变革。通过将深度学习理论与实践搜索结合,它展示了我们可以在网络初始化时预测其未来性能的诸多方面。
核心要点:
- 免训练评估可行: 如 \(\kappa_N\) 和 \(\hat{R}_N\) 等指标可作为“零成本”的性能代理;
- 可训练性 + 表达能力 = 成功: 两者平衡才能实现最佳性能;
- 基于剪枝的搜索高效: 确定性、快速且效果显著。
TE-NAS 让 NAS 不再是大机构的专利,使其在缺乏海量资源的情况下也可落地应用。它为探索更多可指导架构设计的理论特性打开了大门——引领我们进入一个易得且理论驱动的 NAS 新时代。