数小时而非数天找到顶尖神经网络：深入解读免训练 NAS

神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。它的愿景简单而深远: 为特定任务自动设计出最优的神经网络，从而将人类从繁琐且依赖直觉的手动架构设计过程中解放出来。然而，这一承诺一直伴随着高昂的代价——传统的 NAS 方法可能需要耗费数千个 GPU 小时，在庞大的搜索空间中训练和评估无数候选架构。这种巨大的计算成本使 NAS 仅限于少数资金雄厚的研究实验室。

如果我们能完全绕过这一过程中最昂贵的环节呢？
如果我们能在不进行任何训练的情况下，就识别出性能最强的架构呢？

这正是德克萨斯大学奥斯汀分校的研究人员在其论文《Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective》中提出的激进问题。他们提出了一个名为 TE-NAS (免训练神经架构搜索) 的框架，该框架利用深度学习理论，在网络“诞生”之初——即随机初始化状态下——就评估其潜力。

结果令人惊叹: TE-NAS 可以在约 30 分钟 内在 CIFAR-10 数据集上发现最先进的架构，在规模庞大的 ImageNet 数据集上也仅需 4 小时，且只用一块 GPU。

本文将剖析 TE-NAS 背后的理论与方法。我们将探讨它用来评估网络质量的两个关键指标，它如何在一种巧妙的基于剪枝的搜索中平衡二者，以及为何这项工作标志着 NAS 向高效与普及迈出重要一步。

传统 NAS 的瓶颈

要理解 TE-NAS 的突破性，首先要明白为何传统 NAS 速度如此缓慢。任何 NAS 算法都必须回答两个核心问题:

如何评估？ 给定一个候选架构，我们如何判断它是否“优秀”？
如何优化？ 我们如何高效地探索庞大的可能架构空间以找到最佳方案？

多数 NAS 方法用验证准确率回答第一个问题——将架构训练一段时间 (或完全收敛) 并测量其性能。这种方法可靠，但也是最大的瓶颈。训练一个深度神经网络就已耗时漫长，在搜索中训练成千上万个网络更是代价高昂。

为此，研究人员提出了一些加速策略:

超网 (Supernet) 方法: 构建包含所有候选架构的巨型网络，从中采样子网络并通过共享权重进行评估。此法节省时间，但可能误导搜索——超网内的性能并不总能反映从零训练的表现。
代理评估 (Proxy evaluations) : 在更少的轮次或更小的数据集上训练候选架构。虽能加快评估，但会偏向那些早期收敛快、却未必泛化良好的架构。

TE-NAS 采取完全不同的路径: 它提出了一种无需训练、无需标签、几乎不耗时间的架构评估方法。

好网络的两大支柱: 可训练性与表达能力

TE-NAS 的作者认为，任何高性能网络都建立在两种基本素质之上:

可训练性 (Trainability) —— 网络必须易于通过梯度下降进行优化。如果损失曲面过于复杂，优化器将难以收敛。
表达能力 (Expressivity) —— 网络必须有足够的能力表示复杂函数，从而对数据中的模式进行刻画。

TE-NAS 的精妙之处在于，它提出了这两种特性在网络初始化时 (尚未进行任何梯度更新) 即可计算的理论指标。

用神经正切核 (NTK) 衡量可训练性

如何判断一个随机初始化的网络是否容易训练？

近年的理论研究提供了一个强有力的工具:** 神经正切核 (Neural Tangent Kernel, NTK)** 。

NTK 描述了宽网络的训练动态。对于无限宽的网络，在梯度下降下有:

\[ \mu_t(\mathbf{X}_{\text{train}}) = (\mathbf{I} - e^{ -\eta \Theta_{\text{train}} t}) \mathbf{Y}_{\text{train}} \]

其中:

\(\mu_t\): 时间 \(t\) 时的网络输出
\(\mathbf{Y}_{\text{train}}\): 真实标签
\(\Theta_{\text{train}}\): NTK 矩阵

\(\Theta_{\text{train}}\) 的*谱 *(特征值分布) 决定了收敛速度。条件数:

\[ \kappa_{\mathcal{N}} = \frac{\lambda_0}{\lambda_m} \]

是最大与最小特征值的比值。较大的 \(\kappa_{\mathcal{N}}\) 意味着某些方向上的学习速度很慢，从而妨碍训练；较小的 \(\kappa_N\) 则预示着更好的可训练性。

作者在 NAS-Bench-201 的架构上评估了 \(\kappa_N\)，发现两者存在显著负相关: \(\kappa_N\) 较低的架构往往有更高的最终准确率。

图 1: 散点图显示 NTK 条件数 κ_N 与测试准确率呈中度负相关。较低的 κ_N 对应较高的准确率。

图 1: 在 NAS-Bench-201 (CIFAR-10) 数据集上，较低的 NTK 条件数 (\(\kappa_N\)) 往往对应更高的测试准确率。

关键在于，计算 \(\kappa_N\) 只需一个 mini-batch 的无标签数据以及一次前向/反向传播——无需训练。

用线性区域衡量表达能力

对于 ReLU 网络，有一个自然的表达能力衡量指标: 网络将输入空间划分成的线性区域数量。

ReLU 网络本质上是分段线性函数:

每个 ReLU 引入一个线性分界，划分输入空间；
多个 ReLU 的组合会形成大量不同区域，每个区域对应一个线性映射。

能划分出越多线性区域，说明网络越能逼近复杂函数。

图 2: 彩色马赛克展示了 ReLU 网络如何将输入空间划分为许多不同的线性区域。区域越多，表达能力越强。

图 2: ReLU 网络将输入空间划分为大量互不相同线性区域的示例。

作者通过给初始化的网络输入数千个随机样本，并统计不同激活模式的数量，来估计该网络的线性区域数 \(\hat{R}_N\)。

在 NAS-Bench-201 上，他们观察到正相关关系: 拥有更多线性区域的架构通常有更高的测试准确率。

图 3: 散点图显示线性区域数量 R_N 与 CIFAR-100 测试准确率呈中度正相关。

图 3: 在 NAS-Bench-201 (CIFAR-100) 数据集上，更多的线性区域 (\(\hat{R}_N\)) 往往对应更高的测试准确率。

两个指标的故事

可训练性和表达能力，哪个更重要？TE-NAS 发现二者是互补的。

不同操作在两个指标上的偏好各不相同:

图 4: 不同操作偏好的对比条形图。κ_N 偏好跳跃连接；R_N 偏好 1×1 卷积；两者都偏好 3×3 卷积。

图 4: 不同操作的偏好有所差异: NTK 条件数 (\(\kappa_N\)) 偏好有助梯度流的跳跃连接，而线性区域数 (\(\hat{R}_N\)) 偏好提升表达能力的 1×1 卷积。

平衡是关键: 二者都认可 3×3 卷积的价值，但 \(\kappa_N\) 更倾向跳跃连接，而 \(\hat{R}_N\) 更倾向 1×1 卷积。

TE-NAS 搜索策略: 基于重要性的剪枝

有了 \(\kappa_N\) 和 \(\hat{R}_N\) 这两大指标，TE-NAS 选择高效且确定性的基于剪枝的搜索策略，而非随机采样。

流程:

从超网开始: 每条边包含所有可能的操作——表达能力最强但可训练性最差；
衡量重要性: 对每个操作，计算去除该操作后 \(\kappa_N\) 与 \(\hat{R}_N\) 的变化；
排名而非直接比较数值: 结合可训练性提升 (\(\kappa_N\) 下降) 与表达能力保持 (\(\hat{R}_N\) 下降幅度小) 的排名。重要性评分 = rank(Δ\(\kappa_N\)) + rank(Δ\(\hat{R}_N\))；
迭代剪枝: 在每条边上移除重要性最低的操作，重复直到每条边仅剩一个操作。

这将搜索复杂度从指数级降到与边数成线性关系。

图 5 展示了剪枝过程: 从高 \(\kappa_N\)、高 \(\hat{R}_N\) 的初始超网，到逐步降低 \(\kappa_N\) 并保持较高的 \(\hat{R}_N\) 。

图 5: 剪枝过程轨迹示意图。κ_N 先在早期快速下降，而 R_N 保持高位，随后随剪枝略有调整。

图 5: 在 NAS-Bench-201 和 DARTS 上的剪枝轨迹。“0”点是初始超网——表达能力强但可训练性差，早期剪枝迅速改善了可训练性。

惊艳的结果: 以空前速度达到 SOTA 性能

真正的考验是性能与速度。TE-NAS 在 NAS-Bench-201 和 DARTS 搜索空间中都有出色表现。

NAS-Bench-201: TE-NAS 在 CIFAR-10、CIFAR-100 和 ImageNet-16-120 数据集上均找到最佳架构，搜索成本降低 5–19 倍。

表 1: TE-NAS 在 NAS-Bench-201 数据集上以大幅降低的搜索成本获得最高准确率。

表 1: TE-NAS 在准确率上超越了随机搜索与其他免训练方法，并极大提升了搜索效率。

DARTS 搜索空间 (CIFAR-10) :
在单卡 1080Ti 上，用 **0.05 GPU-天 **(约 1 小时) 实现 2.63% 的测试错误率——媲美最先进的基于梯度的 NAS 方法。

表 2: TE-NAS 在 CIFAR-10 上仅用 0.05 GPU 天实现 2.63% 测试错误率。

表 2: CIFAR-10 结果: TE-NAS 表现与顶级 NAS 方法相当，但速度快 10–100 倍。

ImageNet (移动端设定) :
Top-1 错误率 24.5%，搜索耗时仅 4 GPU-小时——而此类数据集的搜索通常需数天。

表 3: TE-NAS 仅用 4 GPU 小时就找到具有竞争力的 ImageNet 架构。

表 3: ImageNet 结果: TE-NAS 在极短搜索时间内取得了具有竞争力的表现。

最终得到的架构体现了 TE-NAS 在可训练性与表达能力之间的平衡:

图 6: TE-NAS 在 CIFAR-10 搜索到的 Normal 与 Reduction cells。

图 6: TE-NAS 发现的 CIFAR-10 cells: 混合多种操作以平衡可训练性与表达能力。

图 7: TE-NAS 在 ImageNet 搜索到的 Normal 与 Reduction cells。

图 7: TE-NAS 发现的 ImageNet cells，针对移动端资源约束进行了优化设计。

结论: NAS 的新范式

TE-NAS 不仅是一个高速 NAS 算法，更是一种理念上的变革。通过将深度学习理论与实践搜索结合，它展示了我们可以在网络初始化时预测其未来性能的诸多方面。

核心要点:

免训练评估可行: 如 \(\kappa_N\) 和 \(\hat{R}_N\) 等指标可作为“零成本”的性能代理；
可训练性 + 表达能力 = 成功: 两者平衡才能实现最佳性能；
基于剪枝的搜索高效: 确定性、快速且效果显著。

TE-NAS 让 NAS 不再是大机构的专利，使其在缺乏海量资源的情况下也可落地应用。它为探索更多可指导架构设计的理论特性打开了大门——引领我们进入一个易得且理论驱动的 NAS 新时代。

传统 NAS 的瓶颈#

好网络的两大支柱: 可训练性与表达能力#

用神经正切核 (NTK) 衡量可训练性#

用线性区域衡量表达能力#

两个指标的故事#

TE-NAS 搜索策略: 基于重要性的剪枝#

惊艳的结果: 以空前速度达到 SOTA 性能#

结论: NAS 的新范式#