神经架构搜索 (Neural Architecture Search, NAS) 已经改变了我们设计深度学习模型的方式。NAS 算法不再仅仅依赖人类的直觉和多年的经验,而是能够自动发现强大且高效的网络架构——其性能常常超越人工设计的前辈模型。这种范式转变为 NAS 带来了爆炸性的进展,涌现出涵盖强化学习、进化策略和可微优化的多种新方法。

但这种快速发展也带来了隐藏的代价:** 一场可比性危机**。

想象一场田径比赛,每位运动员都在不同的赛道、不同的天气条件下,用不同的装备进行冲刺。你如何真正判断谁跑得最快?这正是当前 NAS 研究的现状。每种新算法往往在不同的数据集上、使用各异的搜索空间和训练流程进行测试。因此,我们很难分辨一个方法是真正更优,还是仅仅得益于更有利的实验设置。

为了解决这一问题,研究人员开始创建标准化的基准。第一个重要的里程碑是 NAS-Bench-101,但它存在一些局限性,使得许多现代算法无法直接在其上评估。于是,NAS-Bench-201 应运而生,也正是我们今天要深入探讨的主题——一个旨在为几乎所有 NAS 算法提供公平竞争环境的多功能基准。

NAS-Bench-201 定义了一个包含超过 15,000 种架构的固定搜索空间,并预先计算了它们在三个数据集上的性能。这使研究人员能够跳过重复且耗费 GPU 资源的训练过程,专注于最重要的部分: 搜索算法本身。

接下来,让我们深入解析 NAS-Bench-201 的工作原理、我们可以从中得到哪些启示,以及它为何是迈向更可复现且更高效 AI 研究的重要一步。


背景: 寻求标准化的 NAS 竞技场

现代 NAS 方法通常采用基于单元 (cell-based) 的方法。与其设计一个完整的大型网络,NAS 算法会去搜索最优的单元——一种小巧而灵活的计算模块——然后重复堆叠这些单元来构建完整模型。这种方法将搜索问题从“整个网络应该长什么样?”转变为“最优的构建模块是什么?”

NAS-Bench-201 采用了这一范式,定义了一个既具备足够挑战性以确保其意义,又小到可以对每一种架构进行穷尽训练和评估的搜索空间。这产生了一个庞大的“查找表”,NAS 算法只需提出一个架构,即可立即获得其真实的、完整训练后的性能——无需 GPU 训练。


NAS-Bench-201 的核心

NAS-Bench-201 不仅是一个数据集,更是一个包含四个主要组成部分的生态系统:

  1. 明确定义的搜索空间
  2. 具有标准化划分的多个数据集
  3. 预先计算的训练与评估指标
  4. 用于深入分析的丰富诊断信息

1. 搜索空间: 15,625 种架构的宇宙

所有架构共享相同的高层宏观骨架。如图 1 顶部所示,该骨架包含三个阶段,每个阶段堆叠五个相同的单元。每个阶段之间通过残差块连接,用以降低空间分辨率并提升通道深度。

图 1: 宏观骨架 (上图) 展示了如何堆叠单元构成网络。搜索空间涉及寻找最佳单元结构 (左下图) ,其中每条边使用预定义操作集 (右下图) 中的一种操作。

图 1: *上图: * 每个候选架构的宏观骨架。*左下图: * 包含四个节点的神经单元示例。每个单元是一个有向无环图 (DAG) ,其中每条边从一个预定义的操作集 (右下图) 中选择一个操作。

搜索的单元 (图 1,底部) 是一个包含四个节点的有向无环图 (Directed Acyclic Graph, DAG) 。与一些早期基准将操作放在节点上的方式不同,NAS-Bench-201 将操作定义在上。这与 DARTS 等流行的可微 NAS 方法更为一致。

在一个四节点图中,共有六条可能的有向边。每条边可以选择以下五种操作之一:

  1. 置零 (Zeroize) : 移除连接
  2. 跳跃连接 (Skip Connection) : 恒等映射 (类似 ResNet)
  3. 1×1 卷积
  4. 3×3 卷积
  5. 3×3 平均池化

由于有 6 条边且每条边有 5 种选择,因此可能的单元结构总数为:

\[ 5^6 = 15{,}625 \]

该搜索空间是与算法无关的——没有诸如最大边数限制等可能阻碍某些算法的硬性约束。“置零”操作增强了灵活性,使网络连接既可稀疏,又可稠密。


2. 数据集: 为公平比较而标准化

每种架构都在三个图像分类数据集上进行了训练:

  • CIFAR-10: 10 个类别;25,000 张训练图像,25,000 张验证图像
  • CIFAR-100: 图像与 CIFAR-10 相同,但划分为 100 个细粒度类别
  • ImageNet-16-120: 将 ImageNet 降采样至 16×16 像素,包含 120 个类别——计算开销低但具有挑战性

关键在于,该基准定义了固定的训练、验证和测试集划分。这确保每个 NAS 算法在各阶段均使用完全相同的数据,从根本上消除了主要的偏差来源。


3. 性能数据: 庞大的查找表

NAS-Bench-201 的核心在于对全部 15,625 种架构进行穷尽训练——每种架构在三个数据集上均进行了多次运行。

表 1: 用于训练基准中每个架构的标准化超参数集。

表 1: 标准化的训练超参数确保不同架构间的可比性。

训练均采用统一的超参数设置,包括 200 个周期的余弦学习率调度。当你查询某个架构的性能时,即是在真正的同等条件下进行比较。

该基准的 API 提供了丰富的指标集合。

表 2: 研究人员可即时查询模型在任何数据集上的训练/验证/测试性能。

表 2: 支持即时查询的指标,涵盖不同数据集的训练集、验证集和测试集。

研究人员在运行 NAS 算法时,针对任意提出的架构,都能立刻检索其完整训练后的最终准确率——将评估时间从数天缩短至毫秒级。


4. 诊断信息: 超越最终准确率

NAS-Bench-201 还提供了额外信息:

  • 计算成本: 参数量、FLOPs 以及真实的 GPU 延迟
  • 每周期训练指标: 每个周期的损失与准确率——有助于研究收敛性、稳定性与过拟合
  • 已保存的模型权重: 所有架构的训练参数,可用于参数迁移及改进的权重共享研究

NAS-Bench-201 如何改进 NAS-Bench-101

NAS-Bench-201 直接建立在 NAS-Bench-101 的成功经验之上,但移除了几个关键障碍。

表 3: NAS-Bench-101 与 NAS-Bench-201 的对比。

表 3: 相较 NAS-Bench-101,NAS-Bench-201 支持更多 NAS 算法、更多数据集,并提供更丰富的诊断数据。

NAS-Bench-101 通过最大边数限制约束架构,排除了许多现代方法,尤其是在参数共享方面。NAS-Bench-201 移除了这一限制,支持三个数据集,并具备更强的分析潜力。


分析搜索空间: 来自 15,625 种架构的洞见

借助全面的性能数据,作者们得出以下关键结论。

图 2: 所有模型的准确率与参数量对比。拓扑结构与模型规模同等重要。

图 2: 每个架构的训练、验证和测试准确率与参数量关系。橙色星标代表 ResNet。

  1. 更多参数通常意味着更高准确率
  2. 固定参数量下,纵向分布差异大,说明拓扑结构至关重要
  3. 标准 ResNet 表现稳健,但许多 NAS 发现的架构能超越它

图 3: 跨数据集的架构排名相关性。

图 3: CIFAR-10 (x 轴) 与 CIFAR-100/ImageNet-16-120 (y 轴) 的架构排名对比。紧密的相关性带显示出较强的迁移能力。

在 CIFAR-10 上表现优异的架构通常能在其他数据集上延续优势。

图 4: 数据集内部及跨数据集的相关性热力图。

图 4: 数据集内部验证集与测试集高度相关;跨数据集则相关性较弱。

但迁移并非完美——强调了具备迁移意识的 NAS 的必要性。

图 5: 架构排名随训练周期变化的稳定性。

图 5: 排名在训练过程中逐步稳定。

早期排名波动较大,后期周期能提供可靠指标——为早停策略提供参考。


NAS 算法基准测试

作者们测试了 10 种近期 NAS 算法——从随机搜索到可微方法。

表 5: 10 种 NAS 算法的性能与搜索时间。

表 5: 使用 NAS-Bench-201,非参数共享方法的搜索时间从数天降至数秒。

关键洞见:

  • 非参数共享方法的搜索时间由数天缩短至数秒
  • 在该搜索空间中,REA、RS 和 REINFORCE 等简单方法的性能常优于复杂的可微 NAS 方法
  • 可微方法 (如 DARTS) 可能退化为仅由跳跃连接构成的架构

图 7: 可微 NAS 中的不稳定性 (BN 运行均值估计) 。

图 7: 使用运行均值估计的 BN 层会导致不稳定性;DARTS 快速退化。

图 8: 使用 BN 批量统计可提高稳定性。

图 8: 使用批量统计在部分方法中改善了稳定性。

批量归一化 (BN) 的处理方式会显著影响可微 NAS 的性能。


结论: 更规范的 NAS 发展之路

NAS-Bench-201 是 NAS 研究的重要里程碑:

可复现性: 固定的搜索空间与标准化协议解决了可比性危机
效率: 预计算显著降低评估耗时,促进更广泛参与
洞见: 丰富的数据支撑更深入理解 NAS 的行为、迁移能力与算法动态

局限性: 所有架构均使用相同超参数,尽管部分架构可能受益于专门训练;搜索空间虽大,仍是有限的

尽管如此,NAS-Bench-201 依然让研究社区得以专注科学而非炒作,推动 NAS 的公平、可复现与高效发展。

它不仅是一个数据集——更是让最佳思想绽放光芒的公平竞技场