神经网络的公平竞技场：深入解析 NAS-Bench-201

神经架构搜索 (Neural Architecture Search, NAS) 已经改变了我们设计深度学习模型的方式。NAS 算法不再仅仅依赖人类的直觉和多年的经验，而是能够自动发现强大且高效的网络架构——其性能常常超越人工设计的前辈模型。这种范式转变为 NAS 带来了爆炸性的进展，涌现出涵盖强化学习、进化策略和可微优化的多种新方法。

但这种快速发展也带来了隐藏的代价:** 一场可比性危机**。

想象一场田径比赛，每位运动员都在不同的赛道、不同的天气条件下，用不同的装备进行冲刺。你如何真正判断谁跑得最快？这正是当前 NAS 研究的现状。每种新算法往往在不同的数据集上、使用各异的搜索空间和训练流程进行测试。因此，我们很难分辨一个方法是真正更优，还是仅仅得益于更有利的实验设置。

为了解决这一问题，研究人员开始创建标准化的基准。第一个重要的里程碑是 NAS-Bench-101，但它存在一些局限性，使得许多现代算法无法直接在其上评估。于是，NAS-Bench-201 应运而生，也正是我们今天要深入探讨的主题——一个旨在为几乎所有 NAS 算法提供公平竞争环境的多功能基准。

NAS-Bench-201 定义了一个包含超过 15,000 种架构的固定搜索空间，并预先计算了它们在三个数据集上的性能。这使研究人员能够跳过重复且耗费 GPU 资源的训练过程，专注于最重要的部分: 搜索算法本身。

接下来，让我们深入解析 NAS-Bench-201 的工作原理、我们可以从中得到哪些启示，以及它为何是迈向更可复现且更高效 AI 研究的重要一步。

背景: 寻求标准化的 NAS 竞技场

现代 NAS 方法通常采用基于单元 (cell-based) 的方法。与其设计一个完整的大型网络，NAS 算法会去搜索最优的单元——一种小巧而灵活的计算模块——然后重复堆叠这些单元来构建完整模型。这种方法将搜索问题从“整个网络应该长什么样？”转变为“最优的构建模块是什么？”

NAS-Bench-201 采用了这一范式，定义了一个既具备足够挑战性以确保其意义，又小到可以对每一种架构进行穷尽训练和评估的搜索空间。这产生了一个庞大的“查找表”，NAS 算法只需提出一个架构，即可立即获得其真实的、完整训练后的性能——无需 GPU 训练。

NAS-Bench-201 的核心

NAS-Bench-201 不仅是一个数据集，更是一个包含四个主要组成部分的生态系统:

明确定义的搜索空间
具有标准化划分的多个数据集
预先计算的训练与评估指标
用于深入分析的丰富诊断信息

1. 搜索空间: 15,625 种架构的宇宙

所有架构共享相同的高层宏观骨架。如图 1 顶部所示，该骨架包含三个阶段，每个阶段堆叠五个相同的单元。每个阶段之间通过残差块连接，用以降低空间分辨率并提升通道深度。

图 1: 宏观骨架 (上图) 展示了如何堆叠单元构成网络。搜索空间涉及寻找最佳单元结构 (左下图) ，其中每条边使用预定义操作集 (右下图) 中的一种操作。

图 1: *上图: * 每个候选架构的宏观骨架。*左下图: * 包含四个节点的神经单元示例。每个单元是一个有向无环图 (DAG) ，其中每条边从一个预定义的操作集 (右下图) 中选择一个操作。

被搜索的单元 (图 1，底部) 是一个包含四个节点的有向无环图 (Directed Acyclic Graph, DAG) 。与一些早期基准将操作放在节点上的方式不同，NAS-Bench-201 将操作定义在边上。这与 DARTS 等流行的可微 NAS 方法更为一致。

在一个四节点图中，共有六条可能的有向边。每条边可以选择以下五种操作之一:

置零 (Zeroize) : 移除连接
跳跃连接 (Skip Connection) : 恒等映射 (类似 ResNet)
1×1 卷积
3×3 卷积
3×3 平均池化

由于有 6 条边且每条边有 5 种选择，因此可能的单元结构总数为:

\[ 5^6 = 15{,}625 \]

该搜索空间是与算法无关的——没有诸如最大边数限制等可能阻碍某些算法的硬性约束。“置零”操作增强了灵活性，使网络连接既可稀疏，又可稠密。

2. 数据集: 为公平比较而标准化

每种架构都在三个图像分类数据集上进行了训练:

CIFAR-10: 10 个类别；25,000 张训练图像，25,000 张验证图像
CIFAR-100: 图像与 CIFAR-10 相同，但划分为 100 个细粒度类别
ImageNet-16-120: 将 ImageNet 降采样至 16×16 像素，包含 120 个类别——计算开销低但具有挑战性

关键在于，该基准定义了固定的训练、验证和测试集划分。这确保每个 NAS 算法在各阶段均使用完全相同的数据，从根本上消除了主要的偏差来源。

3. 性能数据: 庞大的查找表

NAS-Bench-201 的核心在于对全部 15,625 种架构进行穷尽训练——每种架构在三个数据集上均进行了多次运行。

表 1: 用于训练基准中每个架构的标准化超参数集。

表 1: 标准化的训练超参数确保不同架构间的可比性。

训练均采用统一的超参数设置，包括 200 个周期的余弦学习率调度。当你查询某个架构的性能时，即是在真正的同等条件下进行比较。

该基准的 API 提供了丰富的指标集合。

表 2: 研究人员可即时查询模型在任何数据集上的训练/验证/测试性能。

表 2: 支持即时查询的指标，涵盖不同数据集的训练集、验证集和测试集。

研究人员在运行 NAS 算法时，针对任意提出的架构，都能立刻检索其完整训练后的最终准确率——将评估时间从数天缩短至毫秒级。

4. 诊断信息: 超越最终准确率

NAS-Bench-201 还提供了额外信息:

计算成本: 参数量、FLOPs 以及真实的 GPU 延迟
每周期训练指标: 每个周期的损失与准确率——有助于研究收敛性、稳定性与过拟合
已保存的模型权重: 所有架构的训练参数，可用于参数迁移及改进的权重共享研究

NAS-Bench-201 如何改进 NAS-Bench-101

NAS-Bench-201 直接建立在 NAS-Bench-101 的成功经验之上，但移除了几个关键障碍。

表 3: NAS-Bench-101 与 NAS-Bench-201 的对比。

表 3: 相较 NAS-Bench-101，NAS-Bench-201 支持更多 NAS 算法、更多数据集，并提供更丰富的诊断数据。

NAS-Bench-101 通过最大边数限制约束架构，排除了许多现代方法，尤其是在参数共享方面。NAS-Bench-201 移除了这一限制，支持三个数据集，并具备更强的分析潜力。

分析搜索空间: 来自 15,625 种架构的洞见

借助全面的性能数据，作者们得出以下关键结论。

图 2: 所有模型的准确率与参数量对比。拓扑结构与模型规模同等重要。

图 2: 每个架构的训练、验证和测试准确率与参数量关系。橙色星标代表 ResNet。

更多参数通常意味着更高准确率
固定参数量下，纵向分布差异大，说明拓扑结构至关重要
标准 ResNet 表现稳健，但许多 NAS 发现的架构能超越它

图 3: 跨数据集的架构排名相关性。

图 3: CIFAR-10 (x 轴) 与 CIFAR-100/ImageNet-16-120 (y 轴) 的架构排名对比。紧密的相关性带显示出较强的迁移能力。

在 CIFAR-10 上表现优异的架构通常能在其他数据集上延续优势。

图 4: 数据集内部及跨数据集的相关性热力图。

图 4: 数据集内部验证集与测试集高度相关；跨数据集则相关性较弱。

但迁移并非完美——强调了具备迁移意识的 NAS 的必要性。

图 5: 架构排名随训练周期变化的稳定性。

图 5: 排名在训练过程中逐步稳定。

早期排名波动较大，后期周期能提供可靠指标——为早停策略提供参考。

NAS 算法基准测试

作者们测试了 10 种近期 NAS 算法——从随机搜索到可微方法。

表 5: 10 种 NAS 算法的性能与搜索时间。

表 5: 使用 NAS-Bench-201，非参数共享方法的搜索时间从数天降至数秒。

关键洞见:

非参数共享方法的搜索时间由数天缩短至数秒
在该搜索空间中，REA、RS 和 REINFORCE 等简单方法的性能常优于复杂的可微 NAS 方法
可微方法 (如 DARTS) 可能退化为仅由跳跃连接构成的架构

图 7: 可微 NAS 中的不稳定性 (BN 运行均值估计) 。

图 7: 使用运行均值估计的 BN 层会导致不稳定性；DARTS 快速退化。

图 8: 使用 BN 批量统计可提高稳定性。

图 8: 使用批量统计在部分方法中改善了稳定性。

批量归一化 (BN) 的处理方式会显著影响可微 NAS 的性能。

结论: 更规范的 NAS 发展之路

NAS-Bench-201 是 NAS 研究的重要里程碑:

可复现性: 固定的搜索空间与标准化协议解决了可比性危机
效率: 预计算显著降低评估耗时，促进更广泛参与
洞见: 丰富的数据支撑更深入理解 NAS 的行为、迁移能力与算法动态

局限性: 所有架构均使用相同超参数，尽管部分架构可能受益于专门训练；搜索空间虽大，仍是有限的

尽管如此，NAS-Bench-201 依然让研究社区得以专注科学而非炒作，推动 NAS 的公平、可复现与高效发展。

它不仅是一个数据集——更是让最佳思想绽放光芒的公平竞技场。

背景: 寻求标准化的 NAS 竞技场#

NAS-Bench-201 的核心#

1. 搜索空间: 15,625 种架构的宇宙#

2. 数据集: 为公平比较而标准化#

3. 性能数据: 庞大的查找表#

4. 诊断信息: 超越最终准确率#

NAS-Bench-201 如何改进 NAS-Bench-101#

分析搜索空间: 来自 15,625 种架构的洞见#

NAS 算法基准测试#

结论: 更规范的 NAS 发展之路#