长期以来,设计神经网络的架构一直被视为一门玄学——直觉、经验与反复试验的结合。但如果我们能将这个过程自动化呢?如果一个 AI 能设计出更强大的 AI 呢?这就是神经架构搜索 (Neural Architecture Search, NAS) 的前景,该领域已经诞生了一些计算机视觉中性能最优秀的模型。

然而,这种强大的能力在过去一直伴随着惊人的成本。早期的顶尖方法,如谷歌的 NASNet,需要巨大的计算资源——500 张高端 GPU 连续运行 4 天,训练和评估 20,000 种不同的架构。这样的要求,让没有大型数据中心的多数研究人员或机构望而却步。

渐进式神经架构搜索 (Progressive Neural Architecture Search, PNAS) 应运而生: 这是一种更智能、更高效的方式来寻找高性能架构。PNAS 能够在达到先前方法相同准确率的同时,做到模型评估效率高出 5 倍总计算速度快 8 倍。PNAS 不是盲目地在巨大的可能性空间中搜索,而是从简单开始,逐步增加复杂性,并利用一个学习到的模型来引导搜索方向。

在本文中,我们将探索 PNAS 的工作原理——从其渐进式搜索策略到性能预测器——以及各项结果如何使它成为自动化机器学习领域的一个里程碑。


背景: 为什么架构搜索如此困难

在 PNAS 之前,主流的 NAS 方法主要有两种:

  • 强化学习 (Reinforcement Learning, RL) :
    一个基于 RNN 的控制器学习策略来生成描述神经架构的序列。每个生成的架构都会被训练,其验证准确率将作为奖励来更新控制器。经过数千次迭代,更优秀的架构逐渐涌现。NASNet 就是著名的例子。

  • 演化算法 (Evolutionary Algorithms, EA) :
    将架构视作一个基因组群体。性能最好的模型通过**突变 (随机更改) 和交叉 **(混合两个架构的部分) 来“繁殖”,逐步演化出更好的解决方案。

这两种方法都很强大,但成本极高: 它们从一开始就搜索完全指定、复杂度很高的架构。这导致反馈缓慢、计算开销巨大。

NASNet 的一个关键想法是搜索单元 (cell) 而不是整个 CNN。
一个单元是一个小型网络模块,通过堆叠可以构造完整 CNN——这大大缩小了搜索空间,并使其能够迁移到其他数据集。

PNAS 采用相同的基于单元的搜索空间,但在策略上进行了创新。


核心思想: 渐进式神经架构搜索

PNAS 建立在一个简单理念之上:
从小处着手,逐步增加复杂度,并且只训练那些最有潜力的架构。

搜索空间: 单元与块

一个单元 (cell) 是一个由 B块 (block) 组成的有向无环图。

一个执行以下操作:

  1. 接收两个输入。
  2. 对每个输入应用选定的操作。
  3. 通过逐元素相加合并结果。

输入可以来自:

  • 同一单元中较早块的输出。
  • 整个 CNN 中前两个单元的输出。

操作从一个紧凑且高效的 8 个选项中选择:

  • 深度可分离卷积 (3×3、5×5、7×7) 。
  • 平均池化 (3×3) 。
  • 最大池化 (3×3) 。
  • 1×7 卷积后接 7×1 卷积。
  • 3×3 空洞卷积。
  • 恒等映射。

CNN 通过堆叠学到的单元副本构建——有时通过步长为 2 的单元进行空间下采样。

PNASNet-5 单元结构 (左) ,由搜索算法找到;以及这些单元如何堆叠构建用于 CIFAR-10 和 ImageNet 的完整 CNN (右) 。

图 1. 左: PNAS 找到的最佳单元结构 (PNASNet-5) 。
右: 通过堆叠单元构建 CIFAR-10 和 ImageNet 的 CNN。

即使已经做了这种简化,搜索所有可能的 5 块单元仍然会产生约 \(10^{12}\) 种独特结构——暴力搜索完全不可行。


渐进式搜索策略

PNAS 分阶段、逐级地搜索:

  1. 级别 1 (B=1) :
    评估所有可能的单块单元 (共 136 种独特结构) 。它们训练很快,可提供初始关键数据。

  2. 级别 2 (B=2) :
    基于每个单块单元,添加所有可能的第二块——生成超过 100,000 个双块候选架构。

  3. 预测与选择:
    不训练所有候选,而是用性能预测器快速打分,只挑选排名前 K (如 K=256) 的架构进行训练。

  4. 训练与更新:
    训练这些前 K 个单元,并利用结果改善预测器。

  5. 重复:
    扩展、预测、选择、训练与更新,直到达到目标深度 (如 B=5) 。

PNAS 搜索过程 (B=3) 的示意图。算法逐步构建更复杂的单元,利用预测器给候选打分,并在每一阶段仅训练最有希望的架构 (实心蓝圈) 。

图 2. 在预测器指导下的渐进式搜索: 从 S1 (B=1) 开始,扩展到 S′2,预测评分,选择前 K 个形成 S2,训练,再重复此过程直到深度 B。

优点:

  • 效率高: 跳过不具潜力的架构。
  • 反馈快: 小模型训练快,有助于早期改进预测器。
  • 聚焦外推: 预测器对比以往刚稍大一些的模型进行排序。

算法概述

算法 1: 渐进式神经架构搜索 (PNAS) 。算法从 b=2 循环到 B,扩展单元,预测性能,选择前 K 训练,并更新预测器。

图 3. 渐进式神经架构搜索算法的简化伪代码。


秘密武器: 性能预测器

预测器为候选单元打分,只有排名靠前的 K 个才能进入训练阶段。预测器无需完美,只需排序正确。

要求

  1. 支持可变长度输入: 能为比训练集中更大的单元打分。
  2. 与真实性能排序一致: 预测排名应与实际排名相符。
  3. 样本效率高: 能从少量训练实例中学习。

测试过的模型

  • RNN 预测器 (LSTM) :
    读取标记序列 (块的输入与操作) 。天然支持可变长度。

  • MLP 预测器:
    将每个块的标记嵌入表示,然后在所有块上求平均,形成固定长度向量。

为减少方差,PNAS 使用了5 个预测器的集成,每个都在数据的不同子集上训练。


预测器效果如何?

研究人员用斯皮尔曼等级相关系数来衡量预测与实际性能的相关性。

MLP 集成预测器的真实准确率与预测准确率对比。顶行: 在训练中见过的模型尺寸;底行: 在更大、未见过的模型上的表现。尽管外推 (底行) 更难,但相关性依然为正。

图 4. 顶行: 相同尺寸模型 (当前级别) 的相关性很高。
底行: 外推到更大模型 (下一级) 时,相关性较低但依然为正。

不同预测器的斯皮尔曼等级相关系数。MLP 集成模型在外推任务 (ρ̃) 上通常表现最佳,这是 PNAS 最重要的应用场景。

表 1. MLP 与 RNN 预测器比较: MLP 集成在外推能力上略胜一筹——这是 PNAS 的关键应用。


效率之战: PNAS vs NAS vs 随机搜索

在相同搜索空间内,PNAS 与以下方法对比:

  • 基于强化学习的 NASNet
  • 随机搜索

PNAS、NAS 和随机搜索的搜索效率对比。在相同评估次数下,PNAS 始终能找到准确率更高的模型。

图 5. PNAS 更快找到优模型;曲线攀升更陡。

PNAS 与 NAS 的效率比较表。达到相同准确率时,NAS 需要评估的模型数量是 PNAS 的 3–5 倍。

表 2. 效率对比: PNAS 用极少的模型评估就能达到 NAS 的准确率。

PNAS 的优势:

  • 在模型评估数量上高出 5 倍的效率
  • 约快 8 倍的总计算速度: 避免了 NAS 耗时的重排序阶段

最终性能: CIFAR-10 与 ImageNet

CIFAR-10

最佳单元 PNASNet-5 测试错误率 3.41% —— 与 NASNet-A 相当,但计算开销减少 21 倍

CIFAR-10 测试集上的顶级模型性能。PNASNet-5 与 NASNet-A 精度相当,但搜索成本仅为其极小一部分。

表 3. CIFAR-10 结果: 以极低搜索成本实现相当或更高精度。

ImageNet 迁移

在 CIFAR 找到的单元在 ImageNet 上有效吗?是的。两者性能高度相关 (ρ=0.727) 。

架构在 CIFAR-10 上的性能与在 ImageNet 上性能高度相关,验证了先在小数据集搜索的策略可行。

图 6. 高相关性表明在 CIFAR-10 上搜索是大数据集搜索的有效代理。


ImageNet 结果

**移动端设定 **(224×224 输入,<600M 次乘加运算) :
受计算资源限制的“移动端”设定下的 ImageNet 分类结果。PNASNet-5 与最佳模型竞争力相当。

表 4. 移动端设定: PNASNet-5 与 NASNet-A 及顶级演化模型竞争力相当。

**大型设定 **(331×331 输入) :
“大型”设定下的 ImageNet 分类结果。PNASNet-5 精度创下新高,超过 NASNet-A,媲美 SENet。

表 5. 大型设定: PNASNet-5 达到 top-1 = 82.9%,top-5 = 96.2%,超过 NASNet-A 并与 SENet 相当。


结论与未来方向

PNAS 是向实用化、可普及的自动化架构搜索迈进的重要一步。通过从简单到复杂的逐步推进和预测引导:

  • 它以极低预算实现了 state-of-the-art 的结果。
  • 让缺乏海量计算的研究人员也能做有效 NAS 实验。
  • 证明了智能搜索胜过蛮力搜索

核心要点:

  • 由简到繁的搜索策略在巨大空间中极为高效。
  • 代理模型可有效引导探索过程。
  • 提升效率能让更多研究者参与 ML 研究。

未来的潜在方向包括:

  • 更优的预测器 (如带字符串核的高斯过程) 。
  • 对无前途架构进行早停。
  • 从较小父模型热启动更大模型。
  • 用贝叶斯优化选择候选。
  • 自动探索速度与精度的权衡。

PNAS 不只找到一个顶级模型——它给我们提供了一份蓝图,让我们能在不耗尽资源的情况下,找到更多这样的模型。