几十年来,让计算机像人类一样理解三维世界,一直是计算机视觉领域的核心目标。这项被称为立体视觉的技术,为自动驾驶汽车在复杂街道中导航、机器人精准抓取物体,以及增强现实系统将虚拟物体无缝融入现实环境提供了动力。立体视觉的核心是解决一个看似简单的问题: 给定同一场景从两个略微不同的角度 (如同我们的双眼) 拍摄的两张图像,我们能否计算出场景中每个物体的深度?

答案是响亮的**“能”**——近年来,深度学习彻底革新了这项任务。复杂的神经网络现在可以生成惊人精确的深度图。然而,这一成功也伴随着代价。设计这些顶尖的网络模型过程艰辛,需要依赖专家的直觉、反复试验以及多年的领域经验。最终得到的模型通常规模庞大且计算成本高昂。

这就引出了一个诱人的问题: 我们能否将设计过程本身自动化?AI 能否学会设计出更强大的 AI?这正是**神经架构搜索 **(Neural Architecture Search, NAS) 所承诺的目标,该领域在图像分类等任务中已取得了显著成功。

然而,长期以来,将 NAS 应用于像立体匹配这样资源高度密集的任务被认为是不可行的。其搜索空间大到天文数字,而且立体匹配模型内存占用高,难以在搜索过程中反复训练。这正是研究团队要解决的挑战。在他们的论文《深度立体匹配的分层神经架构搜索》中,他们提出了 LEAStereo (Learning Effective Architecture Stereo) ——一个不仅让 NAS 在立体匹配任务中变得可行,还利用它构建出了一个比以往任何模型都更小更快更准的全新 SOTA 模型的框架。

两张图表对比 LEAStereo 与其他立体匹配方法。左图显示 LEAStereo 在高精度下参数量远少于对手,右图显示其运行时间快得多。

图 1: LEAStereo 在 KITTI 2015 基准测试中创造了新的 SOTA 记录,与此前方法相比,它以极少的参数量和显著更快的推理速度实现了顶尖精度。

本文将深入解析作者们如何取得这些成果,探讨他们如何将人类的几何知识与自动化搜索方法相结合,从而推动 3D 计算机视觉的前沿发展。


背景: 现代立体视觉的基石

在深入介绍 LEAStereo 的创新之前,让我们先回顾两个核心概念: 现代深度模型如何处理立体匹配任务,以及 NAS 的原理。

深度立体匹配的“黄金标准”流程

现代深度立体匹配方法通常分为两大类:

  1. 直接回归: 大型 U-Net 风格的架构直接从输入图像预测每个像素的视差 (深度) 值。这类模型概念简单,但在应对陌生环境时泛化能力可能不足。

  2. 体数据 (代价体) 方法: 受经典立体几何学启发,是当前的黄金标准。这类方法遵循一个结构化的多步骤流程:

    1. 特征网络 (Feature Net): 一个 2D 卷积神经网络分别处理左右图像,为每个像素提取丰富的特征描述。
    2. 特征体构建: 将左图特征与右图特征拼接,右图特征会根据所有可能的视差级别进行平移,形成一个 4D 特征体,其中每个“切片”代表一个深度假设。
    3. 匹配网络 (Matching Net): 一个 3D CNN 处理该 4D 特征体,分析不同视差下的匹配代价,并将它们聚合为 3D 代价体。
    4. 投影层: 借助如 soft-argmin 这类不可学习的操作,选出每个像素最可能的视差,生成最终视差图。

一张流程图,展示了基于代价体的立体匹配网络从立体图像输入到最终视差图的处理流程。

图 2: 现代基于代价体的立体匹配网络的标准流程。LEAStereo 在其中两个可学习的组件——特征网络与匹配网络——上应用了 NAS 进行优化。

基于代价体的方法表现优异,因为它们将几何约束直接融入了网络设计。但代价是: 4D 特征体对内存需求极大,可学习的特征网络和匹配网络可能极为复杂和深层。设计好这些子网络至关重要——也正是人工设计投入最多的地方。

神经架构搜索 (NAS)

NAS 旨在自动化网络架构设计。它不再依赖人工指定所有的层、卷积核大小与连接方式,而是通过搜索算法探索各种可能的结构,从而找到针对特定任务的最佳模型。

早期的 NAS 方法代价高昂,需要成千上万 GPU 小时的计算。更高效的变体如 DARTS (可微分架构搜索) 将 NAS 重构为一个学习问题。在 DARTS 中,搜索网络不是为每个连接选择单一操作,而是学习所有候选操作的加权组合。在训练完成后,选择权重最高的操作作为最终架构。

即便如此,直接将 NAS 应用于立体匹配依然不可行: 模型结构庞大且内存消耗高,无法在搜索循环中多次训练。


LEAStereo 方法: 智能搜索,而非暴力穷举

LEAStereo 的核心创新在于将基于代价体的立体匹配流程与 NAS 融合。作者没有搜索一个庞大单一的网络,而是将搜索聚焦于最关键的两个部分:** 特征网络匹配网络**。

他们设计了一个分层搜索空间,支持在两个层次进行优化: 微观层面 (单个构建块或单元) 和宏观层面 (整体网络结构) 。

层级 1: 单元级搜索

*单元 *(cell) 是可复用的构建模块,被定义为一个有向无环图 (DAG) 。节点表示特征图,边表示操作。

在 LEAStereo 中,每个单元有两个输入节点 (前两个单元的输出) 、三个中间节点和一个输出节点。中间节点 \(s^{(j)}\) 的输出为:

\[ \mathbf{s}^{(j)} = \sum_{i \rightsquigarrow j} o^{(i,j)} \left( \mathbf{s}^{(i)} \right) \]

其中,\(o^{(i,j)}\) 表示应用于输入节点的操作,该操作通过对候选操作进行 softmax 加权平均来确定:

\[ o^{(i,j)}(\mathbf{x}) = \sum_{r=1}^{\nu} \frac{\exp\left(\alpha_r^{(i,j)}\right)}{\sum_{s=1}^{\nu} \exp\left(\alpha_s^{(i,j)}\right)} \; o_r^{(i,j)}(\mathbf{x}) \]

在搜索结束时,选择权重最高的操作作为最终确定的离散选项。

两个关键单元级设计决策:

  1. 精简且针对性的操作集:
    • 特征网络: 3×3 2D 卷积跳跃连接
    • 匹配网络: 3×3×3 3D 卷积跳跃连接
      这一精简设计避免了容量不足的架构被过多的池化/跳跃连接操作占据。
  2. 残差单元设计:
    受 ResNet 启发,在单元的输入和输出之间增加了一个跳跃连接 (见图 3 中红色虚线) ,便于网络学习恒等映射,并将学习重点集中在残差上,从而稳定训练并提升精度。

两级搜索空间示意图: 左为单元级有向图,右为网络级网格结构。

图 3: 分层搜索空间。左图: 带残差连接 (红线) 的单元级搜索。右图: 定义多分辨率数据流的网络级“网格结构”。

层级 2: 网络级搜索

在定义了单元结构后,下一步是如何将它们组合起来——这是宏观层面的搜索。网络结构被表示为 L 层*网格结构 *(trellis,见图 3 右侧) 中的一条路径。每一列代表一层;每一行代表一种空间分辨率 (例如输入大小的 1/3、1/6、1/12、1/24) 。

搜索参数 \(\beta\) 决定了最佳路径——何时下采样以获得更大视野,何时保持高分辨率以保留细节。该设计融入了领域知识: 网络不再随意连接,而是被限制在成熟的多尺度体数据处理流程中。这大幅缩小了搜索空间,使得在立体匹配任务上进行完整的架构搜索成为可能。

损失函数与优化

网络使用平滑 \(\ell_1\) 损失进行端到端训练:

\[ \mathcal{L} = \ell(\mathbf{d}_{\text{pred}} - \mathbf{d}_{\text{gt}}), \quad \ell(x) = \begin{cases} 0.5 x^{2}, & |x| < 1, \\ |x| - 0.5, & \text{otherwise.} \end{cases} \]

采用双层优化策略,在两个不重叠的训练集上交替更新网络权重 \(w\) 和架构参数 (\(\alpha, \beta\)),有效防止过拟合并鼓励架构设计的鲁棒性。


实验: 新冠军的诞生

架构搜索仅在大型合成数据集 SceneFlow 上运行一次。得到的架构未经额外搜索,直接在标准基准上进行微调和评估。

搜索出的架构

最终搜索出的特征网络和匹配网络架构,包含单元结构和网络级路径。

图 4: LEAStereo 搜索找到的最终架构。上图: 特征网络与匹配网络的内部单元结构。下图: 通过多分辨率网格结构的网络级路径。


基准测试结果

SceneFlow:
LEAStereo 仅用 181 万 参数就实现了 EPE = 0.78,优于基于 NAS 的 AutoDispNet (3700 万参数) 和人工设计的 GANet-deep (658 万参数) 。

SceneFlow 数据集结果表。LEAStereo 以 181 万参数取得最佳 EPE 和 bad 1.0 分数。

表 1: LEAStereo 在 SceneFlow 基准测试中位列第一,同时比竞争对手更小、更快。


KITTI 2012 & 2015:
在提交时,LEAStereo 在两个排行榜上均排名第一,超过了更大规模的架构。

KITTI 2012 和 2015 基准测试结果表,显示 LEAStereo 为最佳表现者。

表 2: LEAStereo 在 KITTI 基准上的精度超过了人工设计模型。

KITTI 数据集的可视化对比,显示 LEAStereo 生成的视差图更干净、更准确。

图 5: KITTI 数据集上的可视化结果。LEAStereo 产生了更清晰、更精确的视差图。


Middlebury 2014:
得益于紧凑的结构,LEAStereo 能处理比多数对手更高分辨率的图像,在多个指标上达到 SOTA 水平。

Middlebury 2014 基准测试结果表,LEAStereo 排名前列。

表 3: LEAStereo 在 Middlebury 数据集的高分辨率视差估计中表现优异。

Middlebury 数据集可视化对比,LEAStereo 的误差图错误更少。

图 6: Middlebury 定性比较。LEAStereo 的误差图显示大块错误更少。


成功的原因?——消融实验启示

  • 联合搜索 > 分开搜索: 同时优化特征网络和匹配网络可得到更准确、更小的模型,这是因为架构能够协同适应。
  • 残差单元 > 直接单元: 增加输入跳跃连接,在几乎不增加参数的前提下带来 14% 的性能提升。
  • 特征网络分析: 仅用特征网络输出配合简单匹配器就能生成较优的视差图;加入匹配网络后效果得到进一步提升。

四张对比图: 左输入、真实值、仅特征网络结果、完整网络结果。

图 7: 仅特征网络 (第三张图) 即可生成不错的视差图;匹配网络 (第四张图) 进一步优化了结果。


正面对决: LEAStereo vs. AutoDispNet

LEAStereo 和 AutoDispNet 对比表。LEAStereo 更小、更快、更准。

LEAStereo 在参数量上小了 60 多倍,速度快了 3 倍,精度也更高。AutoDispNet 仅在固定类 U-Net 骨干上搜索单元结构;而 LEAStereo 则在特定领域的分层搜索空间中探索完整架构


结论与启示

LEAStereo 是立体视觉与 NAS 领域的一个里程碑成果,表明在挑战性大、资源消耗高的视觉任务中,有指导、基于领域知识的自动化架构搜索可以超越专家手工设计。

关键总结:

  1. 领域知识驱动效率: 将 NAS 限定在成熟的立体匹配流程框架内,使搜索既可行又高效。
  2. 分层搜索的重要性: 同时在单元与网络层面优化,能平衡细节粒度与全局结构。
  3. 性能与效率兼顾: LEAStereo 在紧凑、快速的模型中实现了顶尖精度——非常适合实际机器人与自动驾驶应用。

这一方法为将类似的指导性 NAS 框架推广到其他密集匹配任务 (如光流、多视图立体) 铺平了道路。未来的网络设计或将成为人类洞察与机器优化的协作成果——两者相辅相成,共同提升。