超越晴天：G-NAS 如何让目标检测器在黑暗中也能看清

想象一辆自动驾驶汽车，其人工智能系统在数千小时明亮、晴朗的加州日间视频中接受训练。它能以惊人的准确度识别行人、汽车和骑行者。现在，把这辆车开到伦敦雾气弥漫的清晨、西雅图细雨蒙蒙的傍晚，或东京午夜灯光昏暗的街道。它还能依然表现得完美无缺吗？

这正是现代计算机视觉领域最大挑战之一的核心:** 域泛化 (domain generalization)** 。模型在某个特定环境 (一个“域”) 中训练后，部署到新的、未见过的环境时，往往会表现不佳。而当你只能从单一源域的数据中学习时，这个问题会更加棘手。这个具体、现实且艰难的挑战被称为单域泛化目标检测 (Single Domain Generalization Object Detection, S-DGOD) 。

单域泛化目标检测 (S-DGOD) 的挑战。模型仅在晴天白昼图像上训练，但必须泛化到雾天、雨天和夜晚等从未见过的场景。

图 1: S-DGOD 的设定旨在从单一源域学习并泛化到多个未见过的目标域。这需要从源域中提取因果特征，以实现域外 (Out-of-Domain, OoD) 泛化。

最近的一篇论文 G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection 直击这一问题。研究人员提出了一种方法，不仅仅是训练一个模型，而是设计出一种全新的神经网络架构，专门针对泛化能力进行优化。他们将神经架构搜索 (NAS) 的强大能力与一个巧妙的新损失函数结合起来，引导网络避免过拟合。

结果令人印象深刻。这种名为 G-NAS 的方法，即使在其他最先进模型束手无策的极端挑战场景下，也能准确检测物体。

G-NAS 在复杂夜间驾驶场景中高置信度地检测物体的示例。

图 2: G-NAS 在 S-DGOD 任务中的预测结果 (类别: 置信度) 。框的颜色表示物体类别。G-NAS 在极具挑战性的环境中也能稳定检测。

在本文中，我们将深入探讨:

伪相关性的核心问题，以及为什么它们是泛化的敌人。
可微分神经架构搜索 (NAS) 的工作原理。
作者的关键创新:** 可泛化损失 (G-loss)** 。
令人瞩目的实验结果，展示了 G-NAS 在 S-DGOD 领域创造了新的 SOTA (最先进水平) 。

过拟合陷阱: 为什么泛化如此困难

深度神经网络是极其强大的模式识别器——但有时它们会抓错“重点”。在单一域上训练时，它们往往会学到一些“容易”的特征，这些特征在训练数据中与标签相关，但在其他环境下却毫无意义。这些就是伪相关性 (spurious correlations) 。

想象白天的驾驶图像，其中大多数汽车都在沥青路面上。网络可能会学到“物体下方有一条深灰色的带状区域意味着这是汽车”的捷径。这在晴朗的白天数据中非常奏效，但在夜间或土路上就会失灵。模型从未真正学会汽车的定义，只是记住了一个只在训练域成立的偷懒规则。

在 S-DGOD 中，区分因果特征 (如物体的形状和结构) 与非因果特征 (如路面纹理、光照条件) 至关重要。以往方法主要聚焦于特征归一化或特征解耦。而 G-NAS 的作者则指出，一个被忽视的重要切入点是: 网络架构本身的设计。

神经架构搜索 (NAS) 登场

如果我们不把网络结构固定为 ResNet 之类的已有架构，而是自动搜索出天生就更擅长泛化的架构，会怎样？

该研究基于可微分 NAS (DARTS) 构建。核心思想是:

创建一个包含所有候选操作 (卷积、池化等) 的超网 (super-net) 。
为每个操作分配一个可学习的权重 \(\alpha\)。
通过梯度下降，同时训练架构参数 \(\alpha\) 与常规的网络权重。
最终保留权重最高的操作。

这种方法将离散的架构选择转化为连续优化问题，与早期方法相比，大大加快了 NAS 的速度。

至关重要的是，G-NAS 将 NAS 应用在目标检测器的预测头 (prediction head) ——即将特征图转化为边界框与类别标签的核心组件。

G-NAS 框架概览，展示了搜索阶段 (发现架构) 和增强阶段 (最终模型重训练) 。

图 3: G-NAS 概览。搜索阶段使用 G-loss 训练超网预测头。增强阶段使用发现的架构重新训练检测器。

但这里有个问题: 如果没有引导，NAS 可能会生成一个高度依赖训练域中伪特征的架构。我们需要一种方法，引导 NAS 学习因果且可泛化的特征。

G-NAS 与可泛化损失

问题可视化

雾天场景清楚展示了仅在晴天训练的标准模型如何失效:

Grad-CAM 可视化图显示基线模型被伪背景特征误导 (中) ，而 G-NAS 专注于物体相关特征 (右) 。

图 4: 雾天场景 Grad-CAM 图。基线模型关注与物体无关的背景线索；G-NAS 正确地集中在物体本身。

基线模型容易被与物体无关但显著的背景模式分散注意力——这些伪相关性一旦换到新域就会崩溃。G-NAS 通过可泛化损失 (Generalizable Loss) 来有效避免这一问题。

G-loss 公式

G-loss 定义为:

\[ \mathcal{L}_g(\theta, \omega, \alpha) = \frac{1}{2} \|\hat{\mathbf{y}}_1\|^{2} - \frac{1}{2} \|\hat{\mathbf{y}}_2\|^{2} \]

其中:

\(\hat{\mathbf{y}}_1\): 分类输出 (物体类别) 。
\(\hat{\mathbf{y}}_2\): 回归输出 (边界框坐标) 。

乍看之下，符号设计似乎反常——为何要鼓励回归输出的范数更大而分类输出更小？NTK 理论给出了答案: 它改变了优化过程，使不同样本的梯度更加独立，从而减轻了梯度饥饿 (gradient starvation) ——即网络只关注最容易学的特征。

有了 G-loss，占主导地位的“简单”特征不再垄断学习；网络被迫整合更多元、更难捕捉的特征——这些特征往往是因果且可迁移的。

G-NAS 算法

整体流程分为两个阶段:

搜索阶段 (Search Stage) :
使用以下公式训练超网预测头:
\[ \mathcal{L}_{\text{train}} = \mathcal{L}_{\text{det}} + \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{reg}} + \lambda_g \cdot \mathcal{L}_g \]
同时更新权重 \(\omega\) 与架构参数 \(\alpha\)。
增强阶段 (Augment Stage) :
从搜索阶段选出最佳架构 \(\alpha^*\)，用它重建标准规模的预测头，并从零开始用相同的损失函数重新训练至收敛。

实验与结果

基准测试:** 仅**在 Daytime-Sunny 数据集上训练，然后在四个未见过的域上测试:

Daytime-Foggy
Dusk-Rainy
Night-Sunny
Night-Rainy

整体性能

表 1: G-NAS 显著优于此前的 SOTA 方法。

表 1: mAP 结果。Average 为四个未见过目标域的平均值。

G-NAS 的平均 mAP 达 33.5%，大幅领先之前的最佳方法 (SRCD，29.6%) 。它在所有目标域上均获胜，其中 Night-Sunny 域提升最大 (+8.3 mAP) 。

为什么 NAS 和 G-loss 缺一不可

消融实验分别去掉 NAS、去掉 G-loss，以及同时去掉两者进行测试:

表 4: 消融研究。移除 NAS 或 G-loss 都会导致性能下降。

表 4: 移除 NAS 或 G-loss 均造成性能下降，体现了两者的协同效应。

结果:

基线: 27.0% mAP
仅 G-loss: 31.1%
仅 NAS: 28.2%
NAS + G-loss:** 33.5%**

特征可视化: PCA

PCA 投影展示了 G-loss 的作用:

PCA 投影。无 G-loss (上) 时，不同域分散；有 G-loss (下) 时，不同域重叠更多，表明学到了共享的、域不变的特征。

图 5: 使用 G-loss 学习到的表示使各域对齐更紧密，显示出更强的不变性。

没有 G-loss 时，不同域的特征簇彼此分离；有了 G-loss，各域特征明显更多重叠——域不变性得以直观体现。

定性结果

雾天与雨天场景:

雾天和雨天场景对比。G-NAS 检测到的物体多于基线模型。

图 8: 前三行: Daytime-Foggy；后三行: Dusk-Rainy。G-NAS (右) 始终检测到更多物体。

夜间场景:

夜间场景对比。G-NAS 在低光下仍保持强大检测能力。

图 9: 前三行: Night-Sunny；后三行: Night-Rainy。

结论与展望

G-NAS 标志着在高要求的 S-DGOD 设定下，设计鲁棒、可泛化目标检测器取得了重要进展。

核心要点:

问题: 标准模型 (即使结合 NAS) 也会过拟合单一域中的“简单”特征。
解决方案: G-NAS 引入**可泛化损失 **(\(\mathcal{L}_g\)) 引导 NAS 搜索能学习多样且因果特征的架构。
结果: 在多个未见过、充满挑战的环境中均达最先进水平。

这是 NAS 在 S-DGOD 领域的首次成功应用，而通过具备域外泛化意识的目标函数来引导架构搜索的思路，可能会深刻影响远超目标检测范畴的鲁棒模型设计。

随着人工智能系统迈入复杂、多变且难以预测的真实世界，像 G-NAS 这样将泛化能力置于首位的方法将变得不可或缺。

过拟合陷阱: 为什么泛化如此困难#

神经架构搜索 (NAS) 登场#

G-NAS 与可泛化损失#

问题可视化#

G-loss 公式#

G-NAS 算法#

实验与结果#

整体性能#

为什么 NAS 和 G-loss 缺一不可#

特征可视化: PCA#

定性结果#

结论与展望#