简介
在快速发展的监控和安防领域,无人机 (UAV) 带来了一个独特的挑战。它们体积小、动作敏捷,而且往往难以被发现。红外 (热) 成像已成为检测这些目标的首选解决方案,无论光照条件如何,都能提供昼夜可见性。然而,这里面有个问题: 硬件本身往往会成为阻碍。
热探测器是敏感设备。相机自身的光学镜头和外壳产生的热量会造成一种被称为依赖于温度的低频非均匀性的现象,通常被称为“偏置场 (bias field) ”。这就好比试图通过一扇边缘起雾、中间抹了油的窗户去观察一只小鸟。这本质上就是计算机视觉算法在处理原始红外影像时所面临的情况。这种偏置场会降低对比度,并掩盖无人机微弱的热信号。
传统上,工程师将这视为两个独立的问题: 第一,清理图像 (非均匀性校正,简称 NUC) ;第二,检测物体。但是,如果清理过程不小心擦除了目标怎么办?如果检测器能告诉清理器应该关注什么呢?
在这篇文章中,我们将深入探讨 UniCD , 这是 CVPR 上发表的一项新颖框架,它将图像校正和目标检测统一到一个端到端的流程中。我们将探索研究人员如何结合多项式数学与深度学习,创建一个不仅能让图像看起来更好,还能使其“对检测友好”的系统。

如图 1 所示,“联合 (Union) ”方法 (c) 代表了一种范式转变。不同于忽略噪声的直接法 (a),或盲目校正噪声的分离法 (b),联合框架允许检测任务指导校正过程,从而显著提高了置信度。
背景: 视觉与传感之间的冲突
要理解为什么需要 UniCD,我们必须先了解现有方法的局限性。
偏置场问题
在红外成像中,“偏置场”是一种低频干扰。它看起来不像静态颗粒 (高频噪声) ,而像覆盖在图像上的平滑、波动的亮度渐变。由于无人机通常距离较远,表现为微弱的小像素簇,强烈的偏置场可能会完全淹没它们。
“分离”策略的瓶颈
行业标准的方法是级联式的:
- NUC 模块: 使用算法估计并减去偏置场。
- 检测模块: 在输出结果上运行标准的目标检测器 (如 YOLO 或 Faster R-CNN) 。
问题在于脱节。传统的 NUC 方法 (基于模型) 依赖于手工设计的特征,这在复杂场景中往往会失效。基于深度学习的 NUC 方法需要海量的成对“清晰/脏”图像数据集,这在现实中很难获取。最重要的是,NUC 模块根本不知道无人机长什么样。它可能会平滑掉实际上是远处无人机的一块“噪声斑块”。
解决方案: 联合框架
UniCD 的作者提出,这两个任务不应该是陌生人,而应该是合作伙伴。通过训练一个网络同时执行这两个任务,系统可以学习以一种专门有助于检测的方式来去除噪声。
核心方法: UniCD 架构
UniCD 框架是由两个主要的协作组件组成的端到端管道: 先验与数据驱动的 NUC 模块和掩膜监督检测器 。

让我们逐步拆解上图中显示的架构。
1. 先验与数据驱动的非均匀性校正
这篇论文最巧妙的地方之一在于它处理偏置场的方式。作者没有使用沉重的神经网络来预测每一个像素的校正值 (这在计算上非常昂贵) ,而是使用了一种参数化方法 。
他们将退化图像 \(Y\) 建模为清晰图像 \(C\) 和偏置场 \(B\) 的总和:

关键的洞察是偏置场 \(B\) 在空间上是平滑的。因此,它可以用二元多项式在数学上进行近似。网络不需要学习数百万个像素值,只需要学习一小组多项式系数。
偏置场被建模为:

这里:
- \(x_i, y_j\) 是像素坐标。
- \(D\) 是多项式的阶数 (本文中设为 3) 。
- \(\mathbf{a}\) 是网络需要预测的系数向量。
轻量级预测网络
为了找到这些系数,作者设计了一个包含两个编码器的轻量级网络:
- 全局偏置场编码器 (GBFE): 使用 Swin Transformer 层来捕获长距离依赖关系 (偏置的整体“形状”) 。
- 局部偏置场编码器 (LBFE): 使用空间注意力机制来捕获局部变化。
特征被融合如下:

最后,一个回归头预测系数 \(\hat{\mathbf{a}}\):

通过仅预测极少量的系数 (具体来说,对于 3 阶多项式只有 10 个系数) ,该模型速度极快,并且避免了对图像内容的过拟合。校正损失仅仅是预测系数与实际系数之间的差异:

2. 掩膜监督红外无人机检测器
图像校正后,会被传递给检测网络。作者使用了 DANet 的定制版本。然而,检测微小的红外目标需要的不仅仅是标准的边界框回归。无人机的特征很弱,而且背景往往很复杂 (云层、建筑物、树木) 。
为了解决这个问题,他们引入了目标增强与背景抑制 (TEBS) 损失 。

TEBS 如何工作
标准检测器通过查看最终输出来计算损失。TEBS 则在更早阶段介入。它在网络的骨干网 (backbone) 内部 (多个阶段) 施加监督。
它使用一个二值掩膜 \(M\):

网络被迫在不同阶段对特征图 \(F_i\) 执行像素级分类 (目标 vs 背景) 。这迫使神经网络的隐藏层仅在无人机所在的位置“点亮”,而在其他地方保持黑暗。

这个辅助损失被添加到标准的分类和回归损失中:

通过有效地抑制特征图中的背景噪声,检测器在面对杂波时变得更加鲁棒。
3. 桥梁: 偏置鲁棒 (BR) 损失
我们现在有了一个校正器和一个检测器。我们如何确保它们以最佳方式协同工作?如果我们只是简单地连接它们,检测器可能会迫使校正器产生奇怪的伪影,这些伪影恰好能最大化检测分数,但对人类来说看起来很糟糕。
为了平衡这一点,作者引入了偏置鲁棒 (BR) 损失 。 这是在训练期间使用的一种自监督机制。

在训练期间 (使用拥有“真值”清晰图像的合成数据) ,系统将校正图像 (R) 和清晰图像 (C) 同时输入检测骨干网络。
目标是确保从校正图像中提取的特征与从清晰图像中提取的特征完全相同。这是使用余弦相似度来衡量的:

该损失最小化了这些特征表示之间的差异:

这确保了 NUC 模块生成的图像不仅在视觉上干净,而且在检测器眼中,语义上也与完美的、无偏置的图像一致。
整个 UniCD 框架的最终损失函数是检测损失和偏置鲁棒损失的总和:

实验与结果
为了验证该方法,研究人员构建了一个庞大的新基准数据集,名为 IRBFD (红外偏置场数据集) ,包含 50,000 张图像 (3 万张合成,2 万张真实世界) ,并带有标注的无人机目标以及森林、城市和海洋等多种背景类型。
定量分析
合成数据集 (拥有绝对真值) 上的结果令人信服。

查看表 1 , 我们可以看到 UniCD 优于“直接”方法和“分离” (先校正后检测) 方法。
- 精确率 (P): 0.999 (近乎完美)
- 召回率 (R): 0.822 (显著高于第二名,纯 YOLO11L 约为 0.602) 。
- FPS: 32 (实时性能) 。
“分离”方法 (如 Liu + YOLO 或 AHBC + DAGNet) 通常表现出召回率的大幅下降。这证实了之前的假设,即断开连接的校正步骤往往会破坏目标特征。
真实世界数据的结果同样令人印象深刻:

表 2 显示,UniCD 保持了高精确率 (0.994) 并在真实数据上实现了 0.901 的召回率,显著优于分离策略。 SCRG (信杂比增益) 为 1.286,表明校正后目标在背景中更加清晰。

图 5 中的精确率-召回率曲线直观地展示了 UniCD (红线) 的优越性,它包围的面积最大,表明在不同阈值下都具有始终如一的高性能。
视觉定性结果
数字固然重要,但在计算机视觉中,眼见为实。

在图 6 中,注意“退化图像 (Degraded Image) ”这一行。目标几乎不可见。
- 传统方法如“Liu”或“AHBC”留下了显著的非均匀性 (暗角、晕影) ,导致漏检 (由“Miss Detection”标签指示) 。
- UniCD (底行) 生成了干净、平坦的图像,并以高置信度成功框选了目标。

图 7 展示了真实世界的例子。在第三行 (多云天空) 中,“TV-DIP”方法未能去除云层纹理干扰,导致漏检。UniCD 清除了干扰并发现了无人机。
为什么它有效? (消融实验)
作者进行了消融实验,以证明他们引擎的每个部分都是必要的。
1. 多项式阶数:
他们测试了偏置场多项式的不同阶数。
如表 3 所示,3 阶是最佳平衡点。2 阶太简单 (召回率低) ,而 4 阶和 5 阶引入了不必要的复杂性且没有提升性能。
2. 编码器结构:
使用局部 (LBFE) 和全局 (GBFE) 编码器产生了最高的 PSNR (峰值信噪比) 。移除基于 Transformer 的 GBFE 会显著损害性能,证明捕获全局上下文对于理解偏置场至关重要。
3. TEBS 损失:
内部掩膜监督真的有帮助吗?
表 5 显示,启用 TEBS 后,召回率有明显的提升 (从 0.762 到 0.810) 。
图 8 可视化了这种影响。没有 TEBS (左列) ,特征图充满噪声。有了 TEBS (右列) ,特征图上的“热点”紧紧聚焦在无人机目标上。
4. 偏置鲁棒 (BR) 损失:
最后是维系框架的“胶水”。
表 6 揭示,如果没有 BR 损失,“联合”模型的表现 (召回率 0.791) 实际上比完整的 UniCD 模型 (召回率 0.822) 要差。这证实了仅仅将网络放在一起训练是不够的;你需要 BR 损失来强制特征一致性。
结论
UniCD 框架代表了红外监控领域向前迈出的重要一步。通过将非均匀性校正和目标检测不视为连续的障碍,而是视为一个统一的、协作的任务,作者实现了最先进的性能。
给学生和研究人员的关键要点:
- 先验知识很重要: 使用多项式模型 (先验) 而不是原始像素预测,大大降低了模型的大小和复杂性。
- 内部监督: TEBS 损失向我们展示,监督神经网络的内部 (中间特征) 与监督输出同样重要。
- 任务对齐: 偏置鲁棒损失教会我们,当结合多个任务时,必须在数学上确保它们使用的是同一种“特征语言”。
凭借 32 FPS 的处理速度,UniCD 不仅仅是一个理论练习——它是一个准备好部署在现实世界无人机监控系统上的实用解决方案,有望让我们的天空更安全,让传感器更智能。
](https://deep-paper.org/en/paper/file-1982/images/cover.png)