当你用智能手机拍照时,瞬间会进行大量的处理工作。传感器捕获原始信号,但在图像到达屏幕之前,图像信号处理器 (ISP) 会对数据进行压缩、调整颜色、平衡白平衡并对阴影进行色调映射。其结果是一张sRGB图像——这是为了人眼优化的。

但对于计算机视觉研究人员来说,有一个关键问题: 针对人类视觉优化的图像,对机器视觉真的好吗?

论文*《Towards RAW Object Detection in Diverse Conditions》 (面向多样化条件下的RAW目标检测) *的作者认为答案是“否”。传统的物体检测模型依赖于sRGB图像,因此丢失了隐藏在原始RAW数据中的关键信息——当试图在黑暗的小巷中检测行人或在浓雾中检测汽车时,这些信息变得至关重要。

在这篇深度解读中,我们将探讨该研究团队如何将范式从sRGB转变为RAW目标检测。我们将了解他们庞大的新数据集 AODRaw , 以及他们利用知识蒸馏直接在RAW数据上预训练模型的新颖方法。

人眼标准的弊端

要理解为什么RAW很重要,我们首先需要了解转换为sRGB时我们失去了什么。

典型的相机传感器以高位深 (通常为12到14位) 捕获图像。这允许巨大的动态范围,保留最亮的高光和最暗的阴影中的细节。然而,标准的计算机视觉流程使用的是8位sRGB图像。ISP压缩了动态范围并应用非线性变换,使图像对人类来说看起来“自然”。

在完美的光照下,这影响不大。但在恶劣条件下——如低光、雨天或雾天——这种压缩会丢弃神经网络用来区分物体与背景的精确信号差异。

研究人员将目标检测方法分为三类,如下图所示:

目标检测流程对比: (a) 传统sRGB,(b) 可训练ISP,以及 (c) 提出的RAW方法。

  1. 传统的基于sRGB的方法 (图1a) : 标准方法。相机的ISP处理数据,在AI看到数据之前就丢弃了信息。
  2. 可训练ISP (图1b) : 一种折中方案。研究人员尝试用一个专门为检测学习如何处理RAW数据的神经网络来替代固定的ISP。虽然效果更好,但这增加了计算开销和复杂性。
  3. 提出的方法 (图1c) : 直接RAW预训练。模型直接使用RAW数据,利用巧妙的“教师-学生”蒸馏设置来学习鲁棒的特征,而无需单独的ISP模块。

介绍 AODRaw: 现实世界的基准

RAW目标检测的最大障碍之一一直是缺乏数据。你可以从互联网上抓取数百万张JPEG图片来训练sRGB模型,但你无法轻易抓取RAW文件。它们体积大、格式专有且难以获得。以前的数据集要么太小,要么只关注低光环境,要么依赖无法捕捉真实世界噪声的合成数据。

为了解决这个问题,作者推出了 AODRaw (基于RAW图像的恶劣条件目标检测数据集) 。

数据集多样性

AODRaw 不仅仅是一堆黑暗的照片。它是一个旨在测试机器感知极限的综合数据集。它包含 7,785张高分辨率的真实RAW图像 , 拥有超过 135,000个标注实例

AODRaw 的独特之处在于它所覆盖的环境条件矩阵。研究人员在9种不同的条件下采集了场景,混合了光照 (日光、低光) 和天气 (晴朗、雨、雾) 。

AODRaw数据集的示例图像,展示了低光、雨和雾等各种恶劣条件。

如上图所示,该数据集捕捉了现实世界驾驶和监控场景的复杂性。在雨夜行驶的汽车,其RAW数据与在阳光充足的停车场中的汽车有着本质的区别。

统计意义

AODRaw 不仅在天气上具有多样性;在内容上也是如此。许多以前的RAW数据集只关注少数几个类别 (如汽车和行人) 。AODRaw 将其扩展到了 62个类别 , 从交通信号灯到盆栽植物应有尽有。

AODRaw的统计细分,展示了类别多样性和实例分布。

图3中的统计数据突显了该数据集的难度。物体大小的分布 (图3c) 显示小物体非常普遍,这在恶劣天气下是出了名的难以检测。类别的长尾分布 (图3d) 确保了模型是在测试其泛化能力,而不仅仅是记忆最常见的物体。

核心方法: 直接RAW预训练

拥有数据集是第一步。第二步是训练一个模型来实际使用它。

研究人员发现了一个显著的 域差异 (Domain Gap) 。 如果你采用一个在ImageNet (sRGB) 上预训练过的标准检测模型 (如ResNet或ConvNeXt) ,并尝试在RAW图像上对其进行微调,效果并不理想。从处理过的RGB图像中学到的特征根本无法完美地转化到线性、嘈杂的RAW数据世界中。

表格展示了在不同域上训练和评估时的性能下降。

表4 清晰地说明了这一差距。在sRGB上训练的模型在RAW上表现不佳 (28.0% AP) ,反之亦然。为了释放RAW检测的全部潜力,模型需要直接在RAW数据上进行 预训练

1. 合成 ImageNet-RAW

由于没有包含数百万张图像的“RAW版ImageNet”,作者合成了一个。他们采用了标准的ImageNet数据集并应用了“逆处理 (unprocessing) ”流程。这一流程逆转了ISP步骤——反转色调映射和伽马校正——并且关键的是,添加了逼真的散粒噪声 (shot noise) 以模拟相机传感器。

2. 噪声的挑战

悖论就在这里: RAW数据包含 更多 的信息 (信号) ,但也包含 更多 的噪声。在sRGB图像中,去噪算法已经将一切平滑化了。而在RAW中,噪声是完整的。

当研究人员试图在这个合成的RAW数据上预训练模型时,他们碰壁了。模型难以学习到高质量的表示,因为噪声模式使得收敛变得困难。

3. 跨域知识蒸馏

为了解决噪声问题,作者提出了一种 蒸馏 (Distillation) 策略。他们使用一个标准的、预训练好的sRGB模型作为“教师”,而新的基于RAW的模型作为“学生”。

这个想法很优雅: 教师看到的是干净、处理过的sRGB图像。学生看到的是同一图像的嘈杂、未经处理的RAW版本。学生的任务是预测与教师相同的输出。

因为无论学生输入中添加了多少噪声,教师的输出都是一致的,所以学生学会了“透过”噪声去寻找底层的语义特征。

蒸馏涉及两个特定的损失函数。

Logit蒸馏 (\(L_l\)): 学生试图匹配教师的最终分类概率分布。

Logit蒸馏损失公式。

特征蒸馏 (\(L_f\)): 学生试图匹配教师的内部特征图,确保中间表示也是对齐的。

特征蒸馏损失公式。

通过最小化这些损失,RAW模型有效地继承了sRGB模型的鲁棒语义知识,同时学会了直接处理原始传感器数据。

实验与结果

这种复杂的预训练流程真的能带来更好的结果吗?实验给出了毫无疑问的肯定。

对光照和噪声的鲁棒性

最令人信服的结果之一来自于分析模型如何处理亮度及噪声水平的变化。研究人员采用了合成的ImageNet-RAW数据,并通过操控亮度和噪声来观察模型的应对能力。

图表显示随着图像亮度降低,Top-1准确率的保持情况。

图5 中,随着亮度下降,紫色线 (带蒸馏的RAW预训练) 比标准的RGB预训练模型 (蓝色线) 性能下降得平缓得多。这表明蒸馏后的模型已经学习到了对光照条件具有不变性的特征——这是夜间目标检测的“圣杯”。

图表显示随着图像噪声水平增加,Top-1准确率的保持情况。

同样, 图6 展示了对噪声的鲁棒性。随着噪声水平增加 (x轴向右移动) ,RGB预训练模型的性能崩溃了。而蒸馏后的RAW模型保持了显著更高的准确率。

与最先进技术的比较

终极测试是在AODRaw基准上的表现。研究人员将他们的方法与标准的sRGB基线以及其他RAW适应方法 (如RAOD和RAW-Adapter) 进行了比较。

表格对比了提出的方法与其他RAW适应技术。

表5 总结了这些发现。提出的方法 (Ours) 达到了 34.8% AP , 优于基线sRGB方法 (33.4%) 和现有的RAW专用方法。

关键在于查看 APlow (低光) 、APrain (雨) 和 APfog (雾) 这几列。提出的方法在这些恶劣类别中显示出显著的提升。例如,在雨天条件下,该方法跃升至 36.1% AP , 明显高于基线的30.2%。这证实了假设: RAW数据中包含了sRGB处理所破坏的可恢复的信号,这在恶劣天气下尤为重要。

结论

《Towards RAW Object Detection in Diverse Conditions》这篇论文所展示的工作,让我们对计算机视觉的未来有了令人信服的一瞥。通过将检测流程移至更靠近传感器的位置,我们可以绕过以人类为中心的图像处理的限制。

作者做出了三个独特的贡献,推动了该领域的发展:

  1. AODRaw: 一个丰富、多样的数据集,终于允许在野外环境中对RAW检测进行严格测试。
  2. 域分析: 清楚地证明了sRGB预训练为RAW任务制造了瓶颈。
  3. 蒸馏预训练: 一种训练RAW模型的方法,使其对噪声和光照变化具有鲁棒性,且无需昂贵的ISP硬件或模块。

对于从事自动驾驶、监控或机器人技术的学生和工程师来说,这篇论文提醒我们: 有时改进模型的最佳方法不是让它变得更深,而是给它更好、更原始的数据。机器人不需要漂亮的照片;它们需要真相,而真相就在RAW数据中。