引言

想象一下,你正在训练一个自动驾驶汽车系统。你使用了在阳光明媚的加利福尼亚拍摄的数千小时视频素材来训练它。该模型在检测行人、其他车辆和停车标志方面达到了 99% 的准确率。然后,你将这辆车部署到了一个白雪皑皑的加拿大城镇,或者一个昏暗的隧道中。突然之间,系统无法识别出一个在白色背景下穿着冬装的行人。

这个场景说明了现代计算机视觉和人工智能中最持久的挑战之一: 分布外 (Out-of-Distribution, OOD) 泛化

大多数机器学习模型都建立在一个假设之上,即它们在现实世界中看到的数据 (测试数据) 在统计上与它们学习过的数据 (训练数据) 是相同的。这就是所谓的 IID (独立同分布) 假设。然而,现实世界是混乱的。天气会变化,艺术风格各异,光线会移动,物体会出现在意想不到的背景中。当这些“分布偏移”发生时,即使是最强大的模型也可能崩溃。

虽然我们已经有基准来测试图像分类器如何处理这些偏移 (例如,“这是一只猫吗?”) ,但我们严重缺乏综合工具来评估更复杂的任务,如目标检测 (“猫在哪里?”) 和视觉定位 (Visual Grounding) (“找到坐在红色垫子上的那只猫”) 。

在这篇文章中,我们将深入探讨一篇新的研究论文,该论文介绍了 COUNTS (Common Objects UNder disTribution Shifts,分布偏移下的常见物体) 。这是一个大规模的数据集和基准测试套件,旨在严格测试目标检测器和像 GPT-4o 及 Gemini 这样的多模态大语言模型 (MLLMs) 在走出“舒适区”后的表现。

背景: OOD 问题

要理解 COUNTS 的重要性,我们首先需要看看 AI 测试的现状。

现有基准的局限性

历史上,鲁棒性研究主要集中在图像分类上。像 ImageNet-C 这样的数据集对标准图像应用合成腐败 (如数字噪声或模糊) 。虽然有用,但这些人工变化并不能完全捕捉自然变化。数字高斯模糊滤镜并不等同于雾蒙蒙的早晨或水彩画。

此外,现实世界的应用——如机器人技术、自动驾驶和具身智能体——需要的不仅仅是标记图像。它们需要精确定位物体。现有的 OOD 检测数据集往往规模较小,领域缺乏多样性,或者依赖于合成数据。

多模态 LLM 的兴起

我们也正处于多模态大语言模型 (MLLM) 的时代,这些模型可以同时处理文本和图像。像 GPT-4o 和 Gemini 这样的模型能力惊人,但它们的“黑盒”性质使得评估变得困难。我们不知道它们究竟是在什么数据上训练的,因此很难确定测试图像对它们来说是否真的是“新的”或“分布外”的。

COUNTS 背后的研究人员通过从头构建一个数据集来解决这些问题,该数据集专门用于野外复杂的视觉任务。

COUNTS 数据集

这项工作的核心贡献是 COUNTS 数据集。这是一个大规模、精细标注的数据集,旨在支持 OOD 泛化的训练和测试。

现实世界的多样性

与使用算法滤镜模拟变化的基准不同,COUNTS 完全由从互联网收集的真实世界图像组成。研究人员确定了 14 个不同的领域 , 代表了视觉分布的自然偏移。

Figure 1. Examples of images in COUNTS. Each image is annotated with domain and objects.

Figure 1 所示,这些领域包括:

  • 环境条件: 雪 (Snow)、雨 (Rain)、昏暗 (Dim,低光照)、水 (Water)、草地 (Grass)、沙地 (Sand)。
  • 上下文偏移: 街道 (Street)、道路 (Road)、室内 (Indoor)、山脉 (Mountain)、树木 (Tree)、天空 (Sky)。
  • 艺术和物体状态: 绘画 (Painting)、手工制品 (Handmade,玩具/工艺品)、遮挡 (Occlusion,被阻挡的物体)。

这种多样性确保了模型是在人类可以轻松应对但机器却难以处理的视觉变化中进行测试的。例如,一张在公园里拍摄的照片 (草地领域) 中的“狗”,与一幅狗的绘画或一只毛绒玩具狗 (手工制品领域) 看起来非常不同。

规模与精度

COUNTS 不是一个玩具数据集。它包含:

  • 222,234 个样本
  • 35 个物体类别
  • 超过 110 万个标注的边界框

至关重要的是,该数据集提供了物体级别的标注 。 这意味着每个目标物体都被框选并标记,允许对目标检测和定位进行精确评估。

与现有基准的比较

要理解 COUNTS 的规模,我们可以将其与该领域以前的基准进行比较。

Table 1. Overview of current OOD generalization and robust detection benchmarks.

Table 1 突显了 COUNTS 填补的空白。以前的数据集如 PACS 或 VLCS 主要用于分类,图像很少。其他如 COCO-C 依赖于合成腐败 (非自然图像) 。COUNTS 提供了高图像数量、自然领域和细粒度检测/定位任务的独特组合。

新的基准测试

利用这个数据集,研究人员提出了两个新颖的评估框架: 用于传统目标检测器的 \(O(OD)^2\) 和用于多模态 LLM 的 OODG

1. \(O(OD)^2\): 目标检测器基准测试

第一个基准测试,\(O(OD)^2\) (Out-of-Distribution in Object Detection,目标检测中的分布外) ,旨在测试像 Faster R-CNN、YOLO 和 DETR 这样的模型。

设置

由于现代检测器在标准任务 (分布内或 IID) 上已经相当出色,该基准专门将训练和测试领域分开。

  • 训练: 模型在部分领域 (例如标准道路或街道图像) 上进行训练。
  • 测试: 模型在“未见过的”领域 (例如 天空、遮挡、草地、水、昏暗、手工制品) 上进行评估。

这种设置迫使模型学习物体的概念 (比如“汽车”) ,而不仅仅是死记硬背上下文 (比如“汽车是灰色沥青路面上的东西”) 。如果模型过于依赖背景上下文,当被要求在绘画中或雪地上寻找汽车时,它就会失败。

2. OODG: 多模态 LLM 基准测试

第二个基准测试, OODG (OOD in Grounding,定位中的 OOD) ,解决了多模态大语言模型的特定挑战。

“未知”训练数据的问题

因为我们不知道像 GPT-4 或 Gemini 这样的模型的完整训练历史,我们不能简单地说“在 X 上训练,在 Y 上测试”。它们在海量的预训练阶段可能已经见过所有东西。

解决方案: 上下文学习中的分布偏移

研究人员提出了一个绝妙的变通方法。MLLM 通常使用 上下文学习 (In-Context Learning, ICL) , 即用户在提问前在提示中提供几个示例 (shots) 。例如:

这是一张狗的图片。[边界框坐标]。 这是一张猫的图片。[边界框坐标]。 现在,在这张新图片中找到那只鸟。

OODG 基准根据 上下文示例 (In-Context Examples, ICE)测试样本 (Test Sample) 之间的差异来定义分布偏移。

该基准评估三个具体任务:

  1. 视觉定位 (Visual Grounding): 给定一个边界框,模型必须识别里面是什么。
  2. 识别与定位 (Recognition and Localization): 要求模型找到一个物体 (例如“找到卡车”) ,模型必须返回坐标。
  3. 视觉与语义映射 (Visual and Semantic Mapping): 一项复杂的任务,模型需要将描述映射到多个区域。

让我们看看这些提示的示例,以了解模型面临的挑战。

Figure 3. Example of Visual Grounding.

Figure 3 展示了 视觉定位 任务。提示问: “红框里是什么物体?”模型必须从列表中选择。在这个例子中,Gemini 和 GPT-4o 都正确识别了轮子。

Figure 4. Example of Recognition and Localization.

Figure 4 说明了 识别与定位 。 给出图像尺寸,要求模型找到特定物体 (如“卡车”) 并输出其 [X, Y, 宽, 高] 坐标。

Figure 5. Example of Visual and Semantic Mapping.

Figure 5 展示了 视觉与语义映射 任务。在这里,模型必须将特定区域与描述或类别相关联,这是一项需要高级推理的任务。

5 种评估设置

为了严格测试 MLLM,OODG 基准使用了五种设置:

  1. 零样本 (Zero-shot): 不提供示例。模型能自己搞定吗?
  2. IID ICL: 示例与测试图像来自同一领域 (例如,示例是雪中的车;测试是雪中的卡车) 。
  3. 协变量偏移 (Covariate Shift): 示例来自不同领域 (例如,示例是阳光明媚街道上的车;测试是绘画中的车) 。
  4. 标签偏移 (Label Shift): 示例中物体类型的分布与测试集不同。
  5. 虚假相关性偏移 (Spurious Correlation Shift): 示例包含误导性模式 (例如,在示例中,所有的“猫”都在黑暗的房间里,制造了一个“黑暗=猫”的错误规则) 。

实验与结果

研究人员利用这些基准进行了广泛的实验。结果揭示了关于当前 AI 局限性的有趣见解。

目标检测器性能 (\(O(OD)^2\))

研究测试了各种架构,包括两阶段检测器 (Faster R-CNN) 、单阶段检测器 (RetinaNet, YOLOv9) 和基于 Transformer 的模型 (DETR, DINO) 。

纯净性能 vs. 鲁棒性能

最能说明问题的结果之一是标准数据 (纯净/Clean) 上的性能与 OOD 数据 (鲁棒性/Robustness) 上的性能之间的关系。

Figure 2. Comparison of current object detectors in OOD and i.i.d. scenarios.

Figure 2 绘制了这种关系。X 轴是“纯净” (IID) 性能,Y 轴是“鲁棒性” (OOD) 性能。

  • 理想情况下,我们希望模型位于右上角。
  • 差距: 注意几乎所有模型的鲁棒性得分都显著低于纯净得分。一个模型在纯净数据上可能有 40% 的 mAP (平均精度均值) ,但在 OOD 数据上会降至 20%。
  • 模型差异: 基于 Transformer 的模型如 DINO (右上角的绿色方块) 在两个指标上通常都优于传统的基于 CNN 的模型。

架构的重要性

研究人员剖析了为什么某些检测器表现更好。

  • 头 vs. 骨干: 改进网络的“头” (Head,进行最终预测的部分) 比仅仅加强“骨干” (Backbone,特征提取器) 能带来更好的 OOD 增益。
  • 预训练: 模型的预训练方式很重要。

Table 3. Comparison of object detectors with different backbone and pretraining methods.

Table 3 比较了预训练方法。与标准的 ImageNet 预训练相比,使用先进的自监督方法 (如 Sup_timm) 通常能显著提高鲁棒性。这表明模型最初学习观察世界的方式决定了它后来适应新环境的能力。

MLLM 性能 (OODG)

多模态 LLM (如 GPT-4o 和 Gemini) 的结果可能是最令人惊讶的,特别是关于它们如何使用上下文学习 (ICL) 。

零样本还行,但定位很难

即使没有示例 (零样本) ,模型在细粒度定位方面也很吃力。虽然它们可以很好地描述图像,但与专用检测器相比,精确定位坐标 (像素级定位) 仍然是当前 MLLM 的一大弱点。

Table 5. Results of Recognition and Localization. mAP is reported.

Table 5 显示了定位的平均精度均值 (mAP) 。得分非常低 (通常低于 0.1 或 10%) 。这表明虽然 GPT-4o 可能知道图像中有一个杯子,但要求它“画一个框框住杯子”会导致极差的准确率,尤其是在 OOD 领域。

“坏榜样”陷阱

最重要的发现来自于测试 ICL 中的 协变量偏移

  • 场景: 你要求模型在“素描” (测试) 中识别一个物体。你提供了“照片” (上下文) 中的物体作为示例。
  • 结果: 性能与零样本相比显著下降。

为什么?模型似乎过于努力地去匹配示例的视觉模式,而不是理解底层的指令。

Table 12.ResultsofVisual Groundingofmore modelsonskyocclusion,and gras.Theselectionaccuracyisreported.S,M,andL indicate small, medium,and large objects, respectively.

Table 12Table 13 (下文) 详细列出了这些下降。

Table 13.Results of Visual Grounding of more models on water,dim,and handmake.The selection acuracy is reported.

看看 GPT-4o 和 Gemini 之间的对比。

  • Gemini-1.5 是一个“好学生”。它非常密切地关注提供的示例。当示例与测试数据匹配 (IID) 时,Gemini 的准确率会飙升。但是,当示例来自不同领域 (协变量偏移) 时,Gemini 会建立错误的关联并严重崩溃——有时下降超过 50%。
  • GPT-4o 对示例的依赖较少。它从好示例中获益较少,但也较少受坏示例的影响。它更多地依赖于其内部的预训练知识。

这这就产生了一个悖论: 从上下文中有效学习的能力 (我们通常想要的) 使模型更容易受到分布偏移的影响。

结论与启示

COUNTS 论文为 AI 社区敲响了警钟。虽然我们为模型在标准基准上的能力欢呼,但在 \(O(OD)^2\) 和 OODG 基准中观察到的性能下降表明,我们距离解决野外的视觉感知问题还很遥远。

主要收获:

  1. 数据很重要: 我们需要像 COUNTS 这样多样化的真实世界数据集来暴露合成腐败所掩盖的弱点。
  2. 架构 vs. 规模: 仅仅把模型做大并不是唯一的解决方案。更好的检测器“头”和更好的预训练策略对于鲁棒性至关重要。
  3. 上下文的双刃剑: 对于 MLLM 来说,上下文学习虽然强大但也充满危险。如果用户提供的少样本示例在统计上与现实世界的任务不匹配,模型可能会产生幻觉或变得困惑。

随着我们迈向在不受约束的环境中部署 AI——从家庭机器人到搜救无人机——像 COUNTS 这样的基准将成为我们衡量真实可靠性的标准。目标不仅仅是一个在实验室里工作的模型;而是一个在任何地方都能工作的模型。