AI 能在没有标签的情况下理解复杂场景吗?深入了解 CUPS

想象一下,你正在教一个孩子识别繁忙城市街道上的物体。你指着一辆车说“车”,指着路说“路”。最终,孩子学会了。这本质上就是计算机视觉中监督学习的工作原理: 我们给算法输入成千上万张图像,其中每个像素都由人类费力地标注过。

但是,如果你不能说话怎么办?如果孩子必须纯粹通过观察世界来学习呢?他们可能会注意到,“车”是一个独特的物体,因为它相对于背景在移动。他们可能会意识到,“路”是一个连续的表面,因为它向远处延伸。

这就是无监督全景分割的目标: 教机器理解场景——识别独特的物体 (“Things”,如车、人) 和背景纹理 (“Stuff”,如天空、道路) ——而无需任何人工标注的标签。

虽然这项技术已经以有限的形式存在,但它历来难以应对像驾驶场景这样复杂、杂乱的环境。在这篇文章中,我们将深入探讨一篇新论文: “Scene-Centric Unsupervised Panoptic Segmentation” (CUPS) 。 这项研究提出了一种新颖的框架,利用运动和深度线索让 AI 自学如何观察世界,并取得了最先进的结果。

问题所在: “物体”、“背景”与“以物体为中心”的偏见

要理解这篇论文的重要性,我们首先需要定义这项任务。 全景分割 (Panoptic Segmentation) 结合了两个子任务:

  1. 语义分割 (Semantic Segmentation) : 为每个像素标注一个类别 (例如: 天空、道路、树木) 。
  2. 实例分割 (Instance Segmentation) : 区分同一类别的不同个体 (例如: 1 号车 vs. 2 号车) 。

在没有监督的情况下做到这一点非常困难。以前最先进的方法,如 U2Seg , 依赖于为“以物体为中心 (object-centric) ”的图像设计的技术——比如 ImageNet 中的图片,其中单个物体清晰地位于画面中央。这些方法通常使用一种名为 MaskCut 的技术来识别前景物体。

然而,现实世界并不是以物体为中心的;它是以场景为中心 (scene-centric) 的。行车记录仪的视角包含数十个重叠的物体、复杂的几何形状和巨大的背景区域。当把以物体为中心的假设应用于这些场景时,模型就会失效。

MaskCut 与 CUPS 实例标注的对比。

图 2 所示,当以前的方法 (MaskCut) 试图分割街道场景时,它会感到困惑。它根据语义相关性而不是识别不同的物体将不相关的区域归为一组。它无法将“物体” (汽车) 与“背景” (道路) 分开。而本文提出的方法 CUPS,即使在没有监督的情况下,也能清晰地分辨出单独的汽车和行人。

CUPS 解决方案: 从格式塔原则中学习

CUPS 背后的研究人员从格式塔心理学 (Gestalt psychology) 中汲取了灵感,该理论描述了人类如何从感知上将视觉元素分组。具体来说:

  • 共同命运 (Common Fate) : 一起移动的元素属于同一组。
  • 相似性 (Similarity) : 看起来相似的元素通常属于同一区域。

CUPS 是第一个直接在以场景为中心的图像上训练的无监督全景方法。为了实现这一点,它不仅仅观察静态图片。它利用训练生成阶段的立体视频 (stereo video) (随时间变化的左右相机帧) 来提取两个关键信号: 运动 (Motion)深度 (Depth)

以下是高层级的工作流程:

CUPS 方法概览。

图 1 所示,系统利用立体帧中的运动和深度来生成伪标签 (Pseudo Labels) 。 然后,这些标签用于在单张图像上训练一个标准的全景网络 (如 Mask R-CNN) 。

让我们分解一下该方法的三个不同阶段。


第一阶段: 生成全景伪标签

CUPS 的核心创新在于它如何创建自己的训练数据。由于没有人类标签,系统必须生成足够准确的“伪标签”以供学习。它通过融合两路信息流来实现这一点: 实例伪标注 (Instance Pseudo Labeling) (寻找移动物体) 和语义伪标注 (Semantic Pseudo Labeling) (理解纹理和表面) 。

第一阶段伪标签生成的详细流程图。

1a. 挖掘场景流以获取实例

为了找到特定的物体 (实例) ,模型会寻找移动的东西。利用两个连续的立体帧,系统估计场景流 (scene flow) ——即每个像素的 3D 运动。

研究人员采用了一种名为 SF2SE3 的技术,将这种流聚类成刚体。如果一组像素在 3D 空间中一起移动,它很可能是一个刚性物体 (如汽车或公共汽车) 。

然而,运动估计可能会有噪声。为了解决这个问题,他们多次运行聚类算法并寻找一致性。他们为每个潜在的掩膜 (mask) 计算一致性分数 \(c_i\):

掩膜一致性分数公式。

只有在至少 80% 的运行中出现的掩膜才会被保留。这确保了系统只为它有信心的物体生成标签,过滤掉随机噪声。

1b. 深度引导的语义标注

虽然运动能找到“物体 (Things) ”,但我们也需要分割“背景 (Stuff) ” (道路、建筑物、天空) 。为此,研究人员使用了 DINO , 这是一种自监督视觉 Transformer,可以创建丰富的视觉特征。

DINO 的一个主要挑战是它在低分辨率下运行。如果你简单地对 DINO 特征进行上采样,你会得到模糊的边界,丢失远处交通标志或行人的细节。相反,如果你处理高分辨率的裁剪图像,你会失去附近物体的全局上下文信息。

CUPS 作者提出了深度引导推理 (Depth-Guided Inference) 。 他们生成低分辨率 (\(P^{\text{low}}\)) 和高分辨率 (\(P^{\text{high}}\)) 的语义预测。然后,他们使用深度图 (\(D\)) 将它们融合。

他们根据距离计算混合权重 \(\alpha\):

Alpha 深度权重公式。

然后将此权重应用于合并语义预测:

合并低分辨率和高分辨率语义的公式。

这里的逻辑非常优雅: 深度值小 (靠近相机) 的像素依赖于低分辨率特征,这些特征捕捉大规模的上下文。深度值大 (远处) 的像素依赖于高分辨率的滑动窗口特征,以捕捉精细细节。

语义分割分辨率的视觉对比。

图 6 展示了这种方法的威力。请注意,“Low Resolution”列模糊了远处的建筑物和汽车,而“High Resolution”列引入了噪声。“Depth Guided”结果创建了清晰、准确的分割,与地面真值 (Ground Truth) 非常匹配。

1c. 融合

最后,实例掩膜 (来自运动) 和语义图 (来自深度引导的 DINO) 被融合在一起。系统根据语义类别与运动掩膜重叠的频率,自动将其分类为“物体”或“背景”。这就产生了一个单一、综合的全景伪标签


第二和第三阶段: 训练全景网络

一旦生成了伪标签,系统就开始训练标准的分割网络 (Panoptic Cascade Mask R-CNN) 。训练分两个阶段进行: 引导启动 (Bootstrapping)自训练 (Self-Training)

训练阶段 2 和 3 的概览。

第二阶段: 全景引导启动

第一阶段生成的伪标签质量很高,但很稀疏。它们只捕捉到了视频片段中恰好在移动的物体。网络需要学会识别静止的汽车。

为了处理这个问题,作者使用了一种称为 DropLoss 的损失函数:

DropLoss 公式。

这个公式本质上是在告诉网络: “只有当模型未能预测出与我们的伪掩膜重叠的‘物体’时,才对其进行惩罚。如果模型在我们没有标签的地方预测了一辆车,不要惩罚它——这可能是一辆我们遗漏的静止汽车。”这使得网络能够泛化到第一阶段发现的移动物体之外。

第三阶段: 全景自训练

为了进一步提高准确性,研究人员采用了自训练策略 (图 4b) 。这涉及一个“教师-学生 (Teacher-Student) ”设置 (具体来说,是一个动量网络) 。

  1. 增强: 输入图像被翻转和缩放以创建不同的视图。
  2. 教师预测: 教师网络预测这些视图的标签。
  3. 自标记: 这些预测被平均以创建一个稳健的“自标签 (Self-Label) ”。
  4. 学生更新: 学生网络尝试在图像的光度增强版本上匹配这个自标签。

至关重要的是,他们使用置信度阈值来忽略不确定的预测:

语义自标签阈值公式。

这确保了网络只从其最自信的预测中学习,逐渐扩展其知识库。


实验结果

那么,CUPS 的效果如何呢?研究人员在几个具有挑战性的数据集上评估了该方法,包括 Cityscapes (城市驾驶) 、KITTIWaymo

最先进的性能

在 Cityscapes 验证集上,CUPS 显著优于以前最好的方法 U2Seg。

表 1: Cityscapes 上的对比。

表 1 所示,CUPS 实现了 27.8% 的全景质量 (PQ) , 比 U2Seg 大幅提高了 9.4 个百分点 。 它在分割质量 (SQ) 和识别质量 (RQ) 方面都有所提高。

视觉质量

定量数据得到了视觉证据的支持。

Cityscapes 上的定性结果。

图 8a 中,对比“Baseline”和“U2Seg”列与“CUPS”列。基线方法难以形成连贯的物体形状,通常会产生分散的像素预测 (噪声) 。CUPS 为汽车、行人和路面生成了干净、连贯的掩膜,看起来与地面真值非常相似。

泛化能力

机器学习中的一个常见问题是对一个数据集过拟合。然而,CUPS 展示了强大的泛化能力。在 Cityscapes 上训练的模型在完全不同的数据集上进行了测试,且无需重新训练。

表 2: 泛化结果。

表 2 显示 CUPS 的泛化能力远好于监督方法。虽然监督模型从 Cityscapes 转移到 KITTI 或 BDD 时性能会显著下降,但 CUPS 仍大大领先于其他无监督方法。它甚至在 MOTS (多目标跟踪与分割) 上表现良好,这被认为是域外数据。

标签高效学习

无监督学习最有前途的应用之一是“标签效率”——减少所需的人工标注量。研究人员仅使用一小部分标记数据微调了他们预训练的 CUPS 模型。

标签高效学习结果图表。

图 5 揭示了一个惊人的结果: 通过仅在 60 张带标注的图像 (约占数据集的 2%) 上微调 CUPS,模型达到了 43.6% 的 PQ。这大约是使用数千个标签的全监督模型性能的 70% 。 这表明 CUPS 可以极大地降低自动驾驶系统标注数据所需的成本和时间。

结论

CUPS (以场景为中心的无监督全景分割) 代表了计算机视觉领域的一次重大飞跃。通过摆脱以物体为中心的假设并拥抱现实世界场景的复杂性,作者创建了一个像生物视觉系统一样学习的系统: 利用运动来隔离物体,利用深度来理解尺度。

结合用于实例发现的场景流和用于语义理解的深度引导特征蒸馏,无需人类监督即可解决困难的“物体与背景 (Thing vs. Stuff) ”问题。

虽然该方法目前依赖于立体视频进行训练 (这在机器人和驾驶数据集中广泛存在) ,但生成的模型适用于标准的单目图像。这为稳健、可扩展的感知系统打开了大门,使其能够适应新环境,而无需成千上万小时的人工标注劳动。