引言
在计算机视觉领域,数据就是新的石油,但提炼这种石油——具体来说是标注图像——却极其昂贵。对于实例分割 (Instance Segmentation) 任务而言尤其如此,该任务旨在识别并像素级地勾勒出图像中每一个独特的对象。与简单的边界框或图像标签不同,为数据集中的每一个行人、汽车或杯子创建精确的掩膜 (mask) 需要耗费大量的人力和时间。
为了解决这个问题,研究人员转向了弱监督实例分割 (WSIS) 。 WSIS 的目标是训练出能够预测像素级完美掩膜的模型,但在训练过程中仅使用“廉价”的标签。这些廉价标签通常分为三类:
- 图像级标签 (Image-level Tags) : 仅知道“这张图中有一只狗”。
- 点 (Points) : 在对象上点击一次。
- 边界框 (Bounding Boxes) : 围绕对象画一个矩形。
从历史上看,研究论文通常会选择其中一种弱标签类型,并专门针对它优化模型。这被称为同构 (homogeneous) 设置。但在现实世界中,为什么要限制自己呢?如果我们的预算允许我们购买 10,000 张图像的标签,500 张图像的边界框,以及 1,000 张图像的点标注,那会怎样?
WISH (Weakly supervised Instance Segmentation using Heterogeneous labels,利用异构标签的弱监督实例分割) 应运而生。

如图 1 所示,WISH 是一个旨在处理异构 (heterogeneous) 标签的新颖框架。它将标签、点和边界框统一到一个单一的训练流程中。更令人印象深刻的是,它利用了 Segment Anything Model (SAM) 的力量,不仅将其作为后处理工具,更是作为训练监督的核心组件。
在这篇深度文章中,我们将探讨 WISH 如何通过将弱标签视为“提示 (prompts) ”并从基础模型的潜在空间中学习,从而超越专门化的模型。
背景: 监督的层级
在剖析 WISH 架构之前,我们需要将问题形式化。在全监督设置中,我们是被宠坏的。对于数据集 \(\mathbf{D}\),每张图像 \(\mathbf{I}\) 都带有完美的掩膜和类别标签集合。
然而,在 WSIS 中,我们的真值 (ground truth) \(\mathbf{Y}\) 取决于我们能负担得起什么。
定义弱标签
作者将数据集公式化为:

其中 \(\mathbf{Y}_i\) 代表图像 \(i\) 的标签。在全监督世界中,\(\mathbf{Y}_i\) 看起来是这样的:
这里,\(\mathbf{M}\) 代表我们通常渴望的密集像素掩膜。但在 WISH 中,我们要处理三种更廉价的替代方案:
标签 (\(\mathbf{Y}^t\)): 图像中存在的类别集合。我们要知道有什么,但不知道在哪里或有多少。

点 (\(\mathbf{Y}^p\)): 坐标点集合 \(\mathbf{X}\),每个实例一个点。这提供了位置信息,但没有形状或大小。

边界框 (\(\mathbf{Y}^b\)): 目标检测中常用的矩形。这些提供了位置和大小,但没有形状。

异构挑战
这就篇论文的核心创新在于从同构设置 (仅使用上述一种) 转向异构设置。目标是训练单个模型,其中任何给定图像的标签都可以是这三种之一:

这种灵活性允许实施“预算感知”的标注策略,我们将在实验部分对此进行讨论。
基础: Segment Anything Model (SAM)
为了弥合这些弱标签 (点/框) 与所需输出 (掩膜) 之间的差距,作者采用了 SAM。SAM 是一个在 10 亿个掩膜上训练的视觉基础模型。它的“超能力”是提示式分割 (promptable segmentation) 。
在数学上,SAM 接收图像 \(\mathbf{I}\) 和提示 \(\mathbf{P}\) (可以是点或框) ,并输出掩膜 \(\mathbf{M}\):

大多数先前的工作将 SAM 用作离线生成伪标签的“教师”。WISH 采用了不同的方法: 它将 SAM 的 提示编码器 (Prompt Encoder) 直接集成到学习过程中,以教导模型如何理解对象。
WISH 框架
WISH 框架建立在 Mask2Former 之上,这是一种最先进的分割架构。Mask2Former 使用 Transformer 解码器来关注图像特征并生成“对象查询 (object queries) ”。每个查询代表一个潜在的对象实例。
在标准的全监督 Mask2Former 中:
- 查询 (\(\mathbf{Q}\)) 由 Transformer 解码器处理。
- 分类头 (\(\mathcal{H}_{cls}\)) 预测对象类别。
- 掩膜头 (\(\mathcal{H}_{mask}\)) 生成二进制掩膜。
WISH 的作者意识到,由于没有真值掩膜,他们需要另一种方式来指导模型。他们引入了第三个头: 提示头 (Prompt Head) 。
架构概览
让我们看看完整的架构:

工作流程包含几个相互关联的阶段:
- 图像编码: 处理图像以提取特征 \(\mathbf{F}\)。
- Transformer 解码器: 生成对象查询 \(\mathbf{Q}\)。
- 预测头:
- \(\hat{\mathbf{y}}_{cls}\): 类别预测。
- \(\hat{\mathbf{M}}\): 掩膜预测 (通过与像素嵌入的点积) 。
- \(\hat{\mathbf{Z}}\): 提示潜在预测 (新贡献) 。
标准预测计算如下:

但是这个“提示潜在预测” \(\hat{\mathbf{Z}}\) 是什么呢?
从潜在空间学习
这是论文中概念上最有趣的部分。由于弱标签 (点和框) 本质上是“提示”,作者使用 SAM 预训练的 提示编码器 (\(\mathcal{E}_{SAM}^{prompt}\)) 将真值弱标签转换为潜在嵌入向量 \(\mathbf{Z}\)。

这里,\(\mathbf{Z}\) 代表 SAM 如何“看待”弱标签。它是一个丰富的向量表示,包含了“在这个点/框处有一个对象”这一条件。
然后,WISH 模型尝试使用新的 提示头 (\(\mathcal{H}_{prompt}\)) 直接从其对象查询中预测这个向量:

通过强制模型预测与真值 \(\mathbf{Z}\) 相匹配的 \(\hat{\mathbf{Z}}\),WISH 确保对象查询捕获了 SAM 所期望的相同定位和实例信息。这起到了强大的约束作用,有效地将 SAM 对“什么是实例”的理解转移到了 WISH 模型中,而无需密集的掩膜。
多阶段匹配
在基于 Transformer 的检测 (如 DETR 或 Mask2Former) 中,模型输出固定数量的 \(N\) 个预测,但图像有 \(K\) 个实际对象。我们必须找出哪个预测与哪个真值对象配对。这被称为 二分匹配 (Bipartite Matching) 。
在全监督学习中,我们基于类别和掩膜的相似性进行匹配。在 WISH 中,我们要么缺乏真值掩膜,因此重新设计了匹配成本,包含三个部分:
1. 分类成本:
预测的类别是否与真值标签匹配?

2. 提示成本 (创新点) :
预测的提示潜在向量 \(\hat{\mathbf{Z}}\) 是否与真值提示嵌入 \(\mathbf{Z}\) 匹配?他们使用 Kullback-Leibler 散度 (KLD) 来衡量这种相似性。

3. 掩膜成本 (利用 SAM) :
即使没有真值掩膜,我们也可以生成一个“代理”掩膜。我们将弱标签 (点/框) 输入 SAM 以生成掩膜 \(\mathbf{M}_{SAM}\)。
SAM 通常会输出三个候选掩膜以解决歧义 (例如,整个人 vs 仅人脸) 。WISH 自适应地选择与当前预测最匹配的一个:

总匹配成本:
最终的成本函数结合了这三个不同的信号——语义类别、潜在提示表示和空间掩膜一致性。

一旦找到了预测与真值之间的最佳匹配 (使用匈牙利算法) ,就可以计算最终的分割损失来训练网络:

处理“标签”问题
上述框架对于 点 和 框 非常有效,因为它们具有 SAM 可以编码的空间坐标。但是 图像级标签 呢?
标签说“猫”,但给出的坐标 \((x, y)\) 为零。SAM 无法接受“猫”作为定位对象的提示。作者需要弥合语义标签和空间提示之间的差距。
第一步: 生成 CAMs
为了找到对象,WISH 使用类激活映射 (CAMs) 。他们在图像编码器上添加了一个小的辅助分支:

这为每个类别生成一个粗糙的热图 \(\mathbf{A}\)。该分支使用基于图像标签的简单分类损失 (\(\mathcal{L}_{cam}\)) 进行训练。

第二步: 从热图到点
一旦模型学会高亮显示与“猫”相关的区域,作者就会从热图中提取 局部峰值 。
- 在 CAM 中找到激活度最高的点。
- 过滤掉低置信度的峰值。
- 将这些峰值视为 伪点标签 。
实际上,他们将抽象的标签转换为点标签:

现在标签已经转换为点 (\(\mathbf{X}\)),它可以像人工标注的点一样被输入到标准的 WISH 流程 (SAM 提示编码器 -> 潜在空间) 中!
第三步: 自增强
CAM 通常充满噪点且“模糊不清”。为了改进它们,作者引入了一个反馈循环。随着主 WISH 模型 (Mask2Former 部分) 在预测清晰掩膜 (\(\hat{\mathbf{M}}\)) 方面变得更好,这些预测被用来监督和锐化 CAM。

这种 自增强损失 (Self-Enhancement Loss) 确保随着训练的进行,CAM 变得更加准确,这导致更好的伪点,进而导致主模型的训练效果更好——形成良性循环。
总损失
WISH 的最终目标函数是分割损失 (由匹配驱动) 、CAM 分类损失和自增强损失的总和:

实验结果
作者在两个主要基准上评估了 WISH: PASCAL VOC 和 MS-COCO 。 他们在同构和异构设置下将 WISH 与最先进 (SoTA) 的方法进行了比较。
1. 同构性能
首先,他们检查了 WISH 在传统用法 (仅标签、仅点或仅框) 下是否表现良好。
PASCAL VOC 结果:

如表 1 所示,WISH 在 所有 类别中均取得了新的 SoTA 结果。
- 标签 (T): WISH 达到 46.0 AP,击败了 BESTIE (之前的最佳) ,后者为 51.0 AP50。 (注: AP 是比 AP50 更严格的指标) 。
- 点 (P): WISH 跃升至 52.4 AP,显著高于之前的方法。
- 框 (B): WISH 达到 54.6 AP,接近全监督 Mask2Former 的性能 (54.8 AP) 。这表明,在 SAM 引导的训练下,边界框携带的信号几乎与像素级掩膜一样多。
COCO 结果:

表 2 证实了在更具挑战性的 COCO 数据集上的趋势。WISH 始终优于 BoxInst 和 Discobox 等专门的方法。
2. 异构性能 (预算研究)
这是最关键的实验。作者提出了一个问题: “给定固定预算,什么是最佳标注策略?”
他们定义预算 \(\zeta\) 并为每种标签类型分配成本:
- 标签成本 (\(\beta_t\)): 1
- 点成本 (\(\beta_p\)): 6
- 框成本 (\(\beta_b\)): 12
约束条件是:

他们测试了总成本相同的不同标签组合。

表 3 的主要发现:
- 标签 + 框 (底行) :
- 左列: 将所有资金用于标签 (10,582 张图像) \(\rightarrow\) 46.0 AP。
- 右列: 将所有资金用于框 (882 张图像) \(\rightarrow\) 45.1 AP。
- 中间列: 混合!5,290 个标签 + 441 个框 \(\rightarrow\) 48.3 AP 。
异构混合优于同构的极端情况。这是工业应用的一个重要见解。这意味着与其完美地标注一个小数据集 (框/掩膜) 或拙劣地标注一个大数据集 (标签) ,不如采用 混合策略 以产生最佳的模型性能。来自少量框的丰富空间信息有助于模型学习分割,而大量的标签则提供了多样性和泛化能力。
3. 消融实验: 为什么直接使用 SAM 解码器会失败
有人可能会问: “既然有了 SAM,为什么不直接训练提示头,然后在推理过程中将其输入冻结的 SAM 掩膜解码器呢?为什么要使用 Mask2Former 解码器?”
作者测试了这一点 (图 3) 。

他们发现方法 (b)——直接使用 SAM 进行推理——使性能下降了超过 3% AP。这证明将 SAM 的知识 蒸馏 到 WISH 权重中 (方法 A) 比依赖 SAM 作为运行时模块更有效。WISH 学会了解决通用 SAM 解码器可能错过的歧义和特定于类别的特征。
结论
WISH 论文为弱监督实例分割迈出了引人注目的一步。通过打破同构标签的壁垒,它为灵活、预算感知的标注策略打开了大门。
核心要点:
- 统一: WISH 是第一个将标签、点和框无缝集成到一个模型中的框架。
- 提示潜在空间: WISH 不仅仅是模仿 SAM 的输出掩膜,而是模仿 SAM 对提示的内部表示,提供了更丰富的监督信号。
- 异构致胜: 在相同价格下,混合使用廉价标签和昂贵边界框比单独使用其中任何一种都能产生更好的结果。
随着像 SAM 这样的基础模型不断发展,像 WISH 这样的框架展示了利用它们的最佳方式: 不仅作为黑盒工具,而是作为指导专业、高效模型训练的教师。对于计算机视觉的学生和研究人员来说,WISH 提供了如何处理数据数量、数据质量和标注成本之间权衡的蓝图。
](https://deep-paper.org/en/paper/file-2294/images/cover.png)