引言

在自然界中,生存往往取决于消失的能力。从融入树皮的叶尾壁虎到消失在雪地中的北极兔,伪装是一种为了躲避捕食者而进化出的复杂生物机制。在计算机视觉领域,复制捕食者发现这些隐藏生物的能力被称为 伪装目标检测 (Camouflaged Object Detection, COD)

COD 比标准的目标检测要难得多。目标与背景共享相似的纹理、颜色和图案,使得边界极难辨认。虽然全监督深度学习方法在这一领域取得了长足进步,但它们代价高昂: 需要海量且拥有像素级精确人工标注的数据集。标注伪装目标既费时又昂贵,因为这些目标按定义就是很难被看到的。

这带我们来到了 无监督伪装目标检测 (Unsupervised Camouflaged Object Detection, UCOD) 的前沿——即教 AI 在没有明确告知位置的情况下发现隐藏目标。近期的一篇论文 “UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning” 提出了一个新的框架,不仅解决了这一挑战,还取得了媲美部分全监督方法的性能。

在这篇文章中,我们将详细解析作者是如何利用“教师-学生”框架、一种巧妙的知识混合方法,以及一种模仿人类“放大”观察细节的机制来实现这一目标的。

当前无监督方法存在的问题

为了在没有人工标签的情况下训练模型,研究人员通常依赖 伪标签 (pseudo-labels) 。 这些是由算法策略 (如分析像素相似性或背景差异) 生成的“假”地面真值掩码 (ground-truth masks)。

现有的 UCOD 方法通常遵循一个僵化的流程:

  1. 获取一张图像。
  2. 使用 固定策略 (一种预定义的算法) 来猜测目标在哪里。
  3. 使用该猜测作为地面真值来训练一个简单的神经网络 (通常只是一个 \(1 \times 1\) 的卷积层) 。

UCOD-DPL 的作者指出了这种方法的两个致命缺陷,如下图所示。

先前固定方法与提出的动态方法之间的比较。

1. 噪声知识 (Noisy Knowledge): 固定策略并不完美。它们通常会生成带有显著噪声的掩码。如果模型将这些带有噪声的掩码视为绝对真理,它就会学习到无法纠正的错误信息。

2. 分辨率限制 (Resolution Limit): 简单的解码器和固定策略通常导致低分辨率的输出。它们无法捕捉伪装目标的语义复杂性,导致输出呈现“一团模糊”状,丢失了细节,尤其是对于小目标而言。

固定策略生成的低质量伪标签示例与本文方法的对比。

如上图 Figure 2 所示,固定策略 (如 “Background-Seed” 或 “MaskCut”) 通常产生碎片化或块状的标签。本文提出的方法 (UCOD-DPL) 旨在生成清晰、准确的分割图,即使在极具挑战性的场景中也是如此。

UCOD-DPL 框架

为了解决这些问题,研究人员提出了一个增强的 教师-学生 (Teacher-Student) 框架 , 其中包含三个关键创新:

  1. 自适应伪标签混合 (Adaptive Pseudo-label Mixing, APM)
  2. 双分支对抗 (Dual-Branch Adversarial, DBA) 解码器
  3. “看两次” (Look-Twice) 细化策略

在深入细节之前,让我们先看看高层架构。

UCOD-DPL 的主要框架,展示了教师-学生结构和 APM 模块。

该系统使用一个 学生模型 (我们想要训练的模型) 和一个 教师模型 (学生模型的指数移动平均) 。系统不再仅仅依赖充满噪声的“固定策略”伪标签,而是动态地将其与教师模型的预测混合,从而创建一个更好的训练目标。

1. 自适应伪标签混合 (APM)

这里的核心理念是 信任管理

在训练开始时,神经网络 (教师/学生) 什么都不知道。它的预测是随机的垃圾信息。在这个阶段,“固定策略” (启发式算法) 尽管有噪声,却是最可靠的真理来源。

然而,随着训练的进行,教师模型开始学习伪装目标的语义特征。最终,教师模型会变得比固定策略更聪明。 自适应伪标签混合 (APM) 模块负责管理这一过渡。

判别器 (The Discriminator)

作者引入了一个 判别器 (\(\mathcal{D}\)) , 旨在区分固定伪标签 (\(\hat{P}_i^{fs}\)) 和学生的预测 (\(\hat{Y}_i^{FG}\))。

判别器输出概率的公式。

判别器输出一个概率分数 (\(\hat{y}\)),表示掩码来自固定策略的可能性。

评分函数 (The Scoring Function)

一个动态评分函数 \(S\) 决定了混合权重。该函数包含一个时间约束 (基于当前 epoch \(t\)) 和一个余弦相似度项。

评分函数公式。

  • 训练早期: 分数偏向固定策略,因为模型尚未准备好。
  • 训练晚期: 分数偏向教师模型的预测,允许模型“自我纠正”固定策略中发现的噪声。

混合 (The Mixing)

最后,系统计算权重 \(W_i^t\),并将教师的伪标签 (\(\hat{P}_i^t\)) 与固定伪标签 (\(\hat{P}_i^{fs}\)) 混合,以创建最终的动态伪标签 \(P_i\)。

伪标签混合公式。

这个动态标签 \(P_i\) 用于监督学生模型。这种巧妙的机制防止了模型过拟合初始噪声数据,同时也确保了它有一个稳定的起点。

为了训练判别器本身,使用了标准的二元交叉熵损失:

判别器损失公式。

2. 双分支对抗 (DBA) 解码器

在以前的方法中,通常使用简单的卷积层来预测掩码。这对伪装目标来说是不够的,因为前景和背景像素在视觉上几乎相同。作者提出了 双分支对抗 (DBA) 解码器 , 明确强制模型将前景特征与背景特征分离开来。

特征分离 (Splitting the Features)

首先,从骨干网络 (DINOv2) 提取的特征 (\(F_i\)) 被分成两个独立的流: 一个用于前景 (\(FG\)),一个用于背景 (\(BG\))。

特征分离公式。

学习嵌入与注意力 (Learned Embeddings and Attention)

模型维护可学习的嵌入 (\(E_{FG}\) 和 \(E_{BG}\)),存储关于前景和背景通常是什么样子的“知识”。这些用于计算注意力查询 (\(Q\))。

注意力查询计算。

这些查询帮助模型关注特征图的特定区域。系统随后生成两个不同的掩码: 一个预测前景,一个预测背景。

前景和背景掩码预测公式。

对抗性转折 (正交损失)

这是天才之处: 通常,如果你有两个分支,它们可能会意外地学习到相似的特征。为了防止这种情况,作者应用了 正交损失 (\(\mathcal{L}_{\perp}\)) 。 这一数学约束强制前景注意力图和背景注意力图尽可能不同。

正交损失公式。

如果前景分支在看目标,背景分支就 必须 看其他地方。这种对抗性压力帮助模型将目标从周围环境中解耦出来。

分割损失结合了两个分支针对动态伪标签的预测:

分割损失公式。

3. “看两次” (Look-Twice) 细化策略

即使有很好的解码器,微小的伪装目标也很难被发现,因为它们在特征图上占据的像素非常少。受人类行为的启发——我们发现一个斑点,然后凑近看它是什么——作者设计了 Look-Twice 策略。

第 1 步: 识别候选者

模型查看其初始的粗略预测,并找到可能是目标的连通分量 (斑块) 。

连通分量公式。

第 2 步: 计算比率

它计算这些斑块的面积比。如果一个斑块太小 (低于阈值 \(\tau\),设定为 0.15) ,它就被标记为需要细化。

前景比率计算。

第 3 步: 放大并细化

系统在这个小目标周围裁剪图像,将其放大到输入尺寸 (有效地“放大”) 。它通过计算扩展比例来确保包含足够的背景上下文。

扩展比例计算。

这个放大的补丁被送回网络以获得高分辨率预测,然后粘贴回原始的粗略掩码上。这显著锐化了小昆虫或远处动物的边界。

总损失函数结合了分割损失、正交损失和判别器损失:

总损失公式。

实验与结果

作者在四个基准数据集 (CHAMELEON, CAMO, COD10K, 和 NC4K) 上使用了标准的评估指标 (如 S-measure 和 F-measure) 对 UCOD-DPL 进行了评估。他们使用了强大的 DINOv2 作为特征提取的骨干网络。

定量优势

结果令人印象深刻。如 Table 1 所示,UCOD-DPL (Ours) 优于所有其他无监督方法。更令人惊讶的是,它甚至击败了一些 半监督全监督 方法。

对比 UCOD-DPL 与其他最先进方法的表格。

例如,在极具挑战性的 COD10K 数据集上,基于 DINOv2 的 UCOD-DPL 实现了 0.834 的 S-measure (\(\mathcal{S}_m\)),显著高于之前的最佳无监督方法 (FOUND 的 0.767)。

视觉质量

数据得到了视觉证据的支持。下方的 Figure 4 展示了 UCOD-DPL 如何处理涉及水下生物和遮挡的复杂场景。当其他方法产生嘈杂的散点像素或完全错过目标时,UCOD-DPL 生成了干净、连贯的掩码。

挑战性场景中分割结果的视觉对比。

消融实验 (Ablation Studies)

为了证明每个组件都很重要,作者进行了消融实验。

  • 无 APM: 模型过度依赖固定标签或嘈杂的教师预测,性能下降。
  • 无 DBA: 简单的解码器无法将目标从背景纹理中分离出来。
  • 无 Look-Twice: 小目标的性能受损。

Table 2 强调了所有这三者的结合产生了最高的分数。

展示各模块贡献的消融实验表格。

此外, Table 3 证明了提出的自适应伪标签混合 (APM) 优于简单的平均或线性衰减策略。

混合策略的消融研究。

针对目标尺寸的鲁棒性

本文的一个关键主张是提高了小目标的性能。下方的图表 (Figure 6) 绘制了性能与前景尺寸的关系。蓝线 (Ours) 始终位于竞争对手之上,特别是在图表的左侧,代表较小的目标比例。

不同前景尺寸的性能对比。

作者还分析了超参数 \(\tau\) (定义“小”目标的阈值) ,发现 0.15 是触发 Look-Twice 机制的最佳点。

小尺寸目标比率的超参数消融。

最后,他们测试了不同的“固定策略”来初始化 APM。有趣的是,使用“背景种子 (Background Seed)”策略效果最好。使用随机噪声或空白掩码都失败了,这证实了模型需要 一些 合理的起点来引导自学习过程。

固定伪标签生成策略消融。

结论

UCOD-DPL 论文展示了无监督计算机视觉的一次重大飞跃。通过承认固定启发式方法的局限性,并设计一个从中“成长”出来的系统,作者创建了一个能够看见不可见之物的模型。

自适应伪标签混合 (处理标签噪声) 、双分支对抗解码器 (理清前景与背景) 和 Look-Twice 机制 (处理尺度问题) 的结合,创造了一个强大的流水线。它优于一些全监督方法的事实表明,只要有正确的架构偏置,自监督学习无需任何人工标注就能有效地解锁伪装的复杂模式。

对于学生和研究人员来说,这篇论文是一个很好的案例研究,展示了如何设计对噪声数据鲁棒的系统——这一技能在大规模、无标签数据集时代正变得日益重要。