引言
在自然界中,生存往往取决于消失的能力。从融入树皮的叶尾壁虎到消失在雪地中的北极兔,伪装是一种为了躲避捕食者而进化出的复杂生物机制。在计算机视觉领域,复制捕食者发现这些隐藏生物的能力被称为 伪装目标检测 (Camouflaged Object Detection, COD) 。
COD 比标准的目标检测要难得多。目标与背景共享相似的纹理、颜色和图案,使得边界极难辨认。虽然全监督深度学习方法在这一领域取得了长足进步,但它们代价高昂: 需要海量且拥有像素级精确人工标注的数据集。标注伪装目标既费时又昂贵,因为这些目标按定义就是很难被看到的。
这带我们来到了 无监督伪装目标检测 (Unsupervised Camouflaged Object Detection, UCOD) 的前沿——即教 AI 在没有明确告知位置的情况下发现隐藏目标。近期的一篇论文 “UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning” 提出了一个新的框架,不仅解决了这一挑战,还取得了媲美部分全监督方法的性能。
在这篇文章中,我们将详细解析作者是如何利用“教师-学生”框架、一种巧妙的知识混合方法,以及一种模仿人类“放大”观察细节的机制来实现这一目标的。
当前无监督方法存在的问题
为了在没有人工标签的情况下训练模型,研究人员通常依赖 伪标签 (pseudo-labels) 。 这些是由算法策略 (如分析像素相似性或背景差异) 生成的“假”地面真值掩码 (ground-truth masks)。
现有的 UCOD 方法通常遵循一个僵化的流程:
- 获取一张图像。
- 使用 固定策略 (一种预定义的算法) 来猜测目标在哪里。
- 使用该猜测作为地面真值来训练一个简单的神经网络 (通常只是一个 \(1 \times 1\) 的卷积层) 。
UCOD-DPL 的作者指出了这种方法的两个致命缺陷,如下图所示。

1. 噪声知识 (Noisy Knowledge): 固定策略并不完美。它们通常会生成带有显著噪声的掩码。如果模型将这些带有噪声的掩码视为绝对真理,它就会学习到无法纠正的错误信息。
2. 分辨率限制 (Resolution Limit): 简单的解码器和固定策略通常导致低分辨率的输出。它们无法捕捉伪装目标的语义复杂性,导致输出呈现“一团模糊”状,丢失了细节,尤其是对于小目标而言。

如上图 Figure 2 所示,固定策略 (如 “Background-Seed” 或 “MaskCut”) 通常产生碎片化或块状的标签。本文提出的方法 (UCOD-DPL) 旨在生成清晰、准确的分割图,即使在极具挑战性的场景中也是如此。
UCOD-DPL 框架
为了解决这些问题,研究人员提出了一个增强的 教师-学生 (Teacher-Student) 框架 , 其中包含三个关键创新:
- 自适应伪标签混合 (Adaptive Pseudo-label Mixing, APM)
- 双分支对抗 (Dual-Branch Adversarial, DBA) 解码器
- “看两次” (Look-Twice) 细化策略
在深入细节之前,让我们先看看高层架构。

该系统使用一个 学生模型 (我们想要训练的模型) 和一个 教师模型 (学生模型的指数移动平均) 。系统不再仅仅依赖充满噪声的“固定策略”伪标签,而是动态地将其与教师模型的预测混合,从而创建一个更好的训练目标。
1. 自适应伪标签混合 (APM)
这里的核心理念是 信任管理 。
在训练开始时,神经网络 (教师/学生) 什么都不知道。它的预测是随机的垃圾信息。在这个阶段,“固定策略” (启发式算法) 尽管有噪声,却是最可靠的真理来源。
然而,随着训练的进行,教师模型开始学习伪装目标的语义特征。最终,教师模型会变得比固定策略更聪明。 自适应伪标签混合 (APM) 模块负责管理这一过渡。
判别器 (The Discriminator)
作者引入了一个 判别器 (\(\mathcal{D}\)) , 旨在区分固定伪标签 (\(\hat{P}_i^{fs}\)) 和学生的预测 (\(\hat{Y}_i^{FG}\))。

判别器输出一个概率分数 (\(\hat{y}\)),表示掩码来自固定策略的可能性。
评分函数 (The Scoring Function)
一个动态评分函数 \(S\) 决定了混合权重。该函数包含一个时间约束 (基于当前 epoch \(t\)) 和一个余弦相似度项。

- 训练早期: 分数偏向固定策略,因为模型尚未准备好。
- 训练晚期: 分数偏向教师模型的预测,允许模型“自我纠正”固定策略中发现的噪声。
混合 (The Mixing)
最后,系统计算权重 \(W_i^t\),并将教师的伪标签 (\(\hat{P}_i^t\)) 与固定伪标签 (\(\hat{P}_i^{fs}\)) 混合,以创建最终的动态伪标签 \(P_i\)。

这个动态标签 \(P_i\) 用于监督学生模型。这种巧妙的机制防止了模型过拟合初始噪声数据,同时也确保了它有一个稳定的起点。
为了训练判别器本身,使用了标准的二元交叉熵损失:

2. 双分支对抗 (DBA) 解码器
在以前的方法中,通常使用简单的卷积层来预测掩码。这对伪装目标来说是不够的,因为前景和背景像素在视觉上几乎相同。作者提出了 双分支对抗 (DBA) 解码器 , 明确强制模型将前景特征与背景特征分离开来。
特征分离 (Splitting the Features)
首先,从骨干网络 (DINOv2) 提取的特征 (\(F_i\)) 被分成两个独立的流: 一个用于前景 (\(FG\)),一个用于背景 (\(BG\))。

学习嵌入与注意力 (Learned Embeddings and Attention)
模型维护可学习的嵌入 (\(E_{FG}\) 和 \(E_{BG}\)),存储关于前景和背景通常是什么样子的“知识”。这些用于计算注意力查询 (\(Q\))。

这些查询帮助模型关注特征图的特定区域。系统随后生成两个不同的掩码: 一个预测前景,一个预测背景。

对抗性转折 (正交损失)
这是天才之处: 通常,如果你有两个分支,它们可能会意外地学习到相似的特征。为了防止这种情况,作者应用了 正交损失 (\(\mathcal{L}_{\perp}\)) 。 这一数学约束强制前景注意力图和背景注意力图尽可能不同。

如果前景分支在看目标,背景分支就 必须 看其他地方。这种对抗性压力帮助模型将目标从周围环境中解耦出来。
分割损失结合了两个分支针对动态伪标签的预测:

3. “看两次” (Look-Twice) 细化策略
即使有很好的解码器,微小的伪装目标也很难被发现,因为它们在特征图上占据的像素非常少。受人类行为的启发——我们发现一个斑点,然后凑近看它是什么——作者设计了 Look-Twice 策略。
第 1 步: 识别候选者
模型查看其初始的粗略预测,并找到可能是目标的连通分量 (斑块) 。

第 2 步: 计算比率
它计算这些斑块的面积比。如果一个斑块太小 (低于阈值 \(\tau\),设定为 0.15) ,它就被标记为需要细化。

第 3 步: 放大并细化
系统在这个小目标周围裁剪图像,将其放大到输入尺寸 (有效地“放大”) 。它通过计算扩展比例来确保包含足够的背景上下文。

这个放大的补丁被送回网络以获得高分辨率预测,然后粘贴回原始的粗略掩码上。这显著锐化了小昆虫或远处动物的边界。
总损失函数结合了分割损失、正交损失和判别器损失:

实验与结果
作者在四个基准数据集 (CHAMELEON, CAMO, COD10K, 和 NC4K) 上使用了标准的评估指标 (如 S-measure 和 F-measure) 对 UCOD-DPL 进行了评估。他们使用了强大的 DINOv2 作为特征提取的骨干网络。
定量优势
结果令人印象深刻。如 Table 1 所示,UCOD-DPL (Ours) 优于所有其他无监督方法。更令人惊讶的是,它甚至击败了一些 半监督 和 全监督 方法。

例如,在极具挑战性的 COD10K 数据集上,基于 DINOv2 的 UCOD-DPL 实现了 0.834 的 S-measure (\(\mathcal{S}_m\)),显著高于之前的最佳无监督方法 (FOUND 的 0.767)。
视觉质量
数据得到了视觉证据的支持。下方的 Figure 4 展示了 UCOD-DPL 如何处理涉及水下生物和遮挡的复杂场景。当其他方法产生嘈杂的散点像素或完全错过目标时,UCOD-DPL 生成了干净、连贯的掩码。

消融实验 (Ablation Studies)
为了证明每个组件都很重要,作者进行了消融实验。
- 无 APM: 模型过度依赖固定标签或嘈杂的教师预测,性能下降。
- 无 DBA: 简单的解码器无法将目标从背景纹理中分离出来。
- 无 Look-Twice: 小目标的性能受损。
Table 2 强调了所有这三者的结合产生了最高的分数。

此外, Table 3 证明了提出的自适应伪标签混合 (APM) 优于简单的平均或线性衰减策略。

针对目标尺寸的鲁棒性
本文的一个关键主张是提高了小目标的性能。下方的图表 (Figure 6) 绘制了性能与前景尺寸的关系。蓝线 (Ours) 始终位于竞争对手之上,特别是在图表的左侧,代表较小的目标比例。

作者还分析了超参数 \(\tau\) (定义“小”目标的阈值) ,发现 0.15 是触发 Look-Twice 机制的最佳点。

最后,他们测试了不同的“固定策略”来初始化 APM。有趣的是,使用“背景种子 (Background Seed)”策略效果最好。使用随机噪声或空白掩码都失败了,这证实了模型需要 一些 合理的起点来引导自学习过程。

结论
UCOD-DPL 论文展示了无监督计算机视觉的一次重大飞跃。通过承认固定启发式方法的局限性,并设计一个从中“成长”出来的系统,作者创建了一个能够看见不可见之物的模型。
自适应伪标签混合 (处理标签噪声) 、双分支对抗解码器 (理清前景与背景) 和 Look-Twice 机制 (处理尺度问题) 的结合,创造了一个强大的流水线。它优于一些全监督方法的事实表明,只要有正确的架构偏置,自监督学习无需任何人工标注就能有效地解锁伪装的复杂模式。
对于学生和研究人员来说,这篇论文是一个很好的案例研究,展示了如何设计对噪声数据鲁棒的系统——这一技能在大规模、无标签数据集时代正变得日益重要。
](https://deep-paper.org/en/paper/2506.07087/images/cover.png)