想象一下,你给一个孩子看一个红苹果。他们学会了什么是“苹果”。随后,你给他们看一个绿苹果,或者是一个被涂成蓝色的塑料玩具苹果。孩子能立刻认出它是苹果,因为他们理解它的形状和结构 , 而不仅仅是颜色或纹理。
现在,用标准的计算机视觉模型做同样的实验。如果只用红苹果进行训练,许多模型在面对蓝苹果时会彻底失败。为什么?因为深度神经网络通常很“懒”: 它们往往通过死记硬背纹理 (比如特有的闪亮红色果皮) 来作弊,而不是学习对象的潜在几何结构 。
这种局限性对于开放世界实例分割 (Open-World Instance Segmentation) 来说是一个巨大的障碍——这项任务要求检测和分割模型在训练期间从未见过的对象。
在这篇文章中,我们将深入探讨一篇题为 “v-CLR: View-Consistent Learning for Open-World Instance Segmentation” 的研究论文。研究人员提出了一个巧妙的框架,强制 AI 模型忽略纹理,专注于真正重要的东西: 对象的结构。读完本文,你将明白为何让模型对纹理“失明”反而能让它看得更清楚。
问题所在: 纹理陷阱
标准的目标检测器 (如 Mask R-CNN 或 YOLO) 依赖于封闭世界假设: 它们假设在测试期间,只会在训练中见过的特定类别中遇到对象。如果你用猫和狗训练一个模型,然后给它看长颈鹿,它将不知所措。
然而,在开放世界中,我们希望模型是“类别无关 (class-agnostic) ”的。我们希望模型看到一幅图像时能说: “我不知道那个物体叫什么,但我知道它是一个物体,这是它的边界。”
问题在于,目前的网络对外观信息存在偏差。它们依赖特定的纹理来识别对象。如果一个对象的纹理是模型以前没见过的,模型就会将其视为背景噪声。
v-CLR 的作者通过使用 CLEVR 数据集 (一个 3D 形状数据集) 的“玩具示例”演示了这个问题。
![图 1. CLEVR[33] 数据集上的玩具示例。模型将红色的金属物体视为已知类别,并在不同的子集上进行评估。](/en/paper/2504.01383/images/001.jpg#center)
在上面的 图 1 中,请看第一行 (a)。研究人员训练了一个模型,仅将“红色金属”物体视为已知物体。
- 不含深度信息 (b): 当模型观察“金属 (Metal) ”或“红色金属 (Red-Metal) ”物体时,表现还不错 (粉色柱) 。但看看“非红色 (Non-Red) ”或“非金属 (Non-Metal) ”类别。性能直线下降。模型根本找不到不像红色金属的物体。
- 包含深度信息 (c): 当模型被强制结合深度信息 (包含形状但不含颜色) 时,在新颖对象上的表现 (蓝色柱) 突飞猛进。
这个实验证明了一个关键点: 为了在开放世界中具有泛化能力,模型必须学习外观不变的表征 (appearance-invariant representations) 。 它们需要看到形状,而不仅仅是涂装。
解决方案: 视图一致性学习 (v-CLR)
研究人员提出了 v-CLR , 这是一个旨在消除这种纹理偏差的框架。其核心思想简单而深刻: 如果我们向模型展示同一图像的两个完全不同的“视图”——一个看起来很正常,另一个纹理被破坏但形状保持不变——并强制模型从两者中提取相同的特征,那么模型必须学会依赖形状。
1. 视图: 破坏外观
为了实现这一点,v-CLR 需要训练图像的不同版本。研究人员使用现成的工具自动生成这些视图。

如 图 5 所示,该方法使用三种类型的输入:
- 自然图像 (Natural Images, 左): 标准的 RGB 照片。
- 艺术风格化图像 (Art-Stylized Images, 中): 通过风格迁移网络处理后的图像。内容相同,但纹理发生了根本性变化,看起来像一幅画。
- 彩色深度图像 (Colorized Depth Images, 右): 场景的深度图。这是最关键的视图,因为它包含零原始纹理信息。它纯粹代表了场景的 3D 结构。
在训练期间,模型将看到自然图像,并随机看到其中一个变换后的图像。目的是迫使模型意识到照片中的“羊”和深度图中的“羊形团块”是完全相同的实体。
2. 架构
v-CLR 建立在基于 Transformer 的检测器之上 (具体是 DINO-DETR 和 Deformable DETR) 。与旧的基于 CNN 的检测器不同,这些模型使用“对象查询 (object queries) ”——即可学习的向量,用于探测图像以寻找对象。
这是 v-CLR 框架的高级架构:

该框架如 图 2 所示,由两个并行分支组成:
- 自然图像分支 (上): 该分支接收标准图像。它使用“教师 (Teacher) ”模型 (通过指数移动平均或 EMA 更新) 来提取特征。
- 变换图像分支 (下): 该分支接收深度图或风格化图像。它使用“学生 (Student) ”模型 (通过梯度下降积极训练的模型) 。
目标是一致性 。 模型应该为自然图像和变换图像产生相似的“查询” (特征) 。如果变换图像分支 (看不到纹理) 产生的特征向量与自然图像分支 (能看到纹理) 产生的特征向量相同,这意味着自然图像分支已经学会了编码几何结构,而不仅仅是记忆纹理。
3. 锚点: 通用对象提议
简单地强制两个视图匹配存在风险。模型可能会作弊,将所有东西映射到一个常数向量,或者将背景特征与背景特征匹配。我们需要确保模型匹配的是对象 。
为了解决这个问题,v-CLR 使用了 CutLER , 这是一个最先进的无监督对象提议网络。CutLER 非常擅长发现“看起来像对象的团块”,即使它不知道它们是什么。
匹配的工作流程是独特的:
- CutLER 提供一组“对象提议 (Object Proposals) ” (边界框) 。
- 模型查看来自自然图像分支和变换图像分支的查询。
- 它匹配对应于同一个 CutLER 提议的查询。

图 3 可视化了这个匹配过程。
- 生成 \(Q_1\) (教师查询) 和 \(Q_2\) (学生查询) 。
- 它们被过滤并与 对象提议 (\(P_0\)) 进行匹配。
- 只有与有效对象提议对齐的查询才会被选中用于计算一致性损失。
这确保了模型专门针对对象优化其表征,而不是针对天空、草地或墙壁。
4. 一致性的数学原理
我们如何在数学上强制这些视图对齐?研究人员引入了一个匹配损失函数。
首先,他们计算匹配查询之间的 余弦相似度 (Cosine Similarity) 。 目标是最大化自然图像查询 (\(q_1\)) 和变换图像查询 (\(q_2\)) 之间的相似度 (或最小化距离) 。

在这个方程中:
- \(\hat{\mathcal{Q}}_i\) 表示成功匹配到对象提议的查询集。
- 损失最小化了 \(1 - \cos(q_1, q_2)\),有效地在特征空间中拉近了向量 \(q_1\) 和 \(q_2\) 的距离。
除了这种相似性损失外,模型仍被训练去执行实际的分割任务。它使用一组标准的目标检测损失 (\(L_{obj}\)),包括 Dice 损失 (用于掩码) 和框回归损失:

最终的总损失函数结合了匹配目标和标准的真值分割损失:

通过最小化这个组合损失,模型学会了准确地检测对象 (使用真值) ,同时确保其内部特征表征在剧烈的视觉变化下保持一致 (使用匹配损失) 。
实验结果
理论听起来很扎实,但它有效吗?研究人员在几个困难的基准上测试了 v-CLR,这些基准的训练类别和测试类别是完全不相交的。
1. VOC \(\to\) Non-VOC
在这个实验中,模型仅在 Pascal VOC 数据集的 20 个类别 (例如: 人、车、狗) 上进行训练,但在 COCO 数据集的其他 60 个不同类别 (例如: 长颈鹿、风筝、甜甜圈) 上进行测试。

表 1 显示了结果。这里的指标是 平均召回率 (Average Recall, AR) , 它衡量了模型成功找到了多少未知对象。
- 基线: 标准检测器如 Mask-RCNN 和原生 DINO-DETR 表现挣扎。例如,DINO-DETR 的 AR@100 仅为 31.1%。
- v-CLR: 所提出的方法达到了 40.9% , 大幅提高了近 10 个百分点。这证实了消除纹理偏差对于发现新颖对象有显著帮助。
2. 定性分析
数字虽好,但眼见为实。让我们看看模型在复杂场景中实际检测到了什么。

在 图 4 中,模型 (仅在 VOC 类别上训练) 正在寻找它可能从未明确学习过分割的对象。
- 左上: 它分割了台灯、画作和架子上的书。
- 中下: 它清晰地分割了电脑显示器、键盘和鼠标——这些复杂的形状与 VOC 中的“自然”物体截然不同。
- 右下: 注意凌乱桌面物品的分割。一个有纹理偏差的模型可能会将黑色键盘混入深色桌面,但 v-CLR 看到了结构上的差异。
3. 鲁棒性分析
论文中最有趣的发现之一是 v-CLR 在图像由噪点或扭曲时的表现。如果一个模型依赖于结构而不是像素完美的纹理,它应该对噪声 (会破坏纹理) 更具鲁棒性。

图 6 绘制了随着“噪声率” (参数扰动) 增加,性能 (AR) 的变化情况。
- 蓝线 (DINO-DETR): 随着噪声增加,性能急剧下降。
- 红线 (Ours/v-CLR): 斜率要平缓得多。即使网络受到扰动,模型也能更好地保持其性能。
同样,研究人员测试了模型对抗图像扭曲 (如对比度变化、雪和霜冻) 的能力。

图 8 显示了置信度分数的分布。
- 红线 (Baseline Distorted): 当图像被扭曲时,基线模型失去信心 (曲线向左/向上移动) 。
- 紫/蓝线 (Ours): v-CLR 的置信度分布保持极其稳定,与其在干净图像上的表现几乎相同。因为当汽车被雪覆盖或有雾时,它的形状并没有改变,所以 v-CLR 仍然充满信心。
4. 跨数据集泛化
最后,作者通过在 VOC 上训练并在 UVO (Unidentified Video Objects,未识别视频对象) 数据集上进行测试,进一步推动了模型的发展,UVO 是专门为开放世界分割设计的。

表 10 突出了一个关键的成功:
- 在 已知 (Known) 类别上,v-CLR 的表现与基线相当 (略好) 。
- 在 未知 (Unknown) 类别上,v-CLR 从 36.5% 跃升至 47.2% (AR@100)。
这证明了开放世界性能的提升并不是以忘记已知类别为代价的。这是一种“两全其美”的方案。
结论与启示
“v-CLR” 论文为反对现代计算机视觉中固有的纹理偏差提供了令人信服的论据。通过迫使模型学习在自然照片、深度图和风格化绘画之间保持一致的表征,研究人员成功地解耦了对象识别与对象外观。
主要启示:
- 纹理是拐杖: 深度学习模型天生容易过拟合纹理,这损害了它们发现新的、未见过对象的能力。
- 多视图一致性: 我们可以通过强迫模型从无纹理视图 (如深度图) 中提取相同的特征来打破这种习惯。
- 提议很重要: 使用无监督提议 (CutLER) 确保了我们学习到的“一致特征”实际上与对象相关。
对于学生和从业者来说,这篇论文提醒我们, 数据增强不仅仅是为了防止过拟合;它关乎定义模型应该学习什么。通过选择破坏纹理的增强方式,作者明确地编程让模型学习结构。随着我们迈向需要在混乱、不可预测的现实世界环境中运行的更通用的机器人和 AI 智能体,像 v-CLR 这样的技术对于构建真正能“看”世界的视觉系统至关重要,而不仅仅是模式匹配。
](https://deep-paper.org/en/paper/2504.01383/images/cover.png)