当数据撒谎时: 喧嚣世界中的鲁棒多视图聚类
在机器学习研究的理想世界中,数据是干净的,标签是准确的,每一个输入都与其描述完美匹配。然而在现实世界中,数据是杂乱的。传感器会故障,标注员会犯错,数据集里充满了噪声。
想象一下,你正在训练一个 AI 通过两个“视图”来理解场景: 来自相机的图像和来自文本文件的说明文字。在一个完美的数据集中,一张绵羊的照片总是配有“草地上的绵羊”这段文字。但是,如果数据管道交叉了会发生什么?如果是绵羊的照片配上了“沙滩上的黄色小船”这段文字呢?
这种现象被称为 噪声对应 (Noisy Correspondence) , 它可以破坏无监督学习模型的性能。此外,当这些模型尝试使用 伪标签 (Pseudo-labels) 进行自学 (即猜测图像的类别以便从中学习) 时,它们往往会猜错,从而强化了自身的错误。
今天,我们将深入探讨一篇 CVPR 论文,题为 “ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence” 。 这项研究直面这两个关键问题,提出了一个鲁棒的框架,使 AI 即使在数据对其“撒谎”时也能有效地学习。
问题所在: 噪声的双重打击
要理解这篇论文的重要性,我们需要先了解具体的领域: 多视图聚类 (Multi-View Clustering, MVC) 。
MVC 旨在通过利用来自多个源 (视图) 的信息将相似的数据点分组 (聚类) 。例如,如果你正在对新闻报道进行聚类,一个视图可能是标题,另一个视图可能是文章配图。理论上,通过同时观察两者,算法应该比单独观察其中之一能更好地理解主题。
然而,现有的 MVC 方法依赖于两个危险的假设:
- 无瑕预测假设: 它们假设自监督训练过程中生成的伪标签是正确的。
- 完美对齐假设: 它们假设同一个数据点的视图 A 和视图 B 实际上是相互对应的。
当这些假设失效时,我们就面临 噪声伪标签问题 (NPP) 和 噪声对应问题 (NCP) 。

如上图 Figure 1 所示,这些问题造成了一个混乱的学习环境。
- 噪声对应 (NCP): 看一下图像和文本之间的连接。绵羊的图像正确连接到了绵羊文本 (打钩) ,但巴士图像可能错误地连接到了小船文本 (打叉) 。如果模型试图在特征空间中将“巴士”图像和“小船”文本拉近,它学到的就是无稽之谈。
- 噪声伪标签 (NPP): 在右侧,我们看到聚类分配。如果模型错误地猜测“汽车”属于“小船”聚类,并将其作为训练的基准真值,就会产生错误的反馈循环。
ROLL (Robust nOisy pseudo-Label Learning) 背后的研究人员意识到,要构建一个真正鲁棒的系统,他们必须同时解决这两个问题。
解决方案: ROLL 框架
该论文提出的 ROLL 方法旨在防止深度学习模型因死记硬背噪声数据而通常发生的过拟合。该框架分两个不同阶段运行: 预热阶段和鲁棒学习阶段 。

第一阶段: 预热
在模型能够处理噪声之前,它需要对数据有一个基本的了解。作者为此采用了标准的自编码器架构。
对于每个视图 \(v\) (例如图像或文本) ,都有一个编码器 \(E\) 将输入 \(X\) 压缩为潜在表示 \(Z\)。

为了确保这些表示保留有意义的信息,模型尝试使用解码器从 \(Z\) 重构原始输入。重构损失计算如下:

在此阶段,模型还使用标准的对比学习来对齐不同的视图。这本质上是在告诉模型: “让图像 A 的表示看起来与文本 A 的表示相似。”一旦预热完成,模型会对学到的特征执行 K-means 聚类,以生成初始的——可能包含噪声的——伪标签。
第二阶段: 从噪声伪标签中学习 (NPL)
这正是论文的创新之处。一旦我们要有了初始伪标签,我们就想用它们来监督训练。这通常是通过计算样本 \(i\) 属于聚类中心 \(C\) 的概率来完成的。
预测概率分布是通过样本表示与聚类中心之间相似度的 Softmax 函数计算得出的:

在标准的、朴素的方法中,你会简单地最小化预测概率与伪标签 \(Y\) 之间的交叉熵 (CE) 损失:

陷阱: 如果 \(Y\) (伪标签) 是错的,最小化这个损失会强迫模型学习这个错误。
修正方案: 作者引入了 噪声容忍伪标签学习 (NPL) 。 核心思想是基于跨视图一致性对损失进行加权。如果视图 A (图像) 和视图 B (文本) 都强烈认同同一个聚类分配,那么这很可能是一个正确的标签。如果它们不一致,标签很可能是噪声,模型应该减少向它学习。
他们在损失函数中引入了一个加权机制:

注意上式中的分数项。它计算了两个不同视图 (\(L^v\) 和 \(L^u\)) 的概率分布之间的点积。
- 高一致性: 如果两个视图预测相似的分布,点积较大,权重较高,模型就会从该样本中学习。
- 低一致性: 如果视图预测不同的聚类,权重较低,有效地在更新期间“抑制”了该样本,使其不会破坏模型。
总 NPL 损失是所有视图的损失之和:

第三阶段: 鲁棒多视图对比学习 (RCL)
第二个主要贡献解决了 噪声对应问题 (NCP) 。
标准的对比学习使用 InfoNCE 损失。它试图最大化正样本对 (图像及其匹配的文本) 之间的相似度,并最小化与负样本对的相似度。
首先,使用余弦距离测量相似度:

然后,计算正样本对 (\(P^+\)) 和负样本对 (\(P^-\)) 的概率:

并应用标准的 InfoNCE 损失:

InfoNCE 的问题: InfoNCE 以后过分关注“困难样本”——即难以对齐的配对而闻名。在干净的数据集中,这是好事;它迫使模型学习细粒度的细节。但在噪声数据集中,“困难样本”通常只是一个错误匹配 (例如绵羊图像和船的文本) 。强迫模型对齐它们会导致对噪声的过拟合。
修正方案: 作者提出了 鲁棒多视图对比损失 (RCL) 。 他们引入了一个控制因子 \(r\) (其中 \(0 < r < 1\)) 来调节模型对困难样本的关注程度。
新的损失函数如下所示:

这个公式看起来可能很吓人,但在数学上非常优雅,因为它连接了两个极端。
如果 \(r \to 0\): 该公式渐进等价于标准的 InfoNCE 损失。这具有高度的判别力,但对噪声不鲁棒。

如果 \(r \to 1\): 该公式等价于 平均绝对误差 (MAE) 损失。MAE 对所有样本一视同仁。它对噪声非常鲁棒,但不太聪明——它学不到很强的判别特征 (欠拟合) 。

通过将 \(r\) 设置在中间某个位置 (例如 0.1) ,ROLL 获得了两全其美的效果: 它像 InfoNCE 一样学习判别特征,但像 MAE 一样忽略不可能的异常值。
总优化目标结合了重构、噪声容忍伪标签和鲁棒对比学习:

实验结果
研究人员在五个数据集上将 ROLL 与 11 种最先进的方法进行了测试,包括 Scene15、CUB (鸟类) 和 Reuters (新闻) 。他们通过随机打乱一个视图中一定比例的样本 (从 20% 到 80% 的噪声) 来模拟噪声对应。
1. 性能表
Table 1 中展示的结果令人信服。

看一下 CUB 数据集 (主要列的第二列) ,在 50% 噪声率下:
- SURE (竞争对手) 的准确率 (ACC) 为 20.30% 。
- DealMVC 的准确率为 8.32% 。
- ROLL (Ours) 的准确率为 77.63% 。
差异是巨大的。当一半的数据不匹配时,其他方法会崩溃,而 ROLL 仍能保持高性能。即使在极端的噪声水平下,它也能设法找到数据的潜在结构。
2. 鲁棒性分析
论文中最有趣的直观展示之一是性能如何随噪声增加而变化。

在 Figure 3 中,红线代表 ROLL。你可以看到,随着噪声率 (x轴) 从 0.1 (10%) 增加到 0.8 (80%),竞争对手方法 (蓝、绿、黄线) 的性能骤降至零附近。然而,ROLL 几乎保持平坦。它非常固执——但这在这里是好事。它拒绝让噪声破坏其特征空间。
3. 特征空间可视化
为了证明这些数字并非谎言,作者使用 t-SNE 可视化了数据的潜在表示。

- 图 (a) 和 (c): 这些代表竞争对手的方法 (ICMVC 和 RMCNC) 。注意颜色 (聚类) 是如何混杂在一起的。类别之间没有清晰的分离。
- 图 (d): 这是 ROLL 。 聚类紧密、紧凑且分离良好。即使 50% 的文本描述是错误的,ROLL 也能成功地根据实际内容对图像进行分组。
4. 参数敏感性
最后,作者分析了超参数如何影响模型。

Figure 6 (右侧) 专门观察了鲁棒对比损失中的参数 \(r\)。
- 蓝线 (\(r=0.1\)): 高准确率。模型具有判别力且鲁棒。
- 红线 (\(r=0.9\)): 性能下降。这更接近 MAE 损失;模型过于“松懈”并对数据欠拟合,未能学习到聚类之间清晰的区别。
这证实了在噪声多视图学习中,需要在 InfoNCE (困难挖掘) 和 MAE (平等加权) 之间取得平衡的理论。
消融实验
我们如何知道 ROLL 的哪一部分在发挥主要作用?是噪声容忍伪标签 (NPL) 还是鲁棒对比学习 (RCL)?
作者进行了消融实验,系统地移除模型的部分组件,看看哪里会出问题。

- 移除 RCL: 性能显着下降 (Scene-15 上的 ACC 从 ~45% 降至 ~35%) 。这表明处理噪声对应至关重要。
- 移除 NPL: 性能下降更多 (Scene-15 上的 ACC 降至 ~33%) 。这表明盲目信任伪标签是危险的。
- 组合: 完整模型 (最后一行) 始终优于任何部分变体。
结论与启示
“ROLL” 论文提供了一个清醒的提醒: 在大数据时代,“更多数据”并不总是“更好的数据”——特别是如果这些数据包含噪声的话。
通过识别 噪声伪标签 和 噪声对应 这双重挑战,作者强调了无监督多视图学习中的一个主要瓶颈。他们的解决方案在双重性上非常优雅:
- NPL 充当过滤器,使用跨视图共识来忽略不可靠的伪标签。
- RCL 充当减震器,修改对比损失以防止模型对不匹配的配对过拟合。
对于学生和从业者来说,这篇论文教导了宝贵的一课: 像交叉熵和 InfoNCE 这样的标准损失函数虽然强大,但它们也很脆弱。当从精心策划的学术数据集转向混乱的现实世界时,设计对噪声鲁棒的损失函数与网络架构本身一样重要。
](https://deep-paper.org/en/paper/file-2185/images/cover.png)