引言
在大数据时代,我们很少仅仅依赖单一信息源来理解世界。试想一辆自动驾驶汽车: 它不仅仅是通过摄像头观察,还会通过声纳监听、用激光雷达 (LiDAR) 测量距离,并核对 GPS 坐标。这种多样化数据源的聚合正是多视图聚类 (Multi-View Clustering, MVC) 的基础。通过融合来自不同“视图” (例如音频、视频、文本) 的信息,机器学习模型可以达到单一视图无法比拟的理解水平。
然而,这其中存在一个陷阱。大多数现有的 MVC 算法都依赖于一个完美、理想化的假设: 即来自所有这些视图的数据都是干净的。
但在现实世界中,情况往往不尽如人意。传感器会故障,传输通道会受损,数据收集会被中断。当一个多视图模型被输入噪声数据——即伪装成有效信号的垃圾输入——时,性能不仅会下降,往往还会崩溃。噪声会破坏融合过程,误导模型去发现根本不存在的模式。

如上图所示,想象一个监测鸟类的场景。视图 1 (红外) 和视图 3 (声音) 可能完美地捕捉到了鸟,但视图 2 (视频) 可能在那一刻恰好出现了故障或遮挡。如果模型将视图 2 视为同等的真理,聚类结果就会受到损害。
这引出了一篇开创性的论文,题为 “Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios” (自动识别与修正: 噪声场景下的鲁棒深度对比多视图聚类) 。研究人员提出了一个名为 AIRMVC 的框架。AIRMVC 不会盲目接受所有数据,而是充当一个复杂的过滤器和修复机制。它能自动识别哪些数据点是噪声,并在它们造成破坏之前对其进行修正,同时学习用于聚类的鲁棒表示。
在这篇深度解析中,我们将揭秘 AIRMVC 如何将嘈杂的混乱转化为有序的聚类。
背景: 噪声多视图聚类的挑战
要欣赏 AIRMVC 的创新之处,我们首先必须了解当前方法的局限性。
标准 MVC 范式
传统的深度多视图聚类通常遵循一个标准流程:
- 编码器 (Encoders) 从每个视图中提取特征。
- 融合层 (Fusion Layers) 结合这些特征以寻找共性。
- 聚类模块 (Clustering Modules) 将融合后的特征分组为不同的类别。
MVC 的“秘诀”在于互补信息。图像中模糊不清的内容在音频片段中可能显而易见。通过交叉引用,模型获得了信心。
噪声问题
当“互补”变成“矛盾”时,问题就出现了。如果视频信号变成了静电噪声,它非但不能补充音频,反而会与其冲突。
最近解决这一问题的尝试包括像 RMCNC (噪声对应下的鲁棒多视图聚类) 这样的方法,它试图使用特定的损失函数来容忍噪声。然而,容忍并不等同于修正。大多数现有方法侧重于让特征学习对噪声更“强硬”,但它们缺乏一种专门的机制来明确指出: “这个特定样本是坏的,我要修复它。”
这正是 AIRMVC 与众不同之处。它不仅仅忍受噪声;它会主动寻找并处理噪声。
AIRMVC 框架: 方法论深度解析
AIRMVC 的核心逻辑建立在三大支柱之上: 识别 (Identification) 、修正 (Rectification) 和鲁棒对比学习 (Robust Contrastive Learning) 。

如上面的框架图所示,该过程是循环且相互关联的。模型对视图进行编码,识别异常 (噪声) ,使用混合策略对其进行修正,并通过噪声鲁棒的对比机制强化学习。
第一部分: 通过异常检测进行噪声识别
在一个没有标签告诉你什么是“干净”数据的无监督设置中,你要如何发现噪声?研究人员将此重新表述为一个异常识别问题 。
假设很简单: 干净的数据倾向于一致地聚类。噪声数据在潜空间中表现得像离群值或异常值。为了对此建模,研究人员使用了高斯混合模型 (Gaussian Mixture Model, GMM) 。
建模分布
首先,模型从输入数据中提取表示 (\(E\)) 。这些表示的分布被建模为高斯的混合:

这里,\(q\) 是代表聚类分配的潜变量。在标准的 GMM 中,我们要寻找样本属于特定聚类 \(k\) 的概率。
然而,仅仅聚类特征不足以发现噪声。研究人员采取了一个巧妙的步骤: 他们将潜变量 \(q\) 与模型的软预测 (soft predictions) (\(y\)) 联系起来。“软预测”是神经网络输出的概率分布 (例如,“80% 的几率这是鸟,20% 的几率是飞机”) 。
通过用网络的软预测替换标准的 GMM 分配,他们动态地计算聚类的均值 (\(\mu\)) 和方差 (\(\sigma\)) :

干净与噪声的概率
建立了分布模型后,系统计算后验概率。这告诉我们一个特定样本 \(x_i\) 属于聚类 \(k\) 的可能性有多大。如果一个样本是干净的,它的软预测应该与聚类分布很好地吻合。如果是噪声,它在统计上看起来就像一个离群值。

最后,框架分配一个“洁净度评分”,表示为 \(\varphi_i\) (phi)。这是从一个双分量 GMM 中得出的,该 GMM 专门查看样本是干净的 (\(a=1\)) 还是噪声的 (\(a=0\)) 可能性。

简单来说: \(\varphi_i\) 是样本 \(i\) 为干净数据的概率。 如果 \(\varphi_i\) 接近 1,数据被信任。如果接近 0,它就被标记为噪声。
第二部分: 混合修正策略
一旦识别出噪声 (\(\varphi_i \approx 0\)) ,我们该怎么处理它?删除它可能会导致数据集规模缩减得太厉害。相反,AIRMVC 采用了一种混合修正策略 (Hybrid Rectification Strategy) 。
其思路是通过将其与来自可信视图的预测混合来修复噪声软预测。在这个框架中,研究人员假设一个视图 (通常是主视图) 充当相对干净的锚点,或者利用预测的共识。
修正是一个插值过程:

让我们分解一下这个方程:
- \(y_i^v\) 是潜在噪声视图的原始预测。
- \(y_i^1\) 是来自可靠视图 (视图 1) 的预测。
- \(\varphi_i^v\) 是我们之前计算的洁净度评分。
如果视图是干净的 (\(\varphi \approx 1\)) ,项 \((1-\varphi)\) 变为 0,我们保留原始预测。如果视图是噪声 (\(\varphi \approx 0\)) ,第一项消失,我们用视图 1 的预测替换噪声预测。这产生了一个“混合”或修正后的预测 \(m_i^v\)。
然后,使用交叉熵损失函数强制执行此修正预测,称为修正损失 (Rectification Loss) :

这迫使网络更新其参数,以便该样本未来的预测更接近修正后 (更干净) 的版本。
第三部分: 噪声鲁棒对比机制
拼图的最后一块是对比学习 (Contrastive Learning) 。 在标准对比学习中,目标是将同一样本 (来自不同视图) 的表示拉近,并将不同样本推开。
- 正样本对: 视图 A 中的样本 \(i\) 和视图 B 中的样本 \(i\)。
- 负样本对: 视图 A 中的样本 \(i\) 和视图 B 中的样本 \(j\)。
然而,如果视图 B 中的样本 \(i\) 是噪声 (垃圾数据) ,将视图 A 拉近它会“污染”视图 A 的表示。我们需要防止模型学习与噪声的一致性。
AIRMVC 在对比损失中引入了一个置信度阈值 (\(\tau\)) 。它使用软预测在应用损失之前验证一对样本在语义上是否真的相似。

项 \(\mathbb{I}\{ (y_i^m)^\top (y_j^n) \geq \tau \}\) 充当看门人的角色。
- 我们计算两个视图的预测 (\(y\)) 的点积。
- 如果相似度很高 (高于 \(\tau\)) ,门打开 (值为 1) ,我们应用对比损失来对齐它们的表示。
- 如果相似度很低 (低于 \(\tau\)) ——这通常发生在一个视图是噪声并预测随机类别时——门关闭 (值为 0) 。模型实际上忽略了这一对,防止噪声破坏学习到的特征。
此鲁棒损失在所有视图对上求和:

目标函数
最终的训练目标结合了三种损失:
- 重构损失 (\(\mathcal{L}_{rec}\)) : 确保自编码器保留基本的特征信息。
- 修正损失 (\(\mathcal{L}_{rs}\)) : 修复噪声预测。
- 对比损失 (\(\mathcal{L}_{con}\)) : 对齐视图同时过滤噪声。

\(\alpha\) 和 \(\beta\) 是平衡修正和对比学习贡献的超参数。
理论保证
这篇论文的优点之一是它不仅仅依赖于启发式方法;它为其有效性提供了理论基础。研究人员利用信息论证明,他们的表示最大化了与干净信号的互信息,同时最小化了与噪声的互信息。

在这个不等式中:
- \(I(E^*; y)\) 代表学习到的表示与干净预测共享的信息。定理证明这被最大化了 (接近真实的输入信息 \(I(x;y)\)) 。
- \(I(E^*; y')\) 代表与噪声预测共享的信息。定理证明这被最小化了 (受限于噪声因子 \(\eta\)) 。
本质上,AIRMVC 被数学证明像一个筛子一样运作,让干净的语义信息通过,同时捕获并丢弃噪声。
实验结果
为了验证 AIRMVC,作者在 6 个基准数据集 (包括 BBCSport、Reuters 和 Caltech101) 上将其与 11 个最先进的基准模型进行了测试。
设置
他们通过随机向视图中引入不同比例的噪声来模拟真实世界的情况: 10%、30%、50%、70%,甚至是高达 90%。
数据集在规模和复杂性上各不相同:

性能对比
结果令人信服。AIRMVC 始终优于竞争对手,尤其是在噪声水平增加时。
看看在 10% 噪声率下 BBCSport、WebKB 和 Reuters 上的表现:

在 WebKB 数据集上,AIRMVC 的准确率 (ACC) 达到了 83.73% , 显著高于第二名 (MVCAN) 的 77.83%。在标准化互信息 (NMI) 方面的差距更大,从大约 12% (基准模型) 跃升至 AIRMVC 的 27.15% 。
即使在极端压力下——90% 噪声——大多数模型基本上只能靠猜测,AIRMVC 仍比其他模型更好地保持了结构完整性。

在表 9 中,在 UCI-digit 数据集 90% 的噪声下,AIRMVC 获得了 57.70% 的准确率,而许多竞争对手如 RMCNC 跌至 19% 左右。这表明修正策略不仅仅是一个小的优化;它是模型在恶劣数据环境中的生存机制。
为什么有效? (消融实验)
研究人员拆解了模型,以查看哪些部分最重要。他们测试了没有识别/修正 (D&R) 模块和没有对比 (Con) 模块的模型。

黄色条柱 (Ours) 代表完整的 AIRMVC 模型。在几乎所有情况下,移除 D&R 模块 (浅绿色) 导致性能大幅下降。这证实了修复数据的能力与对比学习机制本身一样重要,甚至更重要。
学习过程的可视化
聚类真的分开了吗?研究人员使用 t-SNE 可视化了 UCI-digit 数据集在 200 个 Epoch 期间的特征空间。

在 Epoch 20 (左上) ,数据是一团混乱的颜色——模型无法区分数字。到了 Epoch 100,明显的岛屿开始形成。到了 Epoch 200 (右下) ,聚类清晰且分离良好。这种视觉演变证明,即使输入了噪声,AIRMVC 也能成功理清数据的底层结构。
敏感性分析
最后,研究人员检查了模型是否对超参数过于挑剔。

上面的 3D 图显示了随着超参数 \(\alpha\) 和 \(\beta\) 的变化,性能 (z 轴) 的变化情况。中心附近的相对平坦的高原 (值在 1.0 左右) 表明模型是稳定的。它不需要“魔法数字”来工作;它在合理的设置范围内表现良好,尽管如果参数被推向极端 (如 0.01) ,性能会下降。
结论与启示
AIRMVC 论文代表了无监督学习的一个重大飞跃。它解决了以前多视图聚类方法中的一个关键缺陷: 即假设更多的数据总是更好的数据。
通过承认现实世界的传感器会故障且数据会损坏,研究人员构建了一个模拟人类特质——怀疑精神——的系统。AIRMVC 不会盲目信任其输入。它:
- 利用概率建模 (GMM) 识别异常。
- 利用好数据修正坏数据。
- 严格从经过验证的高置信度关联中学习 。
其影响不仅仅局限于聚类。这种“识别并修正”的范式可以适用于自动驾驶 (忽略被泥浆覆盖的摄像头而倾向于 LiDAR) 、医疗诊断 (过滤掉嘈杂的 MRI 伪影) 或鲁棒的金融建模。
在大数据的喧嚣现实中,AIRMVC 证明了清晰的关键不仅仅在于倾听每一个信号——而在于知道该忽略哪些,以及该修复哪些。
](https://deep-paper.org/en/paper/2505.21387/images/cover.png)