引言

在大数据时代，我们很少仅仅依赖单一信息源来理解世界。试想一辆自动驾驶汽车: 它不仅仅是通过摄像头观察，还会通过声纳监听、用激光雷达 (LiDAR) 测量距离，并核对 GPS 坐标。这种多样化数据源的聚合正是多视图聚类 (Multi-View Clustering, MVC) 的基础。通过融合来自不同“视图” (例如音频、视频、文本) 的信息，机器学习模型可以达到单一视图无法比拟的理解水平。

然而，这其中存在一个陷阱。大多数现有的 MVC 算法都依赖于一个完美、理想化的假设: 即来自所有这些视图的数据都是干净的。

但在现实世界中，情况往往不尽如人意。传感器会故障，传输通道会受损，数据收集会被中断。当一个多视图模型被输入噪声数据——即伪装成有效信号的垃圾输入——时，性能不仅会下降，往往还会崩溃。噪声会破坏融合过程，误导模型去发现根本不存在的模式。

Figure 1. An illustrative diagram of noise in a multi-view scenario.

如上图所示，想象一个监测鸟类的场景。视图 1 (红外) 和视图 3 (声音) 可能完美地捕捉到了鸟，但视图 2 (视频) 可能在那一刻恰好出现了故障或遮挡。如果模型将视图 2 视为同等的真理，聚类结果就会受到损害。

这引出了一篇开创性的论文，题为 “Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios” (自动识别与修正: 噪声场景下的鲁棒深度对比多视图聚类) 。研究人员提出了一个名为 AIRMVC 的框架。AIRMVC 不会盲目接受所有数据，而是充当一个复杂的过滤器和修复机制。它能自动识别哪些数据点是噪声，并在它们造成破坏之前对其进行修正，同时学习用于聚类的鲁棒表示。

在这篇深度解析中，我们将揭秘 AIRMVC 如何将嘈杂的混乱转化为有序的聚类。

背景: 噪声多视图聚类的挑战

要欣赏 AIRMVC 的创新之处，我们首先必须了解当前方法的局限性。

标准 MVC 范式

传统的深度多视图聚类通常遵循一个标准流程:

编码器 (Encoders) 从每个视图中提取特征。
融合层 (Fusion Layers) 结合这些特征以寻找共性。
聚类模块 (Clustering Modules) 将融合后的特征分组为不同的类别。

MVC 的“秘诀”在于互补信息。图像中模糊不清的内容在音频片段中可能显而易见。通过交叉引用，模型获得了信心。

噪声问题

当“互补”变成“矛盾”时，问题就出现了。如果视频信号变成了静电噪声，它非但不能补充音频，反而会与其冲突。

最近解决这一问题的尝试包括像 RMCNC (噪声对应下的鲁棒多视图聚类) 这样的方法，它试图使用特定的损失函数来容忍噪声。然而，容忍并不等同于修正。大多数现有方法侧重于让特征学习对噪声更“强硬”，但它们缺乏一种专门的机制来明确指出: “这个特定样本是坏的，我要修复它。”

这正是 AIRMVC 与众不同之处。它不仅仅忍受噪声；它会主动寻找并处理噪声。

AIRMVC 框架: 方法论深度解析

AIRMVC 的核心逻辑建立在三大支柱之上: 识别 (Identification) 、修正 (Rectification) 和鲁棒对比学习 (Robust Contrastive Learning) 。

Figure 2. Illustration of the overall framework of the proposed AIRMVC.

如上面的框架图所示，该过程是循环且相互关联的。模型对视图进行编码，识别异常 (噪声) ，使用混合策略对其进行修正，并通过噪声鲁棒的对比机制强化学习。

第一部分: 通过异常检测进行噪声识别

在一个没有标签告诉你什么是“干净”数据的无监督设置中，你要如何发现噪声？研究人员将此重新表述为一个异常识别问题 。

假设很简单: 干净的数据倾向于一致地聚类。噪声数据在潜空间中表现得像离群值或异常值。为了对此建模，研究人员使用了高斯混合模型 (Gaussian Mixture Model, GMM) 。

建模分布

首先，模型从输入数据中提取表示 (\(E\)) 。这些表示的分布被建模为高斯的混合:

Equation 1

这里，\(q\) 是代表聚类分配的潜变量。在标准的 GMM 中，我们要寻找样本属于特定聚类 \(k\) 的概率。

然而，仅仅聚类特征不足以发现噪声。研究人员采取了一个巧妙的步骤: 他们将潜变量 \(q\) 与模型的软预测 (soft predictions) (\(y\)) 联系起来。“软预测”是神经网络输出的概率分布 (例如，“80% 的几率这是鸟，20% 的几率是飞机”) 。

通过用网络的软预测替换标准的 GMM 分配，他们动态地计算聚类的均值 (\(\mu\)) 和方差 (\(\sigma\)) :

Equation 5

干净与噪声的概率

建立了分布模型后，系统计算后验概率。这告诉我们一个特定样本 \(x_i\) 属于聚类 \(k\) 的可能性有多大。如果一个样本是干净的，它的软预测应该与聚类分布很好地吻合。如果是噪声，它在统计上看起来就像一个离群值。

Equation 6

最后，框架分配一个“洁净度评分”，表示为 \(\varphi_i\) (phi)。这是从一个双分量 GMM 中得出的，该 GMM 专门查看样本是干净的 (\(a=1\)) 还是噪声的 (\(a=0\)) 可能性。

Equation 8

简单来说: \(\varphi_i\) 是样本 \(i\) 为干净数据的概率。 如果 \(\varphi_i\) 接近 1，数据被信任。如果接近 0，它就被标记为噪声。

第二部分: 混合修正策略

一旦识别出噪声 (\(\varphi_i \approx 0\)) ，我们该怎么处理它？删除它可能会导致数据集规模缩减得太厉害。相反，AIRMVC 采用了一种混合修正策略 (Hybrid Rectification Strategy) 。

其思路是通过将其与来自可信视图的预测混合来修复噪声软预测。在这个框架中，研究人员假设一个视图 (通常是主视图) 充当相对干净的锚点，或者利用预测的共识。

修正是一个插值过程:

Equation 9

让我们分解一下这个方程:

\(y_i^v\) 是潜在噪声视图的原始预测。
\(y_i^1\) 是来自可靠视图 (视图 1) 的预测。
\(\varphi_i^v\) 是我们之前计算的洁净度评分。

如果视图是干净的 (\(\varphi \approx 1\)) ，项 \((1-\varphi)\) 变为 0，我们保留原始预测。如果视图是噪声 (\(\varphi \approx 0\)) ，第一项消失，我们用视图 1 的预测替换噪声预测。这产生了一个“混合”或修正后的预测 \(m_i^v\)。

然后，使用交叉熵损失函数强制执行此修正预测，称为修正损失 (Rectification Loss) :

Equation 10

这迫使网络更新其参数，以便该样本未来的预测更接近修正后 (更干净) 的版本。

第三部分: 噪声鲁棒对比机制

拼图的最后一块是对比学习 (Contrastive Learning) 。在标准对比学习中，目标是将同一样本 (来自不同视图) 的表示拉近，并将不同样本推开。

正样本对: 视图 A 中的样本 \(i\) 和视图 B 中的样本 \(i\)。
负样本对: 视图 A 中的样本 \(i\) 和视图 B 中的样本 \(j\)。

然而，如果视图 B 中的样本 \(i\) 是噪声 (垃圾数据) ，将视图 A 拉近它会“污染”视图 A 的表示。我们需要防止模型学习与噪声的一致性。

AIRMVC 在对比损失中引入了一个置信度阈值 (\(\tau\)) 。它使用软预测在应用损失之前验证一对样本在语义上是否真的相似。

Equation 12

项 \(\mathbb{I}\{ (y_i^m)^\top (y_j^n) \geq \tau \}\) 充当看门人的角色。

我们计算两个视图的预测 (\(y\)) 的点积。
如果相似度很高 (高于 \(\tau\)) ，门打开 (值为 1) ，我们应用对比损失来对齐它们的表示。
如果相似度很低 (低于 \(\tau\)) ——这通常发生在一个视图是噪声并预测随机类别时——门关闭 (值为 0) 。模型实际上忽略了这一对，防止噪声破坏学习到的特征。

此鲁棒损失在所有视图对上求和:

Equation 13

目标函数

最终的训练目标结合了三种损失:

重构损失 (\(\mathcal{L}_{rec}\)) : 确保自编码器保留基本的特征信息。
修正损失 (\(\mathcal{L}_{rs}\)) : 修复噪声预测。
对比损失 (\(\mathcal{L}_{con}\)) : 对齐视图同时过滤噪声。

Equation 15

\(\alpha\) 和 \(\beta\) 是平衡修正和对比学习贡献的超参数。

理论保证

这篇论文的优点之一是它不仅仅依赖于启发式方法；它为其有效性提供了理论基础。研究人员利用信息论证明，他们的表示最大化了与干净信号的互信息，同时最小化了与噪声的互信息。

Equation 17

在这个不等式中:

\(I(E^*; y)\) 代表学习到的表示与干净预测共享的信息。定理证明这被最大化了 (接近真实的输入信息 \(I(x;y)\)) 。
\(I(E^*; y')\) 代表与噪声预测共享的信息。定理证明这被最小化了 (受限于噪声因子 \(\eta\)) 。

本质上，AIRMVC 被数学证明像一个筛子一样运作，让干净的语义信息通过，同时捕获并丢弃噪声。

实验结果

为了验证 AIRMVC，作者在 6 个基准数据集 (包括 BBCSport、Reuters 和 Caltech101) 上将其与 11 个最先进的基准模型进行了测试。

设置

他们通过随机向视图中引入不同比例的噪声来模拟真实世界的情况: 10%、30%、50%、70%，甚至是高达 90%。

数据集在规模和复杂性上各不相同:

Table 1. Statistics summary of six benchmark datasets.

性能对比

结果令人信服。AIRMVC 始终优于竞争对手，尤其是在噪声水平增加时。

看看在 10% 噪声率下 BBCSport、WebKB 和 Reuters 上的表现:

Table 2. Multi-view clustering performance on six benchmark datasets (Part 1/4).

在 WebKB 数据集上，AIRMVC 的准确率 (ACC) 达到了 83.73% , 显著高于第二名 (MVCAN) 的 77.83%。在标准化互信息 (NMI) 方面的差距更大，从大约 12% (基准模型) 跃升至 AIRMVC 的 27.15% 。

即使在极端压力下——90% 噪声——大多数模型基本上只能靠猜测，AIRMVC 仍比其他模型更好地保持了结构完整性。

Table 9. Multi-view clustering performance on six benchmark datasets with 90% noise ratio.

在表 9 中，在 UCI-digit 数据集 90% 的噪声下，AIRMVC 获得了 57.70% 的准确率，而许多竞争对手如 RMCNC 跌至 19% 左右。这表明修正策略不仅仅是一个小的优化；它是模型在恶劣数据环境中的生存机制。

为什么有效？ (消融实验)

研究人员拆解了模型，以查看哪些部分最重要。他们测试了没有识别/修正 (D&R) 模块和没有对比 (Con) 模块的模型。

Figure 9. Ablation studies on BBCSport, Caltech101, STL10, UCI-digit, WebKB and Reuters datasets with 30% noisy ratio.

黄色条柱 (Ours) 代表完整的 AIRMVC 模型。在几乎所有情况下，移除 D&R 模块 (浅绿色) 导致性能大幅下降。这证实了修复数据的能力与对比学习机制本身一样重要，甚至更重要。

学习过程的可视化

聚类真的分开了吗？研究人员使用 t-SNE 可视化了 UCI-digit 数据集在 200 个 Epoch 期间的特征空间。

Figure 11. Visualization of the representations during the training process on UCI-digit dataset.

在 Epoch 20 (左上) ，数据是一团混乱的颜色——模型无法区分数字。到了 Epoch 100，明显的岛屿开始形成。到了 Epoch 200 (右下) ，聚类清晰且分离良好。这种视觉演变证明，即使输入了噪声，AIRMVC 也能成功理清数据的底层结构。

敏感性分析

最后，研究人员检查了模型是否对超参数过于挑剔。

Figure 10. Sensitivity Analysis for alpha and beta.

上面的 3D 图显示了随着超参数 \(\alpha\) 和 \(\beta\) 的变化，性能 (z 轴) 的变化情况。中心附近的相对平坦的高原 (值在 1.0 左右) 表明模型是稳定的。它不需要“魔法数字”来工作；它在合理的设置范围内表现良好，尽管如果参数被推向极端 (如 0.01) ，性能会下降。

结论与启示

AIRMVC 论文代表了无监督学习的一个重大飞跃。它解决了以前多视图聚类方法中的一个关键缺陷: 即假设更多的数据总是更好的数据。

通过承认现实世界的传感器会故障且数据会损坏，研究人员构建了一个模拟人类特质——怀疑精神——的系统。AIRMVC 不会盲目信任其输入。它:

利用概率建模 (GMM) 识别异常。
利用好数据修正坏数据。
严格从经过验证的高置信度关联中学习。

其影响不仅仅局限于聚类。这种“识别并修正”的范式可以适用于自动驾驶 (忽略被泥浆覆盖的摄像头而倾向于 LiDAR) 、医疗诊断 (过滤掉嘈杂的 MRI 伪影) 或鲁棒的金融建模。

在大数据的喧嚣现实中，AIRMVC 证明了清晰的关键不仅仅在于倾听每一个信号——而在于知道该忽略哪些，以及该修复哪些。

引言#

背景: 噪声多视图聚类的挑战#

标准 MVC 范式#

噪声问题#

AIRMVC 框架: 方法论深度解析#

第一部分: 通过异常检测进行噪声识别#

建模分布#

干净与噪声的概率#

第二部分: 混合修正策略#

第三部分: 噪声鲁棒对比机制#

目标函数#

理论保证#

实验结果#

设置#

性能对比#

为什么有效？ (消融实验)#

学习过程的可视化#

敏感性分析#

结论与启示#

引言