在机器学习的世界里,数据很少只来源于单一渠道。想象一下医生诊断病人的场景: 他们不仅仅看验血报告,还会结合 X 光片、MRI 扫描、病史以及基因标记。这就是多视图数据 (Multi-View Data) ——即同一底层对象的不同视角。
为了在没有人工标签的情况下理解这些数据,我们使用了多视图聚类 (Multi-View Clustering, MVC) 。 其目标是通过综合所有这些不同视图的信息,将相似的数据点归为一组。这是一种强大的工具,广泛应用于从生物信息学到计算机视觉的各个领域。
然而,聚类中存在一个隐藏的危险: 偏见 (Bias) 。
传统的聚类算法通常会抓住“主导”特征来对数据进行分组。不幸的是,这些所谓的主导特征往往是敏感属性,如性别、种族或年龄。如果一家银行使用聚类来确定信用度,而算法主要根据性别而不是财务历史对人进行分组,其结果就是歧视。
今天,我们将深入探讨一篇新的研究论文: “Deep Fair Multi-View Clustering with Attention KAN” (DFMVC-AKAN) 。 这篇论文提出了一种前沿的解决方案,不仅提高了聚类准确性,还通过一种基于柯尔莫哥洛夫-阿诺德网络 (Kolmogorov-Arnold Networks, KAN) 的新颖架构确保了公平性。
核心问题: 准确性 vs. 公平性
现有的深度 MVC 方法虽然擅长处理复杂数据,但通常难以平衡一个特定的权衡关系:
- 公平性差距: 大多数方法忽略了敏感属性。如果数据包含偏见,模型就会放大它。
- 复杂性陷阱: 现有的试图实现公平的解决方案通常依赖于标准的多层感知机 (MLP) 或 CNN。这些架构往往难以在不变得庞大且低效的情况下,捕捉不同视图之间高度复杂的非线性关系。
- “绝对平等”的谬误: 一些公平性方法强制要求每个聚类中拥有完全相等数量的受保护群体 (例如,每个聚类中 50% 是男性,50% 是女性) 。虽然初衷是好的,但这种死板的约束往往会破坏聚类的准确性,因为它忽略了数据的自然分布。
DFMVC-AKAN 通过结合三个强大的概念解决了这些问题:
- 柯尔莫哥洛夫-阿诺德网络 (KAN) : 在函数逼近方面优于 MLP 的数学替代方案。
- 混合注意力机制 (Hybrid Attention) : 动态聚焦于最重要的特征。
- 分布对齐 (Distribution Alignment) : 一种在不破坏聚类结构的前提下实施公平性的灵活方法。
让我们以此拆解这个架构是如何工作的。
DFMVC-AKAN 的架构
从高层次来看,该框架由三个主要模块协调工作。

如图 1 所示,该过程针对每个视图分为并行的流。
- Attention KAN 学习模块 (Attention KAN Learning Module) : 从每个视图 (
View 1…View v) 中提取鲁棒的特征。 - 视图对比模块 (View-Contrastive Module) : 确保同一对象的不同视图在所属聚类上达成一致。
- 公平聚类模块 (Fair Clustering Module) : 融合各视图并应用公平性约束,以确保没有敏感属性主导某个聚类。
让我们逐一剖析这些模块。
1. Attention KAN 学习模块
第一个挑战是提取好的特征。作者用基于 KAN 的编码器替换了大多数深度学习模型中传统的全连接层。
为什么要用 KAN?柯尔莫哥洛夫-阿诺德表示定理指出,任何多变量连续函数都可以表示为单变量连续函数的叠加。MLP 使用神经元上的固定激活函数来逼近函数,而 KAN 学习的是边 (权重) 上的激活函数。这使它们能够更有效地建模复杂的非线性关系。
步骤 1: 混合注意力机制 在 KAN 层处理数据之前,模型需要知道应该“看”哪里。作者引入了一种结合了挤压与激励 (Squeeze-and-Excitation, SE) 和多头注意力 (Multi-Head Attention) 的混合注意力机制。
首先,SE 模块重新校准特征以强调信息量大的通道:

这里,\(\sigma\) 是 sigmoid 函数,\(\delta\) 是 ReLU。这本质上帮助模型决定哪些特征通道是“最响亮”且最重要的。
接下来,多头注意力捕捉特征之间的关系。它将 SE 输出投影到查询 (Query) 、键 (Key) 和值 (Value) 空间 (此处表示为 A、B 和 C 矩阵) :

特定头的注意力输出通过对这些投影进行归一化来计算:

最后,所有头的输出被拼接并投影回来:

模型随后使用一个可学习参数 \(\alpha\) 将 SE 输出和多头输出结合起来。这赋予了模型在通道重要性和特征间关系之间进行平衡的灵活性:

步骤 2: KAN 层 现在特征已经被“关注”到了,它们将通过柯尔莫哥洛夫-阿诺德网络层。与标准神经元对输入求和并应用固定的 ReLU 或 Sigmoid 不同,KAN 层在对每个输入维度求和之前,先对其应用一个可学习的非线性函数 \(\psi\)。

这种结构允许编码器逼近极其复杂的、标准网络可能会遗漏的非线性视图间关系。
为了确保编码器学习到有意义的特征,模型包含一个解码器,用于从潜在表示 \(\mathbf{z}\) 重构原始输入:

重构损失确保我们在压缩过程中没有丢失关键信息:

2. 视图对比模块
在多视图聚类中,一致性是关键。如果视图 1 (例如,一张猫的图片) 认为该对象属于“聚类 A”,但视图 2 (例如,标题“可爱的小猫”) 认为它属于“聚类 B”,模型就会感到困惑。
视图对比模块强制执行语义一致性 (Semantic Consistency) 。
首先,模型为每个视图预测一个聚类分配概率 \(\mathbf{H}\):

然后,我们计算同一样本在不同视图下的分配向量之间的相似度。高点积意味着两个视图在聚类分配上是一致的。

模型使用对比损失函数。它将来自不同视图的同一样本视为“正样本对” (它们应该相似) ,将不同样本视为“负样本对” (它们应该被推开) 。
损失函数相对于所有其他对,最大化正样本对的相似度:

通过最小化这个损失 (\(L_{c1}\)) ,模型强制不同视图在语义上保持一致。为了防止出现模型将所有东西都扔进同一个聚类的简单解法,添加了一个正则化项 (\(L_{c2}\)) 以鼓励聚类分布的离散化。

3. 公平聚类模块
这是论文中最核心的亮点。我们有了鲁棒的特征 (KAN) 和一致的视图 (对比学习) ,但我们仍然需要确保聚类是公平的 。
首先,利用可学习的权重 \(a_v\) 将特定于视图的特征融合为统一的表示 \(\mathbf{Z}\)。这让模型能够更信任可靠的视图,而不是充满噪声的视图。

软分配与目标分布 模型使用学生 t-分布 (Student’s t-distribution,深度聚类中的标准技术) 计算样本 \(i\) 属于聚类 \(j\) 的概率。我们将此分布称为 \(\mathbf{Q}\)。

在标准的聚类算法中,我们通常只会锐化这个分布并将其作为目标。但 DFMVC-AKAN 修改了目标分布 \(\mathbf{P}\) 以强制执行公平性。
目标是防止任何聚类被敏感亚群 (例如,完全由男性组成的聚类) 所主导。作者定义了一个目标分布 \(\mathbf{P}\),它根据敏感亚群 (\(X_g\)) 对频率进行归一化。

仔细看分数中的分母: \(\sum_{i' \in X_g}\)。这一项根据敏感群体的大小对分配概率进行归一化。如果一个群体在某个聚类中代表性过高,这一项就会变大,从而缩小目标概率,抑制模型将更多该群体的数据放入该聚类。
公平性损失仅仅是模型预测 \(\mathbf{Q}\) 与这个平衡目标 \(\mathbf{P}\) 之间的 KL 散度 (KL-divergence) 。

通过最小化这个损失,模型会温和地引导聚类分配走向一个在敏感属性上平衡的分布,而无需硬性的、死板的约束。
最终目标
总损失函数是我们刚才讨论的三个部分的加权和:
- 重构损失 (\(L_r\)): 保持数据真实。
- 对比损失 (\(L_c\)): 保持视图一致。
- 公平性损失 (\(L_f\)): 保持结果无偏见。

实验与结果
这个复杂的架构真的有效吗?研究人员在包含敏感属性的四个数据集上测试了 DFMVC-AKAN: Bank Marketing (银行营销) 、Zafar、Credit Card (信用卡) 和 Law School (法学院) 。

他们使用两个指标来衡量性能:
- NMI (标准化互信息) : 衡量聚类准确性 。 越高越好。
- BAL (平衡度) : 衡量公平性 。 越高越好。
结果表

表 2 中的结果非常引人注目。
- 准确性: DFMVC-AKAN (最后一行) 在几乎所有数据集上都达到了最高的 NMI。例如,在 Zafar 数据集上,它达到了 99.98% NMI , 而第二好的方法 (DFMVC) 仅为 93.93%。
- 公平性: 关键是,它在做到这一点的同时,保持或提高了平衡度 (BAL) 得分。在 Bank Marketing 数据集上,它达到了 42.52 的平衡度,击败了之前的最佳成绩 42.16。
这证明了准确性和公平性之间的“权衡”并不是一条铁律——只要架构得当,你可以同时提升两者。
可视化“公平性”
为了真正看清发生了什么,我们可以看 t-SNE 可视化图。这些图将高维数据投影为 2D 点。

- 左图 (原始特征) : 看 Bank Marketing 的图 (左上) 。蓝色和橙色的点 (代表婚姻状况) 明显分离。数据天生带有偏见;标准算法很容易仅根据婚姻状况将这些点分成两类。
- 右图 (公平性特征) : 看 DFMVC-AKAN 处理后的图 (右上) 。蓝色和橙色的点彻底混合在一起。模型学习到了一种表示,其中敏感属性 (婚姻) 不再是决定性特征,但数据的结构仍被保留用于聚类任务。
它收敛吗?
具有多个损失函数的复杂模型有时会不稳定。然而,收敛曲线表明 DFMVC-AKAN 表现良好。

如图 4 所示,预训练损失 (a) 和对比损失 (b) 均迅速下降并在零附近稳定下来,表明学习效率很高。
消融研究: 我们需要所有部分吗?
你可能会问,“我们真的需要公平性模块吗?或者语义模块?”作者通过移除模型的部分组件对此进行了测试。

- Excl. Fairness (\(L_f\)): 移除公平性模块导致 BAL 分数显著下降 (例如,在 Banking Market 上从 42.52 降至 41.59) 。模型变得有偏见了。
- Excl. Semantic (\(L_c\)): 移除对比模块导致准确性 (NMI) 崩溃 (例如,在 Banking Market 上从 80.46 降至 59.73) 。模型在不同视图间失去了对对象身份的追踪。
这证实了 DFMVC-AKAN 的每个组件都是必不可少的。
结论与启示
DFMVC-AKAN 论文代表了伦理 AI 迈出的重要一步。它通过摆脱标准 MLP 并拥抱柯尔莫哥洛夫-阿诺德网络的数学力量,解决了多视图聚类的难题。
关键启示:
- KAN 很强大: 用 KAN 替换 MLP 可以更好地捕捉多视图数据中的非线性关系。
- 注意力很重要: 混合注意力机制确保模型关注相关特征而不是噪声。
- 公平性是一个优化问题: 通过将公平性视为分布对齐任务而不是硬性约束,我们可以在不破坏聚类性能的情况下去除偏见。
随着 AI 系统日益融入社会——筛选贷款、诊断病人和过滤求职者——像 DFMVC-AKAN 这样的方法对于确保这些系统不仅智能,而且公平至关重要。
](https://deep-paper.org/en/paper/file-1978/images/cover.png)