引言
在追求通用人工智能 (AGI) 的过程中,多模态学习是一块基石。其逻辑显而易见: 人类通过视觉、听觉和文本同时感知世界;因此,人工智能模型也应受益于结合这些模态,从而形成对数据更丰富的理解。理论上,增加一种模态——例如在患者健康记录中增加 MRI 扫描图像——绝不应该降低性能,而只应增加信息量。
然而,研究人员不断观察到一个令人困惑的现象,称为 模态坍缩 (Modality Collapse) 。 深度学习模型非但没有利用所有可用数据,反而经常过度依赖部分模态,而完全忽略其他模态。如果一个模型在视频和音频数据上进行训练,它可能学会完全忽略音频。这不仅效率低下,而且非常危险。如果被依赖的模态在测试时缺失 (例如摄像头故障) ,模型就会变得毫无用处,因为它从未学会利用备份传感器。
虽然之前解决这一问题的尝试将其归咎于梯度冲突或数据分布问题,但近期题为 “A Closer Look at Multimodal Representation Collapse” 的研究提供了一个深刻的、“自下而上”的学习理论解释。
本文将拆解该论文的发现。我们将探讨 多义神经元 (polysemantic neurons) (即身兼数职的神经元) 与神经网络的 低秩简单性偏差 (low-rank simplicity bias) 如何合谋导致坍缩。随后,我们将审视一种新颖的解决方案: 显式基重分配 (Explicit Basis Reallocation, EBR) , 这种方法强制网络为所有模态“腾出空间”,从而防止坍缩,并确保即使在数据缺失的情况下也能保持稳健的性能。
坍缩的解剖学
要理解模型为何无法融合数据,我们必须深入神经网络的融合头 (fusion head) 内部——即负责结合来自不同编码器 (如处理图像的 CNN 和处理文本的 Transformer) 特征的层。
多义性问题
在理想世界中,来自每个模态的每一个独特特征都会获得其专属的神经元。这被称为 *单义性 (monosemanticity) *。然而,相对于世界的复杂性,神经网络通常资源受限。这导致了 多义性 (polysemanticity) , 即单个神经元会对来自不同模态的不相关特征产生激活。
作者证明,随着模态数量的增加,这种“跨模态多义冲突”的概率呈二次方增长。
真正的麻烦始于一个模态 (我们称之为模态 B) 的 噪声特征 与另一个模态 (模态 A) 的 预测性特征 共享同一个神经元。

如 图 1 所示,这种纠缠产生了一个次优的损失概貌。优化过程 (紫色箭头) 陷入停滞。为什么?因为来自模态 B 的噪声特征充当了掩蔽者。它产生的干扰削弱了模态 A 的预测价值。网络为了最小化损失,发现简单地完全抑制这个纠缠的神经元比试图从噪声中分离信号更容易。结果就是: 模态 A 坍缩了。
可视化干扰
这个概念有些抽象,让我们来可视化一下激活模式。

图 2 清晰地分解了这种干扰:
- 面板 (a) 顶部: 在“纠缠”区域中,来自模态 1 的预测性特征和来自模态 2 的噪声特征激活了神经元的 同一 区域。
- 面板 (b) 顶部: 由于它们重叠,噪声干扰了信号。
- 面板 (c) 顶部: 损失轨迹撞墙了。网络无法进一步最小化误差,因为最大化预测性特征会带入过多的噪声。
解决方案如 图 2 下半部分所示,即 解纠缠 (disentanglement) 。 如果网络能将这些特征映射到不相交的子区域 (或者更好的是完全不同的维度) ,干扰就会停止。预测性特征就能在不拖累噪声的情况下为降低损失做出贡献。
罪魁祸首: 秩瓶颈
如果解纠缠是解决方案,为什么随机梯度下降 (SGD) 不能自动找到它?答案在于 低秩简单性偏差 (Low-Rank Simplicity Bias) 。
深度神经网络存在一种已知的偏差,即倾向于学习“简单”的函数。在线性代数术语中,这意味着它们偏好具有 低秩 的权重矩阵。作者在 定理 2 中将其形式化,表明训练期间的梯度更新被限制在一个低秩流形上。

该方程本质上表明,网络试图将所有信息挤压到极少量的维度 (基向量) 中。由于这种偏差导致维度的“预算”人为地偏低,网络被 迫使 将不同的特征塞进相同的神经元中。这就造成了上文讨论的多义冲突。
秩瓶颈造成了一种“优胜劣汰”的局面。如果模态 A 稍微容易学习一点,它就会独占有限的秩。模态 B 可能需要一些专用维度来将其信号与噪声分离,却因容量不足而被“饿死”,最终导致坍缩。

图 3 (a) 展示了这种“秩丰富瓶颈 (Rank-Rich Bottleneck) ”。即使输入包含不同的信息 (由不同颜色的箭头表示) ,融合头也会因为拒绝增加有效秩而将它们坍缩成一个共享的、纠缠的基 (多色束) 。
图 3 (b) 展示了理想场景: 基重分配 (Basis Reallocation) 。 在这里,网络为不同的模态分配了特定的、正交的维度。这“释放”了瓶颈,允许噪声 (红色箭头) 被隔离和忽略,同时保留蓝色和绿色的预测性箭头。
解决方案: 基重分配
研究人员提出了两种实现解纠缠的方法: 一种利用知识蒸馏的隐式方法,以及一种称为 EBR 的新型显式算法。
隐式疗法: 知识蒸馏 (KD)
知识蒸馏通常涉及一个“教师”模型指导一个“学生”模型。作者发现,将 主导 模态 (幸存下来的模态) 的知识蒸馏到 较弱 模态 (坍缩的模态) 中,可以隐式地防止坍缩。
为什么?作者在 定理 3 中证明,强迫弱编码器模仿强编码器会对齐它们的表示。这降低了融合头必须处理的复杂性。

更重要的是,蒸馏过程充当了一个去噪滤波器。为了成功模仿教师,学生必须丢弃自身的噪声。随着表示变得更干净且更对齐,融合头受到秩瓶颈的限制减少,从而隐式地允许更好的特征分离。
显式疗法: 显式基重分配 (EBR)
虽然 KD 有效,但它是间接的。作者提出了 显式基重分配 (EBR) 从根本上解决这个问题。
EBR 修改了单模态编码器 (在融合发生之前) 的训练方式,以确保它们生成的特征是解纠缠且“秩丰富”的。
EBR 架构
该方法为每个模态编码器 \(f_i\) 引入了两个小组件:
- 投影器-解码器对 (\(h_i \cdot h_i^{-1}\)): 将特征映射到潜在空间并映射回来。
- 模态判别器 (\(\psi\)): 一个试图猜测特征向量来自哪个模态的小型网络。
算法
训练目标结合了两种损失: 标准的语义损失 (分类误差) 和模态判别损失。

这些更新规则背后的直觉如下:
- \(\psi\) (判别器) 试图最小化模态判别损失 (\(\mathcal{L}_{md}\)),从而更擅长识别源模态。
- \(g_i\) (编码器) 被优化以 最小化 语义损失,同时也 最小化 模态判别损失 (对抗训练) 。等一下,仔细看方程,梯度是相加的。实际上,编码器通过最大化 \(\mathcal{L}_{md}\) (这使得模态在特征空间中可区分/分离) 使模态处于一个允许解纠缠的邻域内。
关键在于,这个过程迫使编码器重新分配它们的基向量。编码器不再坍缩成一个共享的、充满噪声的混乱状态,而是被迫为其特征寻找独立的方向。这种“预清洗”意味着融合头接收到的是正交的、干净的输入,不会受到多义性干扰的影响。
实验验证
理论很有说服力,但在实践中站得住脚吗?作者在 MIMIC-IV (医疗数据) 和 avMNIST (音视听数字) 等数据集上对此进行了测试。
1. 验证理论: 模态越多 = 问题越多?
首先,他们验证了在标准模型中增加模态实际上会导致问题。

图 4 证实了“二次冲突”假设。看红线 (多模态前缀) 。随着模态数量从 2 增加到 5,语义损失停滞在越来越高的水平。由于额外数据流产生的干扰,模型在物理上无法最小化损失。绿线 (单模态基线) 表明信息 是 存在的——模型只是无法在多模态设置中使用它。
2. EBR 能恢复秩吗?
核心假设是坍缩是一个秩的问题。

图 5 (c) 是确凿的证据。在标准设置 (绿色圆圈,“w/o EBR”) 中,随着 \(\beta\) (坍缩模态的强度) 增加,表示的秩会崩溃。这就是正在发生的坍缩。然而,使用 EBR (绿色叉号) ,秩保持在高位。模型成功地为较弱的模态分配了容量 (基向量) ,而不是将其压缩。
3. 优化与收敛
这是否会导致更好的训练效果?

图 6 比较了训练曲线。 Vanilla (原版) 模型 (红色) 在高损失处停滞。 KD (蓝色) 有显著帮助,但 EBR (绿色) 是明显的赢家,迅速实现了接近零的语义损失。这表明 EBR 有效地将优化地形从困难的鞍点 (充满干扰) 转变为更平滑的凸碗。
4. 对噪声的鲁棒性
理论指出,坍缩是由噪声特征干扰预测特征驱动的。因此,EBR 应该对添加的噪声具有高度的鲁棒性。

在 图 7 中,作者故意向数据添加噪声。像 Grape 和 MUSE 这样的标准最先进模型 (实线) 随着噪声增加迅速退化。然而, EBR (顶部的绿色实线) 即使在 50% 的噪声率下也能保持较高的 AUC-ROC 分数。通过显式分离基,EBR 防止了噪声劫持预测神经元。
应用: 测试时模态缺失
多模态模型的终极考验是鲁棒性。在医疗保健中,患者可能有 CT 扫描但缺少化验结果。如果模型在训练期间因为坍缩而忽略了 CT 扫描,预测将会失败。
由于 EBR 确保为 所有 模态学习到独特的、预测性的基,它使得一种巧妙的替代策略成为可能。如果在测试时某个模态缺失,我们可以用学习到的潜在空间中与其“最接近”的可用模态来替代它。

表 1 显示了在 MIMIC-IV 上缺失数据时的结果。EBR 优于所有基线,包括复杂的基于 Transformer 的方法 (MUSE) 和生成式方法。它的 AUC-ROC 达到了 0.8533 , 而次优结果仅为 0.8236 。 这种差距代表了在安全关键型应用中可靠性的显著提升。
结论
论文 “A Closer Look at Multimodal Representation Collapse” 超越了启发式方法,为多模态模型为何失败提供了机制性的解释。它确定了 多义神经元 和 秩瓶颈 的致命组合是根本原因。
通过理解神经网络天生试图在秩的使用上“偷工减料”——从而迫使噪声和预测特征共享相同的神经元——我们可以设计更好的解决方案。 显式基重分配 (EBR) 的作用不是对抗数据,而是改变优化的游戏规则。它迫使网络扩展其容量使用,确保每个模态都能获得其应有的表示。
对于学生和从业者来说,关键的启示很明确: 在设计多模态系统时,简单地拼接输入是不够的。你必须确保你的架构允许——并强制——不同数据流的独立表示。否则,你的模型可能只是在听房间里嗓门最大的声音。
](https://deep-paper.org/en/paper/2505.22483/images/cover.png)