填补鸿沟：Mamba 如何融合视觉与语言模型以实现鲁棒的语义分割

想象一下，完全在视频游戏《侠盗猎车手5》 (Grand Theft Auto V) 中训练自动驾驶汽车算法。游戏中的道路看起来很逼真，光照完美，天气也是受控的。现在，把同一辆车投放到伦敦雨夜的街道上。它会撞车吗？

这个场景代表了域泛化语义分割 (Domain Generalized Semantic Segmentation, DGSS) 的核心挑战。我们希望模型能从“源”域 (如模拟环境或阳光明媚的数据集) 中学习，并在从未见过的“目标”域 (现实世界、恶劣天气、夜晚) 中表现完美。

AI 领域的最新进展赋予了我们两种超能力: 擅长捕捉细粒度细节的视觉基础模型 (VFMs) (如 DINOv2) ，以及通过文本对齐理解物体语义概念的视觉-语言模型 (VLMs) (如 CLIP) 。

理想情况下，我们会结合这两者以各取所长。但简单地拼接这些庞大的模型会带来计算上的噩梦，并且产生传统 Transformer 难以处理的“序列长度”瓶颈。

在这篇文章中，我们将深入探讨一篇新论文**“Mamba as a Bridge”** , 它提出了一种名为 MFuser 的新颖框架。该架构利用高效的 Mamba (状态空间模型) 架构来融合这两个巨头，在域泛化方面取得了最先进的成果。

问题: 粒度与语义的权衡

要理解为什么我们需要融合模型，首先需要看看现有的基础模型实际上“看到”了什么。

VFMs (例如 DINOv2) : 这些模型利用自监督方法在海量视觉数据上进行训练。它们在特征局部性 (feature locality) 方面表现出色。它们确切地知道汽车的边缘在哪里，但缺乏与人类语言相关的对“汽车”是什么的强语义理解。
VLMs (例如 CLIP) : 这些模型经过训练，能够将图像与文本描述对齐。它们拥有强大的语义理解能力 , 并且对风格变化具有鲁棒性 (卡通车和真车都是“车”) 。然而，由于它们通常是在图像级标签上训练的，它们的空间感知是粗糙的。它们知道图像里有一辆车，但很难精确定位其具体像素。

研究人员通过对两个模型的特征图进行主成分分析 (PCA) ，有效地可视化了这种差异。

Comparative analysis of VFM and VLM features.

如上图 Figure 1 所示:

VFM (DINOv2): 特征 (左图) 显示了锐利、细粒度的细节。你可以清晰地看到树木和车辆的结构。
VLM (EVA02-CLIP): 针对查询“car” (汽车) 的热力图 (中图) 点亮了汽车的大致区域，但是模糊且不精确。
MFuser (右图) : 提出的方法结合了两者，产生了既清晰定位又语义对齐的统一特征。

挑战: 序列长度瓶颈

为什么不直接将两个模型一起微调？原因有二:

计算成本: 同时微调像 EVA02-CLIP 和 DINOv2 这样庞大的模型需要巨大的 GPU 资源。
序列长度: Transformer 将图像处理为“Patch” (Token) 序列。如果你连接来自 VFM 和 VLM 的特征，你就将序列长度翻倍了。Transformer 中的标准注意力机制具有二次复杂度 (\(O(N^2)\)) 。Token 翻倍会使计算量翻四倍，导致速度慢得令人望而却步。

这就是 Mamba 登场的地方。Mamba 是一种状态空间模型 (SSM) ，它在序列长度方面提供线性复杂度 (\(O(N)\)) 。它允许模型高效地处理极长的数据序列，使其成为连接两个巨大视觉编码器的完美“桥梁”。

解决方案: MFuser 架构

研究人员提出了 MFuser , 这是一个框架，它保持 VFM 和 VLM 的庞大主干冻结 (以节省显存并保留其预训练知识) ，并插入轻量级的、可训练的模块来融合它们的信息。

Overall architecture of MFuser.

如 Figure 2 所示，该架构由三个主要部分组成:

冻结的编码器: 两个并行流 (VFM 和 VLM) 处理图像。
MVFuser (视觉适配器) : 一个基于 Mamba 的模块，位于编码器层之间以融合视觉特征。
MTEnhancer (文本适配器) : 一个通过注入视觉信息来优化文本嵌入 (用作查询) 的模块。

让我们拆解两个新颖的组件: MVFuser 和 MTEnhancer。

1. MVFuser: 视觉桥梁

MVFuser 的目标是提取第 \(i\) 层的 VFM 特征 (\(x^{VFM}\)) 和 VLM 特征 (\(x^{VLM}\)) ，混合它们以互相学习，并将优化后的特征注回流中。

首先，让我们看看冻结模型中 Transformer 块的标准处理过程:

Equation for standard transformer block processing.

MVFuser 充当“联合适配器”。它接收来自两个模型的连接特征，并输出“偏移量” (\(\Delta x\)) 来优化原始特征。

Equation showing the MVFuser input and output offsets.

MVFuser 内部: 研究人员认识到视觉数据既包含序列模式，也包含空间结构模式。为了同时捕捉这两者，MVFuser 将处理分为两个并行分支:

序列分支 (SSM) : 使用 Mamba 选择性扫描机制来建模跨越组合 Token 序列的长程依赖关系。
空间分支: 使用卷积层来捕捉局部 2D 空间关系。

Equation describing the sequential (SSM) and spatial (conv) branches.

最后，这两个分支使用门控机制 (逐元素相乘，用 \(\otimes\) 表示) 进行融合，并投影回原始维度。

Equation showing the gating mechanism and final projection.

这种设计允许 VFM 的高粒度特征锐化 VLM，同时 VLM 的语义鲁棒性指导 VFM，而这一切仅需线性的计算成本。

2. MTEnhancer: 优化文本查询

在现代分割框架 (如本文所基于的 Mask2Former) 中，“查询 (queries) ”用于要求解码器寻找特定物体。通常，这些查询是静态的文本嵌入 (例如，单词“汽车”的向量) 。

然而，静态文本嵌入并不了解当前图像的具体光照或风格。 MTEnhancer 通过将视觉先验注入文本嵌入来解决这个问题。

它使用了一种混合方法:

自注意力 (Self-Attention) : 理解不同类名之间的关系 (例如，“道路”和“人行道”是相关的) 。
条件 Mamba 块 (Conditional Mamba Block) : 以融合的视觉特征 (\(x_v\)) 为条件来处理文本查询 (\(q_t\)) 。

为了有效地利用 Mamba 的单向扫描进行跨模态 (文本到图像) 处理，研究人员使用了一种巧妙的“三明治”技术: 在将文本查询传入 Mamba 块之前，他们将文本查询连接在视觉特征的两侧。

Equation detailing the MTEnhancer process including the Mamba sandwich.

损失函数

为了训练该系统，作者使用了标准的分割损失组合 (二元交叉熵损失、Dice 损失和分类损失) 以及对齐损失，以确保像素与文本的一致性。

Segmentation loss components.

Total loss function combining segmentation and alignment.

实验结果

研究人员在要求苛刻的基准测试上测试了 MFuser，特别是合成到真实 (Synthetic-to-Real) (在 GTAV 上训练，在 Cityscapes、BDD100K 和 Mapillary 上测试) 和真实到真实 (Real-to-Real) (Cityscapes 到其他数据集) 。

合成到真实的性能

这是“圣杯”测试——在视频游戏上训练，在真实街道上测试。

Table 1: Synthetic-to-Real performance comparison.

在 Table 1 中，MFuser (灰色行) 始终优于现有的最先进方法，如“Rein”和“tqdm”。

在 GTAV \(\to\) Mapillary (G \(\to\) M) 任务上，使用 EVA02-CLIP 的 MFuser 达到了 71.28 mIoU , 显著高于竞争对手。
“Avg.” (平均) 列显示了其在不同 VLM 主干 (CLIP, SIGLIP, EVA02) 上的明显优势。

定性分析

数字固然重要，但视觉结果更能说明鲁棒性的故事。

Qualitative results on unseen target domains.

在 Figure 3 中，请看“Rein” (强有力的竞争者) 和“Ours” (MFuser) 之间的对比。

第 1 行 (G \(\to\) C): 注意骑手/自行车的检测。Rein 遗漏了自行车的部分，而 MFuser 准确地捕捉到了轮廓。
第 2 行 (G \(\to\) B): 这是一个低光/夜间场景。Rein 在黑暗区域产生了噪声幻觉。MFuser 保持了道路和天空的清晰分割，展示了融合 DINOv2 的局部细节与 CLIP 的语义鲁棒性的威力。

真实到真实的泛化

当在不同的现实世界数据集之间迁移时 (通常具有不同的摄像头设置和城市布局) ，该模型同样表现出色。

Table 2: Real-to-Real performance comparison.

如 Table 2 所示，MFuser 再次占据榜首，使用 EVA02-CLIP 主干实现了 71.87% 的平均 mIoU。

效率: 为什么 Mamba 很重要

该论文的主要主张之一是 Mamba 在融合方面比使用标准注意力机制更高效。 Table 3 证明了这一点。

Efficiency analysis: Params and FLOPs.

Self-Attention (concat): 需要 98.64 G FLOPs 和 4.2M 参数。
MVFuser (Ours): 仅需 17.21 G FLOPs 和 1.67M 参数。

基于 Mamba 的方法在计算效率上提高了近 5 倍 , 同时实现了更高的准确率 (68.20 vs 67.89 Avg mIoU) 。这证实了 Mamba 是处理由连接的视觉 Token 产生的长序列的绝佳选择。

融合真的改变了特征吗？

为了验证 MVFuser 是否真的在做有意义的工作，作者使用 PCA 可视化了适配前后的特征分布。

PCA visualization of feature refinement.

在 Figure 4 中，观察从“Before” (前) 到“After” (后) 的转变。

DINOv2 (Before): 在某些区域有噪声。
DINOv2 (After): 道路和物体的分割变得更加清晰和统一。
EVA02 (Before): 非常抽象且呈块状。
EVA02 (After): 明显锐化，表明 VLM 从 VFM 中学到了空间精度。

消融实验: 我们需要两个模型吗？

有没有可能只是其中一个模型在起作用？研究人员通过运行仅 VFM、仅 VLM 以及各种组合的系统来测试这一点。

Ablation studies on feature fusion strategies.

Table 4 (包含在文本分析中，参考 Table 5 图像上下文) 和 Table 5 揭示了:

VFM-only (仅 VFM) : 65.13 Avg.
VLM-only (仅 VLM) : 66.15 Avg.
MFuser (Both): 68.20 Avg.

此外，简单地组合两个 VLM (例如 CLIP + EVA02) 的表现 (66.72) 不如组合 VFM + VLM (68.20) 。这证明了两个模型的异质性 (一个注重细节，一个注重语义) 是成功的关键。它们是互补的，而不是冗余的。

最后，文本增强 (MTEnhancer) 重要吗？

Ablation studies on text embedding enhancement.

Table 6 显示，移除 MTEnhancer 会使平均性能从 68.20 下降到 66.91，这证明了以视觉数据为条件来处理文本查询对于域适应至关重要。

结论

MFuser 代表了鲁棒计算机视觉向前迈出的重要一步。通过识别视觉基础模型 (细节) 和视觉-语言模型 (语义) 的互补优势，作者创建了一个比任何单一模型都“看”得更清楚的系统。

至关重要的是，他们通过利用 Mamba 解决了融合这些庞大模型的工程瓶颈。这允许以线性复杂度处理长的连接序列，使融合过程既高效又可扩展。

对于学生和研究人员来说，这篇论文为在基础模型时代如何进行参数高效微调 (PEFT) 提供了一个蓝图。我们无需重新训练庞大的网络，而是可以使用像 MVFuser 这样智能、轻量级的适配器来弥合不同 AI 模态之间的鸿沟。

随着我们迈向更自主的系统，像 MFuser 这样的技术对于确保在实验室训练的 AI 能够应对现实世界的混乱至关重要。

问题: 粒度与语义的权衡#

挑战: 序列长度瓶颈#

解决方案: MFuser 架构#

1. MVFuser: 视觉桥梁#

2. MTEnhancer: 优化文本查询#

损失函数#

实验结果#

合成到真实的性能#

定性分析#

真实到真实的泛化#

效率: 为什么 Mamba 很重要#

融合真的改变了特征吗？#

消融实验: 我们需要两个模型吗？#

结论#