想象一下,完全在视频游戏《侠盗猎车手5》 (Grand Theft Auto V) 中训练自动驾驶汽车算法。游戏中的道路看起来很逼真,光照完美,天气也是受控的。现在,把同一辆车投放到伦敦雨夜的街道上。它会撞车吗?
这个场景代表了域泛化语义分割 (Domain Generalized Semantic Segmentation, DGSS) 的核心挑战。我们希望模型能从“源”域 (如模拟环境或阳光明媚的数据集) 中学习,并在从未见过的“目标”域 (现实世界、恶劣天气、夜晚) 中表现完美。
AI 领域的最新进展赋予了我们两种超能力: 擅长捕捉细粒度细节的视觉基础模型 (VFMs) (如 DINOv2) ,以及通过文本对齐理解物体语义概念的视觉-语言模型 (VLMs) (如 CLIP) 。
理想情况下,我们会结合这两者以各取所长。但简单地拼接这些庞大的模型会带来计算上的噩梦,并且产生传统 Transformer 难以处理的“序列长度”瓶颈。
在这篇文章中,我们将深入探讨一篇新论文**“Mamba as a Bridge”** , 它提出了一种名为 MFuser 的新颖框架。该架构利用高效的 Mamba (状态空间模型) 架构来融合这两个巨头,在域泛化方面取得了最先进的成果。
问题: 粒度与语义的权衡
要理解为什么我们需要融合模型,首先需要看看现有的基础模型实际上“看到”了什么。
- VFMs (例如 DINOv2) : 这些模型利用自监督方法在海量视觉数据上进行训练。它们在特征局部性 (feature locality) 方面表现出色。它们确切地知道汽车的边缘在哪里,但缺乏与人类语言相关的对“汽车”是什么的强语义理解。
- VLMs (例如 CLIP) : 这些模型经过训练,能够将图像与文本描述对齐。它们拥有强大的语义理解能力 , 并且对风格变化具有鲁棒性 (卡通车和真车都是“车”) 。然而,由于它们通常是在图像级标签上训练的,它们的空间感知是粗糙的。它们知道图像里有一辆车,但很难精确定位其具体像素。
研究人员通过对两个模型的特征图进行主成分分析 (PCA) ,有效地可视化了这种差异。

如上图 Figure 1 所示:
- VFM (DINOv2): 特征 (左图) 显示了锐利、细粒度的细节。你可以清晰地看到树木和车辆的结构。
- VLM (EVA02-CLIP): 针对查询“car” (汽车) 的热力图 (中图) 点亮了汽车的大致区域,但是模糊且不精确。
- MFuser (右图) : 提出的方法结合了两者,产生了既清晰定位又语义对齐的统一特征。
挑战: 序列长度瓶颈
为什么不直接将两个模型一起微调?原因有二:
- 计算成本: 同时微调像 EVA02-CLIP 和 DINOv2 这样庞大的模型需要巨大的 GPU 资源。
- 序列长度: Transformer 将图像处理为“Patch” (Token) 序列。如果你连接来自 VFM 和 VLM 的特征,你就将序列长度翻倍了。Transformer 中的标准注意力机制具有二次复杂度 (\(O(N^2)\)) 。Token 翻倍会使计算量翻四倍,导致速度慢得令人望而却步。
这就是 Mamba 登场的地方。Mamba 是一种状态空间模型 (SSM) ,它在序列长度方面提供线性复杂度 (\(O(N)\)) 。它允许模型高效地处理极长的数据序列,使其成为连接两个巨大视觉编码器的完美“桥梁”。
解决方案: MFuser 架构
研究人员提出了 MFuser , 这是一个框架,它保持 VFM 和 VLM 的庞大主干冻结 (以节省显存并保留其预训练知识) ,并插入轻量级的、可训练的模块来融合它们的信息。

如 Figure 2 所示,该架构由三个主要部分组成:
- 冻结的编码器: 两个并行流 (VFM 和 VLM) 处理图像。
- MVFuser (视觉适配器) : 一个基于 Mamba 的模块,位于编码器层之间以融合视觉特征。
- MTEnhancer (文本适配器) : 一个通过注入视觉信息来优化文本嵌入 (用作查询) 的模块。
让我们拆解两个新颖的组件: MVFuser 和 MTEnhancer。
1. MVFuser: 视觉桥梁
MVFuser 的目标是提取第 \(i\) 层的 VFM 特征 (\(x^{VFM}\)) 和 VLM 特征 (\(x^{VLM}\)) ,混合它们以互相学习,并将优化后的特征注回流中。
首先,让我们看看冻结模型中 Transformer 块的标准处理过程:

MVFuser 充当“联合适配器”。它接收来自两个模型的连接特征,并输出“偏移量” (\(\Delta x\)) 来优化原始特征。

MVFuser 内部: 研究人员认识到视觉数据既包含序列模式,也包含空间结构模式。为了同时捕捉这两者,MVFuser 将处理分为两个并行分支:
- 序列分支 (SSM) : 使用 Mamba 选择性扫描机制来建模跨越组合 Token 序列的长程依赖关系。
- 空间分支: 使用卷积层来捕捉局部 2D 空间关系。

最后,这两个分支使用门控机制 (逐元素相乘,用 \(\otimes\) 表示) 进行融合,并投影回原始维度。

这种设计允许 VFM 的高粒度特征锐化 VLM,同时 VLM 的语义鲁棒性指导 VFM,而这一切仅需线性的计算成本。
2. MTEnhancer: 优化文本查询
在现代分割框架 (如本文所基于的 Mask2Former) 中,“查询 (queries) ”用于要求解码器寻找特定物体。通常,这些查询是静态的文本嵌入 (例如,单词“汽车”的向量) 。
然而,静态文本嵌入并不了解当前图像的具体光照或风格。 MTEnhancer 通过将视觉先验注入文本嵌入来解决这个问题。
它使用了一种混合方法:
- 自注意力 (Self-Attention) : 理解不同类名之间的关系 (例如,“道路”和“人行道”是相关的) 。
- 条件 Mamba 块 (Conditional Mamba Block) : 以融合的视觉特征 (\(x_v\)) 为条件来处理文本查询 (\(q_t\)) 。
为了有效地利用 Mamba 的单向扫描进行跨模态 (文本到图像) 处理,研究人员使用了一种巧妙的“三明治”技术: 在将文本查询传入 Mamba 块之前,他们将文本查询连接在视觉特征的两侧。

损失函数
为了训练该系统,作者使用了标准的分割损失组合 (二元交叉熵损失、Dice 损失和分类损失) 以及对齐损失,以确保像素与文本的一致性。


实验结果
研究人员在要求苛刻的基准测试上测试了 MFuser,特别是合成到真实 (Synthetic-to-Real) (在 GTAV 上训练,在 Cityscapes、BDD100K 和 Mapillary 上测试) 和真实到真实 (Real-to-Real) (Cityscapes 到其他数据集) 。
合成到真实的性能
这是“圣杯”测试——在视频游戏上训练,在真实街道上测试。

在 Table 1 中,MFuser (灰色行) 始终优于现有的最先进方法,如“Rein”和“tqdm”。
- 在 GTAV \(\to\) Mapillary (G \(\to\) M) 任务上,使用 EVA02-CLIP 的 MFuser 达到了 71.28 mIoU , 显著高于竞争对手。
- “Avg.” (平均) 列显示了其在不同 VLM 主干 (CLIP, SIGLIP, EVA02) 上的明显优势。
定性分析
数字固然重要,但视觉结果更能说明鲁棒性的故事。

在 Figure 3 中,请看“Rein” (强有力的竞争者) 和“Ours” (MFuser) 之间的对比。
- 第 1 行 (G \(\to\) C): 注意骑手/自行车的检测。Rein 遗漏了自行车的部分,而 MFuser 准确地捕捉到了轮廓。
- 第 2 行 (G \(\to\) B): 这是一个低光/夜间场景。Rein 在黑暗区域产生了噪声幻觉。MFuser 保持了道路和天空的清晰分割,展示了融合 DINOv2 的局部细节与 CLIP 的语义鲁棒性的威力。
真实到真实的泛化
当在不同的现实世界数据集之间迁移时 (通常具有不同的摄像头设置和城市布局) ,该模型同样表现出色。

如 Table 2 所示,MFuser 再次占据榜首,使用 EVA02-CLIP 主干实现了 71.87% 的平均 mIoU。
效率: 为什么 Mamba 很重要
该论文的主要主张之一是 Mamba 在融合方面比使用标准注意力机制更高效。 Table 3 证明了这一点。

- Self-Attention (concat): 需要 98.64 G FLOPs 和 4.2M 参数。
- MVFuser (Ours): 仅需 17.21 G FLOPs 和 1.67M 参数。
基于 Mamba 的方法在计算效率上提高了近 5 倍 , 同时实现了更高的准确率 (68.20 vs 67.89 Avg mIoU) 。这证实了 Mamba 是处理由连接的视觉 Token 产生的长序列的绝佳选择。
融合真的改变了特征吗?
为了验证 MVFuser 是否真的在做有意义的工作,作者使用 PCA 可视化了适配前后的特征分布。

在 Figure 4 中,观察从“Before” (前) 到“After” (后) 的转变。
- DINOv2 (Before): 在某些区域有噪声。
- DINOv2 (After): 道路和物体的分割变得更加清晰和统一。
- EVA02 (Before): 非常抽象且呈块状。
- EVA02 (After): 明显锐化,表明 VLM 从 VFM 中学到了空间精度。
消融实验: 我们需要两个模型吗?
有没有可能只是其中一个模型在起作用?研究人员通过运行仅 VFM、仅 VLM 以及各种组合的系统来测试这一点。

Table 4 (包含在文本分析中,参考 Table 5 图像上下文) 和 Table 5 揭示了:
- VFM-only (仅 VFM) : 65.13 Avg.
- VLM-only (仅 VLM) : 66.15 Avg.
- MFuser (Both): 68.20 Avg.
此外,简单地组合两个 VLM (例如 CLIP + EVA02) 的表现 (66.72) 不如组合 VFM + VLM (68.20) 。这证明了两个模型的异质性 (一个注重细节,一个注重语义) 是成功的关键。它们是互补的,而不是冗余的。
最后,文本增强 (MTEnhancer) 重要吗?

Table 6 显示,移除 MTEnhancer 会使平均性能从 68.20 下降到 66.91,这证明了以视觉数据为条件来处理文本查询对于域适应至关重要。
结论
MFuser 代表了鲁棒计算机视觉向前迈出的重要一步。通过识别视觉基础模型 (细节) 和视觉-语言模型 (语义) 的互补优势,作者创建了一个比任何单一模型都“看”得更清楚的系统。
至关重要的是,他们通过利用 Mamba 解决了融合这些庞大模型的工程瓶颈。这允许以线性复杂度处理长的连接序列,使融合过程既高效又可扩展。
对于学生和研究人员来说,这篇论文为在基础模型时代如何进行参数高效微调 (PEFT) 提供了一个蓝图。我们无需重新训练庞大的网络,而是可以使用像 MVFuser 这样智能、轻量级的适配器来弥合不同 AI 模态之间的鸿沟。
随着我们迈向更自主的系统,像 MFuser 这样的技术对于确保在实验室训练的 AI 能够应对现实世界的混乱至关重要。
](https://deep-paper.org/en/paper/2504.03193/images/cover.png)