Mamba 能击败 Transformer 吗？探索用于显著性目标检测的 Samba

当你观看一张照片时，你的眼睛不会以同样的强度处理每一个像素。你会瞬间聚焦在“重要”的部分——一个挥手的人、一辆鲜红色的汽车，或者一只坐在篱笆上的猫。这种生物机制就是计算机视觉研究者所称的 显著性目标检测 (Salient Object Detection, SOD) 。

多年来，SOD 领域一直是两种主流架构之间的拉锯战: 卷积神经网络 (CNN) 和 Transformer。CNN 效率高，但难以理解“整体画面” (感受野有限) 。Transformer 是捕捉全局上下文的大师，但随着图像分辨率的增加，其计算复杂度呈二次方增长，计算负担沉重。

还有第三种选择吗? Mamba 登场了，这是一种状态空间模型 (SSM) ，它承诺兼具 Transformer 的全局理解能力和 CNN 的线性效率。

在这篇文章中，我们将深入探讨 Samba , 这是一个在 CVPR 上发表的新颖框架，它将 Mamba 架构应用于通用显著性检测。我们将探索作者如何克服将 1D 序列建模应用于 2D 图像的独特挑战，并在多种模态下取得了最先进的结果。

问题所在: 2D 与 1D 的错位

要理解为什么需要 Samba，我们首先需要了解当前方法的局限性。

CNN: 擅长处理局部细节 (边缘、纹理) ，但难以连接图像中相距较远的部分。
Transformer: 使用自注意力机制 (Self-Attention) 将每个像素与其他所有像素连接起来。这完美地捕捉了全局上下文，但对于高分辨率图像来说，速度极慢且极其消耗内存。

Mamba (状态空间模型) 提供了一个引人注目的替代方案。它将视觉数据建模为一个序列，递归地处理信息。这使得它能够以线性计算复杂度 (\(O(N)\)) 记住长距离依赖关系 (全局上下文) 。

然而，Mamba 最初是为文本 (1D 序列) 设计的。而图像是 2D 网格。为了将 Mamba 用于视觉任务，你必须将图像“展平”为一系列补丁 (patch) 。

核心问题: 标准的展平方法 (如逐行扫描) 往往会破坏对象的空间连续性。如果一个“显著”对象 (如一只狗) 被切分，并在 1D 序列中被长段的背景像素隔开，那么当 Mamba 模型遇到该对象的下一部分时，它可能已经“忘记”了之前的特征。

Samba 架构

研究人员提出了 Samba , 这是一个统一的框架，能够处理标准 RGB 图像，以及像 RGB-D (深度) 、RGB-T (热成像) 和视频 SOD 这样的复杂任务。

图 2. 提出的用于通用 SOD 任务的 Samba 模型整体架构。

如图 2 所示，该架构遵循经典的编码器-解码器结构，但处处融入了 Mamba 的基因:

编码器: 基于视觉状态空间 (VSS) 层的孪生骨干网络，用于提取多级特征。
转换器: 一个多模态融合 Mamba (MFM) 块，用于整合额外的数据 (如深度或热成像信息，如果存在的话) 。
解码器: 这是神奇发生的地方。它使用两个新颖的组件——显著性引导 Mamba 块 (SGMB) 和 上下文感知上采样 (CAU) ——来重建高精度的显著性图。

理解 Mamba 背后的数学原理

在剖析这些新颖的模块之前，让我们简要回顾一下数学基础。Mamba 依赖于线性时不变 (LTI) 系统，通过隐状态 \(h(t)\) 将输入序列 \(x(t)\) 映射到输出序列 \(y(t)\)。

公式 1: 连续时间系统

为了在深度学习中使用它，该系统被离散化 (分解为步骤) ，从而可以递归地表示:

公式 2: 离散化参数

公式 3: 离散时间递归形式

编码器中使用的经典视觉状态空间 (VSS) 块通过将特征分为流并使用选择性扫描 (SS2D) 模块来处理特征。

图 3. 视觉状态空间 (VSS) 块和选择性扫描 (SS2D) 模块示意图。

SS2D 模块沿四个固定方向 (从角到对角) 扫描图像，以模拟全局上下文。然而，对于显著性目标检测来说，这些固定的方向还不够智能。

创新点 1: 通过 SGMB 重新思考扫描方式

这就引出了本文最重要的贡献: 显著性引导 Mamba 块 (SGMB) 。

作者意识到，为了让 Mamba 有效地检测对象，“扫描”需要在对象内部停留尽可能长的时间，以保持对其特征的记忆。

标准的扫描策略是僵化的。请看下面的图 1。模式 (a)、(b) 和 (c) 是固定的几何扫描。如果显著对象的形状不规则，这些扫描本质上会将对象切成 1D 序列中不连续的碎片。

图 1. 现有扫描策略与我们的扫描策略的比较。

作者提出了 空间邻域扫描 (SNS) (如图 1d 所示) 。该算法将扫描过程视为一个路径寻优问题。它试图找到一条遍历所有显著补丁的最短路径，同时保持它们在序列中的空间紧密性。

SNS 是如何工作的:

它获取一个“粗略”的显著性图 (对对象位置的大致猜测) 。
它逐行扫描，但根据哪一端更接近下一行的显著像素，动态决定是从“左到右”还是从“右到左”扫描。
这最大限度地减少了行与行之间的“跳跃”，保持对象像素在序列中的连续性。

我们可以在图 5 中滑冰者的动作中看到这一点的可视化。扫描路径 (线条) 适应滑冰者的形状，确保模型将人作为一个连续的实体来处理，而不是分散的噪声。

图 5. SNS 生成的显著区域扫描路径。

SGMB 集成了这种 SNS 策略。它使用粗略显著性图生成这些优化后的索引 (\(I_s\)) ，并在将特征输入 Mamba 块之前重新排序。

图 4. 显著性引导 Mamba 块 (SGMB) 示意图。

通过确保 1D 序列遵循对象的 2D 空间连续性，Mamba 的递归特性变成了一种优势，而非劣势。

创新点 2: 上下文感知上采样 (CAU)

作者解决的第二个主要问题是 特征对齐 。在解码器中，通常需要将高层特征 (分辨率小，语义丰富) 与低层特征 (分辨率高，边缘细节丰富) 合并。

大多数网络使用“最近邻”插值来放大较小的特征。这很快，但很“呆板”——它不学习任何东西，往往导致层之间的错位。

作者提出了 上下文感知上采样 (CAU) 。

图 6. 上下文感知上采样 (CAU) 方法示意图。

CAU 不是简单的插值，而是使上采样过程可学习且依赖于上下文:

分块配对: 它将高层特征 (\(f_{i+1}\)) 中的补丁与其在低层特征 (\(f_i\)) 中的对应空间邻域进行配对。
序列建模: 它将这些配对连接成一个序列，并将其输入到一个 S6 (Mamba) 块中。
因果预测: 由于 Mamba 是一个因果模型 (预测依赖于历史) ，S6 块学会了基于低分辨率上下文来预测高分辨率特征的分布。

这导致上采样后的特征在语义上与高分辨率图对齐，显著锐化了检测对象的边界。

多模态融合

Samba 不仅仅用于标准照片。它旨在处理“通用”SOD，其中包括深度图、热成像和光流 (用于视频) 。

为了处理这些，作者在编码器和解码器之间插入了一个 转换器 (Convertor) 。该模块使用特定的 Mamba 融合块将 RGB 特征 (\(f^r\)) 与辅助模态 (\(f^x\)) 融合。

公式: 多模态融合逻辑

上面的公式展示了特征是如何被投影、拼接、通过 S6 块处理以学习跨模态交互，然后合并的。

实验结果

作者在 5 个不同的 SOD 任务中的 21 个不同数据集 上测试了 Samba。结果表明，Samba 始终优于基于 CNN 和基于 Transformer 的最先进 (SOTA) 方法。

定量分析

在标准的 RGB 显著性目标检测 中，Samba 实现了顶级性能，同时与沉重的 Transformer 模型 (如 SwinNet) 相比，参数量更低。

表 1. Samba 与其他 SOTA RGB SOD 方法的定量比较。

在像 RGB-D 视频 SOD 这样的复杂任务中，优势变得更加明显，因为保持时间和跨模态的一致性非常困难。与专用视频模型相比，Samba 实现了显著更高的 F-度量 (\(F_m\)) 和结构度量 (\(S_m\)) 分数。

表 5. Samba 与其他 SOTA RGB-D VSOD 方法的定量比较。

定性分析

视觉比较突出了 Samba 处理困难场景的实力。

请看下面的 图 7 :

第 1 行 (凉亭) : 注意柱子之间的镂空部分。其他模型 (如 VSCode-S 或 ICON-S) 模糊了这些区域或将其填充。Samba 正确识别了镂空空间。
第 2 行 (人群) : Samba 准确地分离了两个人，没有将他们合并成一团或遗漏肢体。
第 4 行 (杂乱的桌子) : 背景很乱，但 Samba 完美地隔离了显示器和物体。

图 7. 与 SOTA RGB SOD 方法的视觉比较。

消融实验

为了证明新模块 (SGMB 和 CAU) 确实发挥了关键作用，作者进行了消融实验。

表 6. Samba 的消融研究。

变体 A1/A2: 移除 SGMB 或使用标准块会导致性能显著下降。
变体 A3-A5: 使用标准扫描模式 (Z 形扫描、S 形扫描) 代替提出的 SNS 导致分数较低，证明了如何扫描图像至关重要。
变体 B1-B3: 用标准上采样 (B1) 或其他可学习的上采样器 (B2/B3) 替换 CAU 也会降低性能。

结论

“Samba” 论文代表了将状态空间模型适配于计算机视觉领域的重要一步。它强调了一个关键见解: 当将 1D 序列模型适配到 2D 图像时，序列的顺序定义了模型对空间的理解。

通过发明 空间邻域扫描 , 作者确保了 Mamba 模型的“记忆”与显著对象的物理结构保持一致。结合更智能、上下文感知的上采样方法，Samba 提供了一个统一的框架，不仅更准确，而且计算效率更高。

随着该领域向 Transformer 的高效替代方案迈进，像 Samba 中引入的那些技术——特别是动态扫描策略——很可能成为高性能计算机视觉的标准实践。

问题所在: 2D 与 1D 的错位#

Samba 架构#

理解 Mamba 背后的数学原理#

创新点 1: 通过 SGMB 重新思考扫描方式#

空间邻域扫描 (SNS) 算法#

创新点 2: 上下文感知上采样 (CAU)#

多模态融合#

实验结果#

定量分析#

定性分析#

消融实验#

结论#