当你观看一张照片时,你的眼睛不会以同样的强度处理每一个像素。你会瞬间聚焦在“重要”的部分——一个挥手的人、一辆鲜红色的汽车,或者一只坐在篱笆上的猫。这种生物机制就是计算机视觉研究者所称的 显著性目标检测 (Salient Object Detection, SOD)

多年来,SOD 领域一直是两种主流架构之间的拉锯战: 卷积神经网络 (CNN) 和 Transformer。CNN 效率高,但难以理解“整体画面” (感受野有限) 。Transformer 是捕捉全局上下文的大师,但随着图像分辨率的增加,其计算复杂度呈二次方增长,计算负担沉重。

还有第三种选择吗? Mamba 登场了,这是一种状态空间模型 (SSM) ,它承诺兼具 Transformer 的全局理解能力和 CNN 的线性效率。

在这篇文章中,我们将深入探讨 Samba , 这是一个在 CVPR 上发表的新颖框架,它将 Mamba 架构应用于通用显著性检测。我们将探索作者如何克服将 1D 序列建模应用于 2D 图像的独特挑战,并在多种模态下取得了最先进的结果。

问题所在: 2D 与 1D 的错位

要理解为什么需要 Samba,我们首先需要了解当前方法的局限性。

  1. CNN: 擅长处理局部细节 (边缘、纹理) ,但难以连接图像中相距较远的部分。
  2. Transformer: 使用自注意力机制 (Self-Attention) 将每个像素与其他所有像素连接起来。这完美地捕捉了全局上下文,但对于高分辨率图像来说,速度极慢且极其消耗内存。

Mamba (状态空间模型) 提供了一个引人注目的替代方案。它将视觉数据建模为一个序列,递归地处理信息。这使得它能够以线性计算复杂度 (\(O(N)\)) 记住长距离依赖关系 (全局上下文) 。

然而,Mamba 最初是为文本 (1D 序列) 设计的。而图像是 2D 网格。为了将 Mamba 用于视觉任务,你必须将图像“展平”为一系列补丁 (patch) 。

核心问题: 标准的展平方法 (如逐行扫描) 往往会破坏对象的空间连续性。如果一个“显著”对象 (如一只狗) 被切分,并在 1D 序列中被长段的背景像素隔开,那么当 Mamba 模型遇到该对象的下一部分时,它可能已经“忘记”了之前的特征。

Samba 架构

研究人员提出了 Samba , 这是一个统一的框架,能够处理标准 RGB 图像,以及像 RGB-D (深度) 、RGB-T (热成像) 和视频 SOD 这样的复杂任务。

图 2. 提出的用于通用 SOD 任务的 Samba 模型整体架构。

如图 2 所示,该架构遵循经典的编码器-解码器结构,但处处融入了 Mamba 的基因:

  1. 编码器: 基于视觉状态空间 (VSS) 层的孪生骨干网络,用于提取多级特征。
  2. 转换器: 一个多模态融合 Mamba (MFM) 块,用于整合额外的数据 (如深度或热成像信息,如果存在的话) 。
  3. 解码器: 这是神奇发生的地方。它使用两个新颖的组件——显著性引导 Mamba 块 (SGMB)上下文感知上采样 (CAU) ——来重建高精度的显著性图。

理解 Mamba 背后的数学原理

在剖析这些新颖的模块之前,让我们简要回顾一下数学基础。Mamba 依赖于线性时不变 (LTI) 系统,通过隐状态 \(h(t)\) 将输入序列 \(x(t)\) 映射到输出序列 \(y(t)\)。

公式 1: 连续时间系统

为了在深度学习中使用它,该系统被离散化 (分解为步骤) ,从而可以递归地表示:

公式 2: 离散化参数

公式 3: 离散时间递归形式

编码器中使用的经典视觉状态空间 (VSS) 块通过将特征分为流并使用选择性扫描 (SS2D) 模块来处理特征。

图 3. 视觉状态空间 (VSS) 块和选择性扫描 (SS2D) 模块示意图。

SS2D 模块沿四个固定方向 (从角到对角) 扫描图像,以模拟全局上下文。然而,对于显著性目标检测来说,这些固定的方向还不够智能。

创新点 1: 通过 SGMB 重新思考扫描方式

这就引出了本文最重要的贡献: 显著性引导 Mamba 块 (SGMB)

作者意识到,为了让 Mamba 有效地检测对象,“扫描”需要在对象内部停留尽可能长的时间,以保持对其特征的记忆。

空间邻域扫描 (SNS) 算法

标准的扫描策略是僵化的。请看下面的图 1。模式 (a)、(b) 和 (c) 是固定的几何扫描。如果显著对象的形状不规则,这些扫描本质上会将对象切成 1D 序列中不连续的碎片。

图 1. 现有扫描策略与我们的扫描策略的比较。

作者提出了 空间邻域扫描 (SNS) (如图 1d 所示) 。该算法将扫描过程视为一个路径寻优问题。它试图找到一条遍历所有显著补丁的最短路径,同时保持它们在序列中的空间紧密性。

SNS 是如何工作的:

  1. 它获取一个“粗略”的显著性图 (对对象位置的大致猜测) 。
  2. 它逐行扫描,但根据哪一端更接近下一行的显著像素,动态决定是从“左到右”还是从“右到左”扫描。
  3. 这最大限度地减少了行与行之间的“跳跃”,保持对象像素在序列中的连续性。

我们可以在图 5 中滑冰者的动作中看到这一点的可视化。扫描路径 (线条) 适应滑冰者的形状,确保模型将人作为一个连续的实体来处理,而不是分散的噪声。

图 5. SNS 生成的显著区域扫描路径。

SGMB 集成了这种 SNS 策略。它使用粗略显著性图生成这些优化后的索引 (\(I_s\)) ,并在将特征输入 Mamba 块之前重新排序。

图 4. 显著性引导 Mamba 块 (SGMB) 示意图。

通过确保 1D 序列遵循对象的 2D 空间连续性,Mamba 的递归特性变成了一种优势,而非劣势。

创新点 2: 上下文感知上采样 (CAU)

作者解决的第二个主要问题是 特征对齐 。 在解码器中,通常需要将高层特征 (分辨率小,语义丰富) 与低层特征 (分辨率高,边缘细节丰富) 合并。

大多数网络使用“最近邻”插值来放大较小的特征。这很快,但很“呆板”——它不学习任何东西,往往导致层之间的错位。

作者提出了 上下文感知上采样 (CAU)

图 6. 上下文感知上采样 (CAU) 方法示意图。

CAU 不是简单的插值,而是使上采样过程可学习且依赖于上下文:

  1. 分块配对: 它将高层特征 (\(f_{i+1}\)) 中的补丁与其在低层特征 (\(f_i\)) 中的对应空间邻域进行配对。
  2. 序列建模: 它将这些配对连接成一个序列,并将其输入到一个 S6 (Mamba) 块中。
  3. 因果预测: 由于 Mamba 是一个因果模型 (预测依赖于历史) ,S6 块学会了基于低分辨率上下文来预测高分辨率特征的分布。

这导致上采样后的特征在语义上与高分辨率图对齐,显著锐化了检测对象的边界。

多模态融合

Samba 不仅仅用于标准照片。它旨在处理“通用”SOD,其中包括深度图、热成像和光流 (用于视频) 。

为了处理这些,作者在编码器和解码器之间插入了一个 转换器 (Convertor) 。 该模块使用特定的 Mamba 融合块将 RGB 特征 (\(f^r\)) 与辅助模态 (\(f^x\)) 融合。

公式: 多模态融合逻辑

上面的公式展示了特征是如何被投影、拼接、通过 S6 块处理以学习跨模态交互,然后合并的。

实验结果

作者在 5 个不同的 SOD 任务中的 21 个不同数据集 上测试了 Samba。结果表明,Samba 始终优于基于 CNN 和基于 Transformer 的最先进 (SOTA) 方法。

定量分析

在标准的 RGB 显著性目标检测 中,Samba 实现了顶级性能,同时与沉重的 Transformer 模型 (如 SwinNet) 相比,参数量更低。

表 1. Samba 与其他 SOTA RGB SOD 方法的定量比较。

在像 RGB-D 视频 SOD 这样的复杂任务中,优势变得更加明显,因为保持时间和跨模态的一致性非常困难。与专用视频模型相比,Samba 实现了显著更高的 F-度量 (\(F_m\)) 和结构度量 (\(S_m\)) 分数。

表 5. Samba 与其他 SOTA RGB-D VSOD 方法的定量比较。

定性分析

视觉比较突出了 Samba 处理困难场景的实力。

请看下面的 图 7 :

  • 第 1 行 (凉亭) : 注意柱子之间的镂空部分。其他模型 (如 VSCode-S 或 ICON-S) 模糊了这些区域或将其填充。Samba 正确识别了镂空空间。
  • 第 2 行 (人群) : Samba 准确地分离了两个人,没有将他们合并成一团或遗漏肢体。
  • 第 4 行 (杂乱的桌子) : 背景很乱,但 Samba 完美地隔离了显示器和物体。

图 7. 与 SOTA RGB SOD 方法的视觉比较。

消融实验

为了证明新模块 (SGMB 和 CAU) 确实发挥了关键作用,作者进行了消融实验。

表 6. Samba 的消融研究。

  • 变体 A1/A2: 移除 SGMB 或使用标准块会导致性能显著下降。
  • 变体 A3-A5: 使用标准扫描模式 (Z 形扫描、S 形扫描) 代替提出的 SNS 导致分数较低,证明了 如何 扫描图像至关重要。
  • 变体 B1-B3: 用标准上采样 (B1) 或其他可学习的上采样器 (B2/B3) 替换 CAU 也会降低性能。

结论

“Samba” 论文代表了将状态空间模型适配于计算机视觉领域的重要一步。它强调了一个关键见解: 当将 1D 序列模型适配到 2D 图像时,序列的顺序定义了模型对空间的理解。

通过发明 空间邻域扫描 , 作者确保了 Mamba 模型的“记忆”与显著对象的物理结构保持一致。结合更智能、上下文感知的上采样方法,Samba 提供了一个统一的框架,不仅更准确,而且计算效率更高。

随着该领域向 Transformer 的高效替代方案迈进,像 Samba 中引入的那些技术——特别是动态扫描策略——很可能成为高性能计算机视觉的标准实践。