引言

想象一下,你试图在一个拥挤的视频画面中跟踪一位朋友。有时你知道他们长什么样 (视觉参考) ,有时你只知道一段描述,比如“戴红帽子的那个人”。再想象一下视频很长。你的朋友可能会变换姿势,走到树后,或者摘掉帽子。为了有效地跟踪他们,你需要记忆 。 你需要记住他们的历史轨迹,以预测他们现在的位置。

在计算机视觉领域,这项任务被称为视觉语言跟踪 (Vision-Language Tracking, VLT) 。 多年来,基于 Transformer 的模型因其强大的注意力机制一直是该领域的黄金标准。然而,Transformer 有一个“阿喀琉斯之踵”: 它们难以高效地建模长期的时间信息。随着视频变长,记忆过去信息的计算成本呈二次方增长 (\(O(N^2)\)) 。

目前大多数跟踪器试图通过提取过去的“快照”并离散地更新参考信息来解决这个问题。这种方法虽然有效,但略显笨拙,且切断了时间上的连贯性。

MambaVLT 应运而生,这是哈尔滨工业大学和鹏城实验室的研究人员提出的一种新方法。通过利用被称为“Mamba”的状态空间模型 (State Space Model, SSM) 架构,该论文提出了一种随时间连续演变的跟踪器。它模仿人类跟踪物体的方式——不是通过拍摄离散的快照,而是保持对目标流畅、不断演变的理解。

在这篇文章中,我们将解构 MambaVLT。我们将探索它如何利用状态空间模型实现线性复杂度 (\(O(N)\)) ,以及它如何融合视觉和语言数据,从而比最先进的 Transformer 更稳健地跟踪物体。

图 1. 捕捉时间上下文信息的两种方式示意图。(a) 具有离散上下文提示的视觉语言跟踪器。(b) 我们的 MambaVLT,具有用于时间信息传输的连续时间演变状态空间。

图 1 所示,与依赖离散上下文更新的先前方法 (a) 不同,MambaVLT (b) 维护着一个连续的状态空间记忆。这使得模型能够逐帧“演变”其对目标的理解,而无需重新启动上下文过程。

背景: 向状态空间模型的转变

在理解 MambaVLT 之前,我们需要了解驱动它的引擎: 状态空间模型 (SSM)

虽然 Transformer 使用自注意力 (Self-Attention) 一次性查看序列中的每个 token,但 SSM 更像循环神经网络 (RNN) 。它们按顺序处理数据,但在数学设计上更加高效和稳定。

SSM 的核心数学原理

SSM 将系统 (如视频跟踪器) 视为一个连续过程,通过隐状态 \(h(t)\) 将输入序列 \(x(t)\) 映射到输出序列 \(y(t)\)。隐状态就是系统的“记忆”。

这种连续演变由以下微分方程描述:

将输入映射到输出并带有隐状态的连续系统方程。

这里:

  • \(h(t)\) 是隐状态 (记忆) 。
  • \(x(t)\) 是输入 (当前视频帧/特征) 。
  • \(\mathbf{A}\)、\(\mathbf{B}\) 和 \(\mathbf{C}\) 是定义状态如何更新以及如何转化为输出的矩阵。

然而,计算机无法处理连续时间;它们以离散的步长 (帧) 运行。为了使其适用于深度学习,作者使用离散化参数 \(\Delta\) (delta) 将连续矩阵转换为离散矩阵:

使用零阶保持离散化的离散对应方程。

Mamba 登场: 选择性 SSM

标准的 SSM 是静态的;矩阵 \(\mathbf{A}\) 和 \(\mathbf{B}\) 不会根据输入而改变。这使得它们速度很快,但在处理动态上下文时不够智能。 Mamba 引入了“选择性 (Selectivity) ”。它允许模型根据当前输入 \(x_i\) 改变参数 \(\mathbf{B}\)、\(\mathbf{C}\) 和 \(\Delta\)。

显示参数依赖于输入 i 的选择性状态空间模型方程。

这种选择性使得 Mamba 能够过滤掉不相关的信息 (噪声) 并记住相关的信息 (目标) ,且在长序列上保持线性复杂度。MambaVLT 利用这一特性来记忆目标物体在整个视频中的历史。

MambaVLT 架构

MambaVLT 的目标是跟踪由文本描述 (“棕色和白色的猫……”) 和视觉模板 (第一帧边界框) 定义的目标。

整体框架非常优雅。它从文本和图像 (模板和搜索区域) 中提取特征,将它们融合为一个统一的序列,然后通过时间演变多模态融合模块 (Time-Evolving Multimodal Fusion Module) 进行处理。

图 2. MambaVLT 架构概览,展示了特征提取、融合和定位过程。

图 2 所示,该架构包含三个关键阶段:

  1. 特征提取: 基于 Mamba 的文本编码器处理语言描述,而基于 Vmamba 的视觉编码器处理图像帧。
  2. 时间演变融合: 这是核心创新点。它在融合模态的同时更新目标的“记忆”。
  3. 定位: 预测头在搜索区域中找到目标。

让我们放大看核心创新点: 时间演变多模态融合 (TEMF) 模块。该模块包含两个关键块: 混合多模态状态空间 (HMSS)选择性局部增强 (SLE)

1. 混合多模态状态空间 (HMSS) 块

HMSS 块负责长期记忆以及混合视觉和语言特征。

在 Transformer 中,你可能会将文本和图像 token 拼接起来并使用自注意力。而在 Mamba 中,序列的顺序很重要,因为它是自回归的 (从左到右读取) 。这就产生了一个挑战: 我们应该把文本放在前面还是把图像放在前面?

作者意识到扫描顺序决定了引导方向 。 如果你在图像之前扫描文本,文本特征就会“引导”图像更新。如果你在搜索区域之前扫描视觉模板,模板就会引导搜索。

为了兼顾两者,HMSS 块使用了模态引导的双向扫描 (Modality-Guided Bidirectional Scan)

图 3. 混合多模态状态空间块和选择性局部增强块的整体流程。

图 3 左侧所示,模型分为两条路径:

  1. 文本优先扫描 (\(\alpha\)): 扫描顺序优先考虑语言特征以引导视觉特征。
  2. 模板优先扫描 (\(\beta\)): 扫描顺序优先考虑视觉模板以引导搜索区域。

这两次扫描的输出被结合起来形成最终的特征表示。

时间演变机制

至关重要的是,隐状态 \(h\) 不会在每帧重置。前一帧的最终状态成为当前帧的初始状态。这使得模型能够在整个视频中携带时间信息。

当前时间步 \(t\) 的状态空间初始化是可学习状态与前一帧记忆的混合:

初始状态空间推导方程。

双向扫描和更新的数学公式为:

模态引导双向扫描和输出生成的方程。

这里,\(\mathbf{h}^\alpha\) 和 \(\mathbf{h}^\beta\) 分别代表来自文本优先和模板优先扫描的隐状态。通过平均它们的输出 (通过 \(\mathbf{C}\)) ,模型实现了多模态数据的稳健融合。

2. 选择性局部增强 (SLE) 块

虽然 HMSS 块处理长期的全局历史,但跟踪器也需要密切关注当前帧以精确定位物体。SLE 块 (在图 3 右侧显示) 负责处理这个问题。

标准的线性注意力机制通常无法捕捉复杂的局部细微差别。SLE 块引入了全局选择性图 (Global Selective Map, \(A_l\)) 。 该图通过对 HMSS 输出进行卷积操作生成,提取空间重要性权重。

这个图在执行局部线性注意力扫描之前被添加到输入特征中。这增强了图像中当前相关的特定区域,同时保持了较低的计算成本 (线性复杂度) 。

选择性局部增强块的方程。

3. 模态选择模块

有时,视觉跟踪是不可靠的 (例如,物体被遮挡) 。有时,语言描述是模糊的 (当有三辆深色车时说“那辆深色车”) 。一个好的跟踪器知道该信任哪个来源。

MambaVLT 包含一个模态选择模块 (Modality-Selection Module) 。 它计算“不变线索” (语言为 \(I_l\),视觉为 \(I_z\)) ,并使用基于 Mamba 的选择器对它们进行加权。

图 4. 模态选择模块概览,展示了语言和视觉线索是如何聚合和加权的。

图 4 所示,该模块生成权重 \(w_l\) 和 \(w_z\)。这些权重决定了搜索区域特征应该在多大程度上由文本或视觉模板进行细化。

下面的热力图展示了这种选择的有效性。注意“After (之后) ”一栏如何更紧密地聚焦于文本或框描述的特定目标,过滤掉干扰项。

图 6. 模态选择模块前后参考 token 与搜索区域相似度的可视化。

训练目标

为了训练这个架构,作者使用了多种损失函数的组合。其中一个关键部分是对比损失 (Contrastive Loss) , 它既应用于同一视频内 (帧内) ,也应用于不同视频之间 (帧间) 。这迫使模型学习到第 1 帧中的“猫”与第 100 帧中的“猫”是同一个实体,但与完全不同视频中的“猫”不同。

用于对比学习的 token 级相似度计算如下:

token 级相似度计算方程。

对比损失函数为:

对比损失计算方程。

总损失结合了边界框回归 (\(\mathcal{L}_{bbox}\))、目标分数和对比损失:

总训练目标方程。

实验与结果

研究人员在四个主要基准上测试了 MambaVLT: TNL2K, LaSOT, OTB99 和 MGIT 。 他们将其与 TransT、OSTrack 和 UVLTrack 等最先进的 Transformer 跟踪器进行了比较。

定量性能

MambaVLT 取得了令人印象深刻的结果。在“通过语言和边界框跟踪” (NL&BBOX) 设置中,它在 TNL2K 和 OTB99 上创下了新纪录。

表 1. 我们的方法与最先进方法在 TNL2k, LaSOT 和 OTB99 数据集上的比较。

它在 MGIT 数据集上也表现出强劲的性能,在精度方面显著优于以前的方法。

表 2. 我们的方法与最新方法在 MGIT 数据集上的比较。

“半无参考” (SRF) 测试

最有趣的实验是半无参考 (Semi-Reference-Free, SRF) 跟踪。

在标准跟踪中,模型通常可以不断地“偷看”初始参考框或文本。为了证明 MambaVLT 确实通过其状态空间记忆了目标,研究人员在第一帧之后切断了参考数据的访问。跟踪器必须完全依赖其内部记忆演变来保持跟踪。

图 5. 使用 SRF 设置在两个具有挑战性的序列上进行 NL&BBOX 跟踪任务的定性比较。

图 5 中的绿线 (MambaVLT) 紧紧跟随目标。值得注意的是,蓝线 (SRF 模式下的 MambaVLT) 成功地跟踪了目标,甚至经常优于标准的 UVLTrack (紫线) 。

此外,看看图 B 中的跟踪可靠性曲线:

图 B. 在半无参考设置下,BBOX 和 NL 任务中时间演变状态空间记忆的有效性分析。

即使没有持续的参考输入 (蓝线) ,MambaVLT 也保持了较高的交并比 (IoU) 分数,验证了时间演变状态空间有效地充当了长期记忆。

效率

最后,Mamba 是否兑现了其高效的承诺?

图 A. 不同搜索区域图像尺度下的计算复杂度比较。

图 A 绘制了 FLOPs (计算成本) 随图像大小变化的曲线。随着搜索区域的增大,基于 Transformer 的方法 (如 UVLTrack) 的成本飙升 (二次方增长) ,最终达到“内存溢出” (OOM) 。MambaVLT (绿线) 几乎呈线性扩展,即使在分辨率很大的情况下也能保持高效。

消融实验

作者还拆解了模型,以查看哪些部分最重要。

表 3. MambaVLT 中不同组件的分析

表 3 所示,移除时间演变混合状态空间 (THSS) 导致性能下降最大,证实了连续记忆机制是系统的支柱。添加模态选择 (MS) 和 SLE 块提供了进一步的增量收益。

结论

MambaVLT 代表了视觉跟踪向前迈出的重要一步。它通过采用 Mamba 状态空间模型 , 解决了 Transformer 的固有局限性——即难以建模长时间序列和高计算成本。

通过将跟踪视为状态的连续演变而不是一系列离散更新,MambaVLT 实现了:

  1. 线性复杂度: 高效处理长视频。
  2. 稳健的记忆: 即使移除了参考输入也能保持目标身份 (由 SRF 测试证明) 。
  3. 自适应融合: 根据当前上下文智能地权衡视觉和语言。

对于计算机视觉领域的学生和研究人员来说,这篇论文发出了一个强烈的信号: SSM 不仅仅是一个新奇事物,它们是时间建模任务中 Transformer 的一个可行的、高性能的替代方案。

图 C. MambaVLT 和 UVLTrack 方法在六个具有剧烈变化的挑战性序列上的可视化结果。