视频的世界正在爆炸式增长。从社交媒体上的短视频到完整的长篇电影,我们正在生成和消费比以往任何时候都多的视频内容。对于人工智能来说,真正理解这些内容是一项艰巨的任务。一个视频可以包含海量的时空信息——从细微的手势到长达数分钟的复杂叙事。

现代视频理解模型的核心挑战归结为两个相互冲突的需求:

  1. 效率 — 视频数据量庞大且通常高度冗余。模型必须在不耗尽计算资源的情况下快速处理它。
  2. 全局上下文 — 视频不仅仅是孤立的帧。理解它们需要捕捉可能跨越数百或数千帧的依赖关系。

历史性的权衡

多年来,两大模型家族一直占据主导地位:

  • 3D 卷积神经网络 (CNNs): 擅长捕捉局部的时空模式,但在处理长程依赖方面表现不佳。
  • 视频 Transformer: 其自注意力机制让它们能够将每一帧与所有其他帧联系起来——非常适合长程依赖。但缺点是,注意力的二次方复杂度使其在处理长且高分辨率的视频时,速度慢得令人痛苦,且极其消耗内存。

这种权衡留下了一个空白: 我们需要一个像 CNN 一样高效,但又像 Transformer 一样具有全局感知能力的模型。

状态空间模型 (SSM) 应运而生——这是一个源自控制理论的思想。最近,一个名为 Mamba 的突破性模型表明,SSM 能够以线性复杂度对长序列进行建模,其效果可与 Transformer 媲美,而成本仅为其一小部分。这引出了一个诱人的问题:** Mamba 能否用于视频理解?**

一篇新论文——VideoMamba: 用于高效视频理解的状态空间模型——给出了一个响亮的肯定回答。研究人员推出了 VideoMamba,一个纯粹基于 SSM 的架构,它重新定义了实用视频分析领域的最新技术水平。正如你将看到的,这不仅仅是一次渐进式的改进——它是我们思考长视频任务方式的一次根本性转变。

VideoMamba 与流行的 TimeSformer 模型的比较。VideoMamba 显示出显著更低的 GPU 内存使用和更快的吞吐量,尤其是在视频帧数增加时。

图 1: TimeSformer 与 VideoMamba 的吞吐量和内存比较。对于长视频序列,VideoMamba 的速度可达 6 倍,使用的 GPU 内存可减少 40 倍。


理解状态空间模型 (SSMs)

SSM 通过维护一个隐藏状态来对序列进行建模——这个隐藏状态本质上是对迄今为止所见内容的紧凑总结——并逐步更新它。其连续形式为:

\[ h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t) \]

\[ y(t) = \mathbf{C} h(t) \]

这里:

  • \( x(t) \) = 时间 \( t \) 的输入
  • \( y(t) \) = 输出
  • \( h(t) \) = 隐藏状态
  • \( \mathbf{A}, \mathbf{B}, \mathbf{C} \) 定义了状态如何演变并产生输出

对于深度学习,这些方程被离散化为一个递归形式:

\[ h_t = \overline{\mathbf{A}} h_{t-1} + \overline{\mathbf{B}} x_t \]

\[ y_t = \mathbf{C} h_t \]

传统的 SSM 会保持 \( \overline{\mathbf{A}} \)、\( \overline{\mathbf{B}} \)、以及 \( \mathbf{C} \) 固定不变。Mamba 的突破在于使它们变得动态——依赖于输入。其选择性扫描机制 (S6) 能够让模型根据内容决定要记住什么或忘记什么。这赋予了 Mamba 类似于注意力的上下文感知能力,但其扩展性却具有线性复杂度


VideoMamba 架构

VideoMamba 构建在 Vision Transformer (ViT) 简单而有效的架构蓝图之上——但将昂贵的自注意力模块替换为高效的双向 Mamba (B-Mamba) 模块。

VideoMamba 的整体框架 (a) 和时空扫描的可视化 (b)。该模型遵循 ViT 风格的架构,用双向 Mamba 块替换了注意力块。

图 2: VideoMamba 的框架。视频被切分为 3D 图块,通过 B-Mamba 模块处理,并通过最终的分类头输出结果。

分步解析:

  1. 视频到图块 (Patches):
    输入视频 \(X^v\) 通过一个小型 3D 卷积被切分成三维时空图块。例如: 跨越多帧的 16×16 像素图块。然后将这些图块展平成一个 token 序列。

  2. 添加位置嵌入:
    在序列开头添加一个 [CLS] 分类 token,并加入可学习的空间嵌入 (\(\mathbf{p}_s\)) 和时间嵌入 (\(\mathbf{p}_t\)) 以保留位置信息:

    \[ \mathbf{X} = [\mathbf{X}_{\text{cls}}, \mathbf{X}] + \mathbf{p}_s + \mathbf{p}_t \]
  3. 双向 Mamba 模块:
    标准 Mamba 是沿序列前向扫描。而 B-Mamba 则同时进行前向和后向扫描,再融合结果——以捕捉更丰富的空间上下文。

标准 Mamba 模块 (a) 和双向 Mamba 模块 (b) 的示意图。

图 3: 标准 Mamba (1D) 与双向 Mamba (2D) 的对比,双向模式对图像和视频等空间信息丰富的数据尤为重要。


扫描 3D 数据: 时空策略

将一维扫描应用到视频的三维网格,需要以某种顺序将其展平。作者尝试了四种方法:

使用一维感知模型处理 3D 视频数据的四种不同扫描方法的可视化。

图 4: (a) 空间优先,(b) 时间优先,(c,d) 混合时空扫描。

  • 空间优先 (Spatial-First): 先处理第 1 帧的所有图块,然后是第 2 帧,以此类推。
  • 时间优先 (Temporal-First): 先处理所有帧中相同位置的图块,然后再进行空间移动。
  • 混合模式 (Hybrids): 混合空间与时间的处理顺序。

最佳方案: 空间优先。简单、高效,并且能够利用预训练中学到的 2D 图像知识。


通过自蒸馏缓解过拟合

将 VideoMamba 扩展到更大的变体 (例如 VideoMamba-M) 时,出现了过拟合问题。解决方法是自蒸馏 (Self-Distillation)

先训练一个表现优异的小型“教师”模型 (如 VideoMamba-S) ,再训练更大的“学生”模型,使其在学习标签的同时也匹配教师模型的特征。这能让大模型保持稳固的基础并具备良好的泛化能力。

显示自蒸馏效果 (a) 和早停 (b) 的图表。

图 5: 自蒸馏 (红色曲线) 可以防止过拟合,从而获得更高的最终准确率。


用于运动敏感性的掩码建模

为了增强时间敏感性,作者使用了掩码建模进行预训练——隐藏部分输入并预测它们。标准的随机掩码并不适合 Mamba 的一维卷积结构,因为它更倾向于处理连续的 token。

他们设计了行掩码 (row masking) 策略,即屏蔽整个空间行;并结合注意力掩码 (attention masking) 来保留有意义的邻接关系。

掩码策略的比较。行掩码和注意力掩码适用于 B-Mamba。

图 6: 定制化的掩码策略提高了预训练效率。


四大核心能力: 可扩展性、敏感性、优越性、兼容性

1. 可扩展性

首先在 ImageNet-1K 上进行测试:

模型参数量FLOPsTop-1 (%)
VideoMamba-Ti7M1.1G76.9
VideoMamba-S26M4.3G81.2
VideoMamba-M74M12.7G82.8

在分辨率 576×576 下微调 VideoMamba-M,Top-1 准确率进一步提升至 84.0%


2. 敏感性: 短期动作识别

在 **Kinetics-400 **(场景为主) 数据集上,VideoMamba-M 取得 81.9% —— 比 ViViT-L 高 2.0%,且使用的预训练数据显著减少。
在 **Something-Something V2 **(运动为主) 数据集上,取得 68.3% —— 比 ViViT-L 高 3.0%。
掩码预训练的表现超过了 VideoMAE。

关于扫描类型、帧数和分辨率的消融研究。对于视频任务,增加帧数比增加分辨率更重要。

图 7: 空间优先扫描效果最佳;增加帧数往往比提升分辨率更能提高性能。


3. 优越性: 长期视频理解

数据集:** Breakfast **(复杂的烹饪任务) 、**COIN **(教学任务) 、LVU (电影片段) 。
由于计算资源限制,之前的方法通常采用两阶段流程。VideoMamba 的线性复杂度使得
端到端训练
成为可能。

结果:

  • Breakfast — VideoMamba-S: 97.4% Top-1 (SOTA)
  • COIN — VideoMamba-S: 88.7% Top-1 (SOTA)
  • LVU — 即使是最小的 VideoMamba-Ti,也在许多任务上达到或超过了 SOTA。

4. 兼容性: 多模态视频理解

在大规模视频-文本/图像-文本数据集上进行预训练,并在零样本的文本到视频检索任务中进行测试。
结果优于基于 ViT 的 UMT,尤其是在复杂且篇幅较长的视频 (ActivityNet、LSMDC) 上,验证了其在多模态对齐上的鲁棒性。


结论: 视频 AI 的新纪元

VideoMamba 用线性复杂度的 SSM 取代了二次复杂度的注意力机制,实现了高效性、可扩展性和卓越性能:

  • 显著的效率提升 —— 端到端长视频训练成为可能。
  • 最先进的性能表现 —— 从短期动作识别到分钟级视频理解皆有突破。
  • 可扩展性设计 —— 自蒸馏有效缓解大模型的过拟合。

局限性包括尚未测试超大型配置,以及集成更多模态 (如音频/语言) 以实现小时级视频理解——这两方面都是未来研究的良机。

对研究人员和从业者而言,VideoMamba 标志着一个明确的转变: 视频理解的未来或许将走向超越 Transformer的方向。