视频的世界正在爆炸式增长。从社交媒体上的短视频到完整的长篇电影,我们正在生成和消费比以往任何时候都多的视频内容。对于人工智能来说,真正理解这些内容是一项艰巨的任务。一个视频可以包含海量的时空信息——从细微的手势到长达数分钟的复杂叙事。
现代视频理解模型的核心挑战归结为两个相互冲突的需求:
- 效率 — 视频数据量庞大且通常高度冗余。模型必须在不耗尽计算资源的情况下快速处理它。
- 全局上下文 — 视频不仅仅是孤立的帧。理解它们需要捕捉可能跨越数百或数千帧的依赖关系。
历史性的权衡
多年来,两大模型家族一直占据主导地位:
- 3D 卷积神经网络 (CNNs): 擅长捕捉局部的时空模式,但在处理长程依赖方面表现不佳。
- 视频 Transformer: 其自注意力机制让它们能够将每一帧与所有其他帧联系起来——非常适合长程依赖。但缺点是,注意力的二次方复杂度使其在处理长且高分辨率的视频时,速度慢得令人痛苦,且极其消耗内存。
这种权衡留下了一个空白: 我们需要一个像 CNN 一样高效,但又像 Transformer 一样具有全局感知能力的模型。
状态空间模型 (SSM) 应运而生——这是一个源自控制理论的思想。最近,一个名为 Mamba 的突破性模型表明,SSM 能够以线性复杂度对长序列进行建模,其效果可与 Transformer 媲美,而成本仅为其一小部分。这引出了一个诱人的问题:** Mamba 能否用于视频理解?**
一篇新论文——VideoMamba: 用于高效视频理解的状态空间模型——给出了一个响亮的肯定回答。研究人员推出了 VideoMamba,一个纯粹基于 SSM 的架构,它重新定义了实用视频分析领域的最新技术水平。正如你将看到的,这不仅仅是一次渐进式的改进——它是我们思考长视频任务方式的一次根本性转变。
图 1: TimeSformer 与 VideoMamba 的吞吐量和内存比较。对于长视频序列,VideoMamba 的速度可达 6 倍,使用的 GPU 内存可减少 40 倍。
理解状态空间模型 (SSMs)
SSM 通过维护一个隐藏状态来对序列进行建模——这个隐藏状态本质上是对迄今为止所见内容的紧凑总结——并逐步更新它。其连续形式为:
\[ h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t) \]\[ y(t) = \mathbf{C} h(t) \]这里:
- \( x(t) \) = 时间 \( t \) 的输入
- \( y(t) \) = 输出
- \( h(t) \) = 隐藏状态
- \( \mathbf{A}, \mathbf{B}, \mathbf{C} \) 定义了状态如何演变并产生输出
对于深度学习,这些方程被离散化为一个递归形式:
\[ h_t = \overline{\mathbf{A}} h_{t-1} + \overline{\mathbf{B}} x_t \]\[ y_t = \mathbf{C} h_t \]传统的 SSM 会保持 \( \overline{\mathbf{A}} \)、\( \overline{\mathbf{B}} \)、以及 \( \mathbf{C} \) 固定不变。Mamba 的突破在于使它们变得动态——依赖于输入。其选择性扫描机制 (S6) 能够让模型根据内容决定要记住什么或忘记什么。这赋予了 Mamba 类似于注意力的上下文感知能力,但其扩展性却具有线性复杂度。
VideoMamba 架构
VideoMamba 构建在 Vision Transformer (ViT) 简单而有效的架构蓝图之上——但将昂贵的自注意力模块替换为高效的双向 Mamba (B-Mamba) 模块。
图 2: VideoMamba 的框架。视频被切分为 3D 图块,通过 B-Mamba 模块处理,并通过最终的分类头输出结果。
分步解析:
视频到图块 (Patches):
输入视频 \(X^v\) 通过一个小型 3D 卷积被切分成三维时空图块。例如: 跨越多帧的 16×16 像素图块。然后将这些图块展平成一个 token 序列。添加位置嵌入:
\[ \mathbf{X} = [\mathbf{X}_{\text{cls}}, \mathbf{X}] + \mathbf{p}_s + \mathbf{p}_t \]
在序列开头添加一个[CLS]
分类 token,并加入可学习的空间嵌入 (\(\mathbf{p}_s\)) 和时间嵌入 (\(\mathbf{p}_t\)) 以保留位置信息:双向 Mamba 模块:
标准 Mamba 是沿序列前向扫描。而 B-Mamba 则同时进行前向和后向扫描,再融合结果——以捕捉更丰富的空间上下文。
图 3: 标准 Mamba (1D) 与双向 Mamba (2D) 的对比,双向模式对图像和视频等空间信息丰富的数据尤为重要。
扫描 3D 数据: 时空策略
将一维扫描应用到视频的三维网格,需要以某种顺序将其展平。作者尝试了四种方法:
图 4: (a) 空间优先,(b) 时间优先,(c,d) 混合时空扫描。
- 空间优先 (Spatial-First): 先处理第 1 帧的所有图块,然后是第 2 帧,以此类推。
- 时间优先 (Temporal-First): 先处理所有帧中相同位置的图块,然后再进行空间移动。
- 混合模式 (Hybrids): 混合空间与时间的处理顺序。
最佳方案: 空间优先。简单、高效,并且能够利用预训练中学到的 2D 图像知识。
通过自蒸馏缓解过拟合
将 VideoMamba 扩展到更大的变体 (例如 VideoMamba-M) 时,出现了过拟合问题。解决方法是自蒸馏 (Self-Distillation)。
先训练一个表现优异的小型“教师”模型 (如 VideoMamba-S) ,再训练更大的“学生”模型,使其在学习标签的同时也匹配教师模型的特征。这能让大模型保持稳固的基础并具备良好的泛化能力。
图 5: 自蒸馏 (红色曲线) 可以防止过拟合,从而获得更高的最终准确率。
用于运动敏感性的掩码建模
为了增强时间敏感性,作者使用了掩码建模进行预训练——隐藏部分输入并预测它们。标准的随机掩码并不适合 Mamba 的一维卷积结构,因为它更倾向于处理连续的 token。
他们设计了行掩码 (row masking) 策略,即屏蔽整个空间行;并结合注意力掩码 (attention masking) 来保留有意义的邻接关系。
图 6: 定制化的掩码策略提高了预训练效率。
四大核心能力: 可扩展性、敏感性、优越性、兼容性
1. 可扩展性
首先在 ImageNet-1K 上进行测试:
模型 | 参数量 | FLOPs | Top-1 (%) |
---|---|---|---|
VideoMamba-Ti | 7M | 1.1G | 76.9 |
VideoMamba-S | 26M | 4.3G | 81.2 |
VideoMamba-M | 74M | 12.7G | 82.8 |
在分辨率 576×576 下微调 VideoMamba-M,Top-1 准确率进一步提升至 84.0%。
2. 敏感性: 短期动作识别
在 **Kinetics-400 **(场景为主) 数据集上,VideoMamba-M 取得 81.9% —— 比 ViViT-L 高 2.0%,且使用的预训练数据显著减少。
在 **Something-Something V2 **(运动为主) 数据集上,取得 68.3% —— 比 ViViT-L 高 3.0%。
掩码预训练的表现超过了 VideoMAE。
图 7: 空间优先扫描效果最佳;增加帧数往往比提升分辨率更能提高性能。
3. 优越性: 长期视频理解
数据集:** Breakfast **(复杂的烹饪任务) 、**COIN **(教学任务) 、LVU (电影片段) 。
由于计算资源限制,之前的方法通常采用两阶段流程。VideoMamba 的线性复杂度使得端到端训练成为可能。
结果:
- Breakfast — VideoMamba-S: 97.4% Top-1 (SOTA)
- COIN — VideoMamba-S: 88.7% Top-1 (SOTA)
- LVU — 即使是最小的 VideoMamba-Ti,也在许多任务上达到或超过了 SOTA。
4. 兼容性: 多模态视频理解
在大规模视频-文本/图像-文本数据集上进行预训练,并在零样本的文本到视频检索任务中进行测试。
结果优于基于 ViT 的 UMT,尤其是在复杂且篇幅较长的视频 (ActivityNet、LSMDC) 上,验证了其在多模态对齐上的鲁棒性。
结论: 视频 AI 的新纪元
VideoMamba 用线性复杂度的 SSM 取代了二次复杂度的注意力机制,实现了高效性、可扩展性和卓越性能:
- 显著的效率提升 —— 端到端长视频训练成为可能。
- 最先进的性能表现 —— 从短期动作识别到分钟级视频理解皆有突破。
- 可扩展性设计 —— 自蒸馏有效缓解大模型的过拟合。
局限性包括尚未测试超大型配置,以及集成更多模态 (如音频/语言) 以实现小时级视频理解——这两方面都是未来研究的良机。
对研究人员和从业者而言,VideoMamba 标志着一个明确的转变: 视频理解的未来或许将走向超越 Transformer的方向。