](https://deep-paper.org/en/papers/2025-10/2403.06977/images/cover.png)
超越 Transformer:VideoMamba 如何解锁高效的长视频理解
视频的世界正在爆炸式增长。从社交媒体上的短视频到完整的长篇电影,我们正在生成和消费比以往任何时候都多的视频内容。对于人工智能来说,真正理解这些内容是一项艰巨的任务。一个视频可以包含海量的时空信息——从细微的手势到长达数分钟的复杂叙事。 现代视频理解模型的核心挑战归结为两个相互冲突的需求: 效率 — 视频数据量庞大且通常高度冗余。模型必须在不耗尽计算资源的情况下快速处理它。 全局上下文 — 视频不仅仅是孤立的帧。理解它们需要捕捉可能跨越数百或数千帧的依赖关系。 历史性的权衡 多年来,两大模型家族一直占据主导地位: 3D 卷积神经网络 (CNNs): 擅长捕捉局部的时空模式,但在处理长程依赖方面表现不佳。 视频 Transformer: 其自注意力机制让它们能够将每一帧与所有其他帧联系起来——非常适合长程依赖。但缺点是,注意力的二次方复杂度使其在处理长且高分辨率的视频时,速度慢得令人痛苦,且极其消耗内存。 这种权衡留下了一个空白: 我们需要一个像 CNN 一样高效,但又像 Transformer 一样具有全局感知能力的模型。 状态空间模型 (SSM) 应运而生——这是一个源自控制理论的思想。最近,一个名为 Mamba 的突破性模型表明,SSM 能够以线性复杂度对长序列进行建模,其效果可与 Transformer 媲美,而成本仅为其一小部分。这引出了一个诱人的问题:** Mamba 能否用于视频理解?** 一篇新论文——VideoMamba: 用于高效视频理解的状态空间模型——给出了一个响亮的肯定回答。研究人员推出了 VideoMamba,一个纯粹基于 SSM 的架构,它重新定义了实用视频分析领域的最新技术水平。正如你将看到的,这不仅仅是一次渐进式的改进——它是我们思考长视频任务方式的一次根本性转变。 图 1: TimeSformer 与 VideoMamba 的吞吐量和内存比较。对于长视频序列,VideoMamba 的速度可达 6 倍,使用的 GPU 内存可减少 40 倍。 理解状态空间模型 (SSMs) SSM 通过维护一个隐藏状态来对序列进行建模——这个隐藏状态本质上是对迄今为止所见内容的紧凑总结——并逐步更新它。其连续形式为: \[ h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t) \] ...