教机器描述视频：深入解析 SWINBERT

你是否曾好奇过，像 YouTube 这样的平台是如何自动为视频生成字幕的？这项任务——称为 **视频字幕生成 **(video captioning) ——是计算机视觉与自然语言处理交叉领域中一个引人入胜的挑战。它要求机器不仅能够看到视频中发生的内容，还要理解一系列动作，并用清晰、连贯、接近人类的语言进行描述。

多年来，标准的方法就像工厂流水线:

首先，一个预训练的神经网络从视频帧中提取视觉特征。
然后，一个独立的语言模型将这些特征转化为句子。

问题在于——视觉模型往往是为完全不同的任务 (例如静态图像分类) 而训练的，它的知识是“冻结”的，并不会针对视频字幕生成任务的细微需求进行调整。这种脱节限制了生成字幕的丰富性和准确性。

微软的研究论文《SWINBERT: End-to-End Transformers with Sparse Attention for Video Captioning》提出了一个重大转变: 相比笨重的两阶段系统，采用一个单一、统一的模型，完全由 Transformer 构建，并进行 端到端 训练，从原始视频像素直接生成文字。这种方式让模型能够形成深度、特定任务的理解。此外，SWINBERT 引入了一种优雅的机制——可学习的稀疏注意力掩码，用于解决视频序列中的冗余问题。

在本文中，我们将深入解析 SWINBERT 的创新，探讨它如何打破传统并实现当前最佳 (state-of-the-art) 成果，以及其设计理念为何对未来的视频理解至关重要。

旧的两阶段视频字幕生成流程与新的端到端 SWINBERT 架构的比较。SWINBERT 使用单一的、完全基于 Transformer 的模型和稀疏注意力机制。

图 1: 传统方法 (a) 使用冻结的特征提取器，导致信息脱节。SWINBERT (b) 是一个统一的、端到端的 Transformer 模型，直接针对字幕生成任务进行训练，并利用稀疏注意力掩码高效处理长序列。

传统方法: 冻结特征与脱节的学习

如图 1(a) 所示，传统的视频字幕生成流程包括:

视频特征提取器: 强大的卷积网络 (如 ResNet、Inception) ，在大型图像数据集或动作识别数据上预训练。可能会使用多个提取器——一个用于 2D 外观 (物体、场景) ，另一个用于 3D 动作 (行为) 。
字幕生成模块: 序列模型，通常是 RNN 或 Transformer，以视觉特征为输入生成字幕。

局限在于这些模块之间的“梯度阻断”边界。视觉特征是固定的 (针对其他任务优化) ，字幕生成模型只能使用给定的特征，无法根据自身需求优化它们。

这种设置计算上方便，却并非最佳。例如，识别静态图片中的“洋葱”所需的特征，与描述“一位厨师正在细切青葱”这一动态过程所需的特征差异巨大。

SWINBERT: 统一的端到端 Transformer

受 Transformer 在语言 (BERT、GPT) 和视觉 (Vision Transformer、Swin Transformer) 领域成功的启发，SWINBERT 用一个纯 Transformer 架构替代了旧的流程。整个系统——从像素到文字——联合优化，专门针对字幕生成任务。

让我们跟随图 2 了解其架构。

SWINBERT 框架概览。视频帧输入到 Video Swin Transformer 生成视频 token，再与词语 token 组合，由多模态 Transformer 编码器处理，并以可学习的稀疏注意力掩码进行正则化。

图 2: SWINBERT 包含一个 Video Swin Transformer 编码视频，以及一个多模态 Transformer 融合视频与文本。可学习的稀疏注意力掩码用于正则化视频 token 之间的注意力。

步骤 1: Video Swin Transformer 视觉编码

Video Swin Transformer (VidSwin) 是模型的视觉编码器。它针对时空输入设计，将视频帧序列划分为三维小块 (patch) 网格——同时捕捉空间细节与时间动态。

VidSwin 输出视频 token: 带有上下文信息的特征向量，每个向量代表视频在空间及时间上的一个片段。端到端训练使 VidSwin 能够依据字幕生成的需求微调特征表示——例如，如果微妙的手部动作有助于生成更好的字幕，它会强化对这些动作的编码。

步骤 2: 融合视觉与语言

多模态 Transformer 编码器是模型的推理核心。它接收来自 VidSwin 的视频 token 和字幕生成中的词语 token，对它们应用全局自注意力。

这种机制实现了跨模态融合: 例如，词语 token “狗”可以关注到包含狗的特定视频 token，而“摇尾巴”的 token 则会影响生成“高兴地”等表述。

训练过程采用掩码语言建模 (Masked Language Modeling, MLM) : 随机将字幕中的部分词替换为 [MASK] token，模型必须结合视觉与文本上下文预测这些词。这强化了语言与视觉内容的紧密联系。

解决冗余: 可学习的稀疏注意力掩码

密集采样视频帧有助于提升字幕质量，但也引入冗余。背景可能在数百帧内保持静止，而标准 Transformer 在处理这些帧时需付出平方级的计算成本。

SWINBERT 引入可学习的稀疏注意力掩码来高效筛选视频 token 的交互。它不采用视频 token 间的全连接注意力，而是由一个可学习矩阵 \(V\) 控制连接关系。稀疏性正则化惩罚项鼓励矩阵的大部分元素为零:

稀疏性损失函数方程，通过惩罚注意力掩码 V 中的绝对值来鼓励稀疏性。

这种设计促使模型优先处理具有丰富变化的视觉内容 (例如移动物体) 之间的连接，同时减少对静态背景的关注。结果是更快、更高效的长序列建模，以及更优的字幕生成效果。

成果: SWINBERT 的实际表现

在 MSVD、YouCook2、MSRVTT、TVC、VATEX 五个基准数据集上，SWINBERT 相比之前的最佳系统取得了显著提升。

表格比较 SWINBERT 在五个数据集上的性能 (CIDEr 分数) 与先前方法的对比，显示出大幅提升。

SWINBERT 取得了显著提升，尤其是在 YouCook2 (+55.4 CIDEr) 和 MSVD (+25.4 CIDEr) 上表现突出。CIDEr 衡量生成字幕与人工标注字幕的相似度。

密集帧提升字幕质量

一项从 2 帧到 64 帧的消融实验显示了明显趋势:

表格显示随着帧数增加，CIDEr 分数稳定提升。

表 4a (节选) : 帧数越多，CIDEr 分数越高，验证了密集采样与高效建模的结合效果。

稀疏注意力提升性能

比较实验揭示了稀疏性约束的作用:

全注意力: 基线模型。
可学习掩码，无稀疏性损失: 注意力模式近似随机。
完整 SWINBERT: 可学习掩码 + 稀疏性损失。

表格显示带有稀疏性损失的 SWINBERT 优于基线与无约束掩码。

表 4b (节选) : 稀疏性损失在 CIDEr 分数上超过了全注意力和不加约束的掩码。

手工设计的掩码 (如滑动空间或时间窗口) 效果不及学习到的掩码，凸显了 SWINBERT 的自适应优势。

可学习注意力的可视化

学习到的稀疏注意力掩码的可视化。背景区域的边界 token 注意力稀疏，动态动作区域的 token 注意力密集。

图 3: 由于背景静止，边界区域的 token 在时间维度上的注意力较稀疏；而中心区域的 token 则更密集地跟踪动态动作。

训练过程中，非零掩码条目比例下降到 5% 以下，同时字幕分数持续上升:

图表显示非零注意力比例下降的同时 CIDEr 分数持续提高。

图 4: 稀疏性约束有效修剪注意力掩码，不仅没有削弱字幕性能，反而有所提升。

定性示例

不同数据集的视频帧示例及 SWINBERT 生成的准确字幕。

图 5: SWINBERT 能精准捕捉物体、动作及互动——例如“给肉调味”、“狗在吃西瓜”。

从烹饪视频到体育赛事再到日常生活，SWINBERT 生成的字幕语义丰富且自然。

结论: 未来视频-语言模型的蓝图

SWINBERT 在视频字幕生成中实现了重要突破:

端到端学习——让视觉表示学习紧密契合语言生成需求。
密集帧利用——提供更丰富的时序上下文，生成更细致的描述性字幕。
自适应稀疏注意力——高效处理长序列，聚焦最相关的视觉细节。

它的成功不仅树立了新的性能标杆，还提供了可能影响下一代视频-语言模型的设计理念。带有自适应注意力的端到端架构将推动机器更深层次地理解动态视觉世界——为能够观看、理解并描述的更强大 AI 铺平道路。

传统方法: 冻结特征与脱节的学习#

SWINBERT: 统一的端到端 Transformer#

步骤 1: Video Swin Transformer 视觉编码#

步骤 2: 融合视觉与语言#

解决冗余: 可学习的稀疏注意力掩码#

成果: SWINBERT 的实际表现#

密集帧提升字幕质量#

稀疏注意力提升性能#

可学习注意力的可视化#

定性示例#

结论: 未来视频-语言模型的蓝图#