引言: “长视频”瓶颈

想象一下要求 AI 观看一部两小时的电影,并回答这个问题: “为什么主角在第二幕开门之前犹豫了?”

对于人类来说,这是一个关于感知和记忆的简单任务。但对于多模态大语言模型 (MLLM) 来说,这是一场计算噩梦。虽然 MLLM 在理解静态图像方面取得了惊人的进步,但将其应用于长视频却面临着巨大的障碍。视频包含成千上万帧图像。将所有这些帧输入到标准 MLLM 中会超出“上下文窗口” (模型一次可以处理的信息量限制) ,甚至让最强大的 GPU 也因过载而崩溃。

目前的解决方案通常涉及稀疏采样 (挑选几个随机帧并忽略其余帧) 或大规模扩展 (使用海量数据集在超级计算机上进行训练) 。但这两种方法都有缺陷: 采样会丢失关键的运动上下文 (“犹豫”可能发生在采样帧之间) ,而大规模扩展则极其昂贵。

在这篇文章中,我们将深入探讨一种名为时间定位桥接 (Temporal Grounding Bridge, TGB) 的新框架。这项研究提出了一种巧妙的方法,利用轻量级的运动特征让 MLLM 能够智能地“浏览”视频,从而在不处理每个像素的情况下精确定位感兴趣的时刻。最令人印象深刻的是,TGB 允许在短片段 (例如 4 帧) 上训练的模型,在无需重新训练的情况下理解长度为其 16 倍的视频——这种能力被称为时间外推 (temporal extrapolation)

背景: 视觉与时间的脱节

要理解为什么需要 TGB,我们需要看看 MLLM 通常如何处理视频。大多数架构将视频视为图像序列。它们使用沉重的视觉编码器 (如 ViT-G) 将帧转换为大语言模型 (LLM) 可以读取的“Token”。

问题在于维数灾难 (Curse of Dimensionality)

  1. 高计算成本: 在数百帧上运行沉重的视觉编码器速度很慢。
  2. 噪声: 视频中的大多数帧都是冗余的,或者与用户的问题无关。
  3. 缺失时间逻辑: 语言模型擅长处理序列,但它们往往难以将视频中时间的流逝映射到语言中的时间概念 (例如“之前”、“之后”、“当……时”) 。

TGB背后的研究人员意识到,我们不需要高分辨率的纹理细节来理解事情发生的时间。我们主要需要了解运动和顺序。这促使他们利用光流 (Optical Flow) ——一种低维度的运动表示——作为视频和语言模型之间的桥梁。

核心方法: 时间定位桥接 (TGB)

TGB 旨在置于原始视频和 MLLM 之间。它充当侦察兵的角色,快速扫描视频,根据用户的文本查询找到最相关的“跨度” (片段) 。只有那些相关的片段才会被沉重的 MLLM 全面处理。

让我们分解一下架构。

TGB 框架概览 (基于 BLIP) 。

如上图 2 所示,工作流程包含几个独特的阶段:

  1. 输入: 系统接收原始视频帧和语言查询 (例如,“她脱掉了什么?”) 。
  2. 轻量级编码: 模型不立即处理高分辨率像素,而是提取光流 (OF) 。 这些是捕捉运动的低维特征。
  3. 时间编码: 这是奇迹发生的地方。模型需要将文本查询与运动特征对齐。
  4. 关键帧选择: TGB 选择能够回答问题的特定时刻 (关键帧) 。
  5. MLLM 处理: 只有选定的关键帧和原始运动特征会被输入到 MLLM (如 BLIP-2) 中,以生成最终的文本答案。

1. 外推式位置编码 (RoPE)

这篇论文最大的贡献之一是解决了“长度外推”问题。标准的 Transformer 在测试输入比训练输入长时会遇到困难,因为它们的位置嵌入 (告诉模型“这是第 1 帧,这是第 2 帧”的标签) 是固定的。

如果你在 10 秒的片段上训练,模型就不会知道“第 5 分钟”是什么样子的。

为了解决这个问题,TGB 对光流特征 (\(E_{of}\)) 和语言特征 (\(E_{l}\)) 都采用了旋转位置编码 (Rotary Position Embedding, RoPE) 。 RoPE 将位置编码为几何空间中的旋转,而不是绝对值。这使得模型能够理解帧之间的相对距离,从而更好地泛化到更长的序列。

公式如下:

RoPE 编码公式

这里,光流和语言特征基于它们的位置 (\(Pos_{of}\) 和 \(Pos_{l}\)) 进行旋转。这个数学技巧是 TGB 能够在 4 帧上训练并在 64 帧上成功测试的关键原因。

2. 多跨度关键帧选择

TGB 如何决定哪些帧是重要的?它将这个问题视为一个多跨度阅读理解 (Multi-Span Reading Comprehension) 任务。

想象视频时间轴是一个句子,用户问题的“答案”是该句子中的特定短语 (片段) 。TGB 使用交叉注意力机制将查询与运动特征进行比较。然后,它预测相关片段的“开始”和“结束”点。

跨度选择公式

这里,\(\mathcal{F}_{\theta}\) 是阅读理解头,用于预测某一帧作为开始点或结束点的概率。

为什么这比以前的方法更好?许多旧方法使用“滑动窗口” (检查每一个可能的 5 秒片段) 或“锚框” (预定义的片段) 。

多跨度 RC 预测与其他方法的比较

如图 3 所示:

  • 滑动窗口 (a) & 提议法 (b): 计算成本高昂 (\(O(K)\) 或 \(O(N*K)\)) ,因为它们处理重叠的冗余数据。
  • 多跨度预测 (d): 这是 TGB 的方法。它只扫描一次时间轴 (相对于提议法,空间复杂度为 \(O(1)\)) ,并直接精确定位开始/结束索引。它速度更快,并且在事件粒度上更灵活。

3. 自举框架 (The Bootstrapping Framework)

视频研究中存在一个主要的后勤问题: 数据稀缺 。 我们有数百万个图像-文本对,但拥有精确时间戳 (时间定位标注) 的视频数据集非常少。人工标注既慢又贵。

TGB 通过自举 (Bootstrapping) 策略规避了这一点。它假设我们没有真实的基准时间戳。相反,它利用 MLLM 本身来“教” TGB。

  1. 伪标签 (Pseudo-Labeling) : 对于给定的视频和问题,系统要求 MLLM 检查随机帧。如果 MLLM 通过查看第 50 帧回答正确,那么第 50 帧很可能是一个“好”的关键帧。
  2. 联合训练 (Joint Training) : 系统生成“伪标签” (估计的正确时间戳) 并训练 TGB 来预测它们。

为了使其可微分 (以便我们可以一次性训练整个网络) ,他们使用了 Gumbel-Softmax 技巧:

Gumbel Softmax 公式

这允许模型采样离散的跨度 (硬决策) ,同时仍然允许梯度反向传播以进行训练 (软更新) 。

实验与结果

研究人员在七个不同的基准测试中验证了 TGB。结果突出了两个主要优势: 效率泛化能力

参数效率与外推能力

首先,让我们看看模型大小与准确性之间的权衡。

TGB 的训练效率和长度外推能力

图表 A (左) 中,我们看到 TGB (红星) 在 AGQA 基准测试中实现了最高的准确率 (~60%) ,而与其相比,像 MIST-CLIP 或 SEVILA 这样的模型使用了更多的可训练参数 (TGB 仅使用了约 2M) 。

图表 B (右) 可能是最令人兴奋的结果。它展示了“零样本帧外推”。

  • 模型是在短上下文 (T-4 意味着 4 帧) 上训练的。
  • 随着输入视频长度的增加 (最多 60 帧) ,标准模型如 PLLaVA 和 VideoLLaVA (蓝线和绿线) 的性能迅速下降。
  • TGB (红线) 即使在视频长度增加 16 倍时也能保持稳定的性能。这证实了 RoPE 集成和光流桥接的有效性。

基准测试性能

它与标准数据集上的最先进水平 (SOTA) 相比如何?

AGQA 2.0 (复杂时空推理) :

表 1: 不同基于采样的 SOTA 模型在 AGQA 2.0 上的准确率比较。

在表 1 中,TGB 被应用于不同的基础模型 (ALBEF, VIOLET, BLIP2) 。

  • BLIP2 达到了 54.00%。
  • TGB-BLIP2 跃升至 61.45%
  • 它明显优于基于检索的模型,甚至优于最近的视频专用模型如 SeViLA。“顺序 (Sequencing) ”和“对象-动作 (Object-Action) ”任务中的巨大收益证明了模型真正理解了时间动态,而不仅仅是基于单帧进行猜测。

EgoSchema (超长视频) :

表 3: EgoSchema 子集上的零样本结果

EgoSchema 是一个出了名困难的基准测试,涉及非常长的第一视角视频。在零样本设置下 (表 3) ,TGB-BLIP2 优于 Video-LLaVA,尽管 Video-LLaVA 是明确在视频指令数据上训练过的。

计算效率

人们可能会担心添加“桥接”层会增加延迟。然而,由于该桥接使用低维光流,其成本与沉重的 MLLM 相比微不足道。

推理时间分析

虽然这里的饼图视觉细节不多,但论文中的数据 (以及文中的总结) 显示, LLM 和特征提取器 消耗了绝大多数的推理时间。TGB 采样器本身非常快。通过选择更少、更相关的帧,TGB 实际上减少了重型组件所需的总计算量,使整个系统比在密集帧上运行 MLLM 更高效。

定性分析: TGB “看”到了什么?

可视化定位过程非常有帮助。

时间定位的定性结果

在图 5 中,我们可以看到 TGB 的实际表现:

  • 顶部示例: 问题问到: “为什么女孩在开始时向前弯腰?” 模型成功地关注了时间轴的早期部分 (左侧的热力图是活跃的) ,此时女孩正在捡起皮带。
  • 底部示例: “为什么女士在走动时身体微微前倾?” 这里的动作持续时间较长。TGB 正确识别了时间轴上的相关跨度 (推着红色货车) 。

这表明模型不仅仅是在匹配关键词;它正在将问题的语义 (例如“开始时”、“当她走动时”) 定位到视觉时间轴中。

结论与启示

时间定位桥接 (Temporal Grounding Bridge) 代表了视频 LLM 向前迈出的重要一步。通过承认时间是一个独特的维度,需要专门的、轻量级的处理,作者创建了一个具有以下特点的系统:

  1. 可扩展: 处理长视频无需重新训练 (归功于 RoPE) 。
  2. 高效: 使用低维运动线索 (光流) 在数据进入沉重的 MLLM 之前对其进行过滤。
  3. 无需标签: 自举框架使其能够从海量数据集中学习,而无需昂贵的人工时间戳。

对于该领域的学生和研究人员来说,TGB 说明了一个重要的教训: 向问题投入更多数据或更大的上下文窗口并不总是答案。有时,巧妙的架构改变——比如将低级运动特征与高级语言推理连接起来——是解锁新能力的关键。

随着我们迈向需要处理连续视频流的 AI 代理 (如机器人或安防分析师) ,像 TGB 这样将“寻找时刻”与“分析时刻”解耦的架构很可能会成为标准。