GRIZAL 如何利用生成式 AI 掌握零样本视频理解

想象一下，你正在尝试教计算机在视频中找到特定的时刻——比如“网球挥拍”或“点球”——但你不允许在训练期间向计算机展示这些具体动作的任何视频示例。你只能用文字来描述它们。

这就是零样本时序动作定位 (Zero-Shot Temporal Action Localization, TAL) 的挑战。这是当今计算机视觉领域最困难的问题之一。传统的深度学习模型渴望大量的标记视频数据集。如果你想让一个模型识别“高空跳伞”，通常需要向它展示成千上万个跳伞的片段。但是，收集和标注这些视频数据集既昂贵又耗时，而且不可能扩展到每一个可能的人类动作。

那么，我们如何构建能够识别从未见过的动作的模型呢？

答案在于弥合视觉和语言之间的鸿沟。如果一个模型通过文本理解了一个动作的概念，理论上它应该能够在视频中找到它。然而，文本描述往往过于抽象，导致混淆。

GRIZAL (Generative Prior-guided Zero-Shot Temporal Action Localization，生成式先验引导的零样本时序动作定位) 应运而生。这种由 Yellow.ai、西北大学 (Northwestern University) 和印度理工学院鲁尔基分校 (IIT Roorkee) 的研究人员提出的新架构采用了一种迷人的方法: 如果模型没有见过数据，通过想象把它创造出来会怎样？

GRIZAL 利用大型语言模型 (如 GPT-4) 和文本到图像模型 (如 DALL-E) 的强大功能，即时生成合成训练样本。通过“想象”动作的样子及其描述，GRIZAL 构建了一个强大的内部表示，使其在未剪辑视频中查找动作的性能超越了最先进的方法。

在这篇深度文章中，我们将探索 GRIZAL 是如何工作的，其“生成式先验”背后的架构，以及为什么给 AI 增加一点想象力会使其更加准确。

问题: 当描述不够用时

为了理解为什么需要 GRIZAL，我们需要先看看当前零样本 TAL 方法的局限性。

大多数现代方法依赖于预训练的视觉-语言模型，如 CLIP。这些模型将图像和文本映射到一个共享的特征空间中。理论上，“狗在叫”的视频帧向量应该与文本字符串“狗在叫”的向量非常接近。

然而，单纯依赖静态的文本到视频匹配有两个主要陷阱:

过完备表示 (Over-complete Representation): 模型可能会将视觉特征与太多不同的动作联系起来，因为表示太宽泛了。例如，“人在跑”出现在足球、篮球和田径运动中。如果模型不理解其中的细微差别，它可能会将篮球比赛标记为田径比赛。
欠完备表示 (Under-complete Representation): 模型缺乏上下文。像“拉手风琴”这样的一句话可能无法捕捉到手部动作、姿势或乐器从不同角度看的样子。

此外，视频不仅仅是一堆图像；它是关于时间和运动的。标准的 CLIP 模型是在静态图像上训练的，这意味着它们经常错过动作的时间动态——即“流 (flow)”。

图 1: GRIZAL 与基线方法的比较。

如上方 图 1 所示，像 STALE (第二行) 这样的基线方法经常在这些问题上挣扎。热力图代表了模型认为动作发生的位置。你可以看到 STALE 产生的激活是分散且不准确的。它很难精确定位“举重 (Weight Lifting)”或“网球挥拍 (Tennis Swing)”的开始和结束时间。

然而，GRIZAL (最后一行) 产生了一个紧凑、准确的热力图，几乎与真值 (Ground Truth，绿色条) 完美对齐。它是如何达到这种精度的？答案是通过生成式 AI 来弥补数据的缺失。

核心概念: 生成式先验 (Generative Priors)

GRIZAL 背后的假设简单而有力: 多样性带来泛化能力。

如果你只告诉模型“找一个滑雪的人”，它得到的语言线索非常狭窄。但如果你使用 GPT-4 生成详细的描述 (“滑雪者处于蹲伏姿势”、“雪从滑雪板上飞溅”、“滑雪杖插在雪中”) ，并使用 DALL-E 生成滑雪逼真的图像，你就为模型提供了一个丰富、多模态的“先验”知识库。

这充当了一种合成数据增强的形式。即使模型在训练期间从未见过真实的滑雪视频，它也通过这些生成模型生动地“想象”了它。

让我们拆解架构来看看这是如何实现的。

深入 GRIZAL 架构

GRIZAL 不仅仅是一个单一的网络；它是一个由三个协同工作的不同模块组成的复杂系统。

图 2: 由 VLE、OFE 和 Mainstream 模块组成的 GRIZAL 架构。

如 图 2 所示，该架构分为:

视觉-语言嵌入 (VLE) 模块: 处理生成式“想象”。
光流嵌入 (OFE) 模块: 处理运动和时间动态。
主流 (Mainstream) 模块: 融合所有信息以做出最终预测的中央处理器。

1. 视觉-语言嵌入 (VLE) 模块

这是发生“零样本”魔法的核心操作区。

当系统需要查找一个动作标签 (Action Label, AL)，例如“弹吉他”时，它不仅仅是查找那个字符串。

文本生成: 它将标签输入给文本生成器 (GPT-4)。GPT-4 生成多个在不同上下文中描述该动作的多样化句子。
图像生成: 它将标签输入给图像生成器 (DALL-E)。DALL-E 创建该动作的各种视觉描绘。

这些生成的资产充当“外部增强”。然后，它们通过一个联合多模态模型 (本文中特指 GAFFNet) 进行传递。该模型处理生成的图像和文本对，以创建一个密集的、感知上下文的嵌入 (\(Z_{CLS}\))。

这个嵌入 \(Z_{CLS}\) 有效地封装了动作的“概念”。因为它是从多样化的合成数据构建的，所以它比简单的词嵌入要健壮得多。即使没有看过真实的视频，它也理解“弹吉他”涉及手指在指板上、扫弦动作以及特定的物体形状。

图 S.6: 来自 ChatGPT 和 DALL-E 2 的生成式先验示例。

图 S.6 展示了这个过程。你可以看到一个简单的提示如何生成描述滑雪技巧 (犁式制动、平行转弯) 的多样化句子，以及多样化的图像 (特写、广角、群像) 。这种丰富性防止了前面提到的“欠完备表示”问题。

2. 光流嵌入 (OFE) 模块

在静态图像中识别动作是一回事；在视频中识别它需要理解运动。一个人拿着高尔夫球杆的静态图像不是“高尔夫挥杆”。挥杆才是那个动作。

为了捕捉这一点，GRIZAL 使用了光流 (Optical Flow) 。研究人员采用 RAFT 算法从视频中计算光流帧。这些光流帧代表了像素移动的方向和速度。

这些光流帧被编码成特征向量 (\(Z_{optical}\))。这个数据流给模型一种“什么在动以及动得有多快”的感觉，这对于定义动作的开始和结束边界至关重要。

3. 主流模块和 F-Transformer

主流模块是处理实际视频帧 (\(V_{rgb}\)) 的地方。但标准的处理是不够的。模型需要将 RGB 视觉数据与运动数据 (OFE) 和概念数据 (VLE) 相结合。

为了实现这种融合，作者引入了一个名为 F-Transformer (Fourier Transformer，傅里叶变换器) 的新组件。

图 S.5: F-Transformer 的内部结构。

标准 Transformer 使用自注意力机制将序列的不同部分相互关联。 F-Transformer (如 图 S.5 所示) 通过在频域中操作，更进了一步。

这是分步融合过程:

空间混合: RGB 视频特征 (\(Z_{rgb}\)) 与概念嵌入 (\(Z_{CLS}\)) 使用多头自注意力进行结合。这告诉视频编码器根据文本描述去寻找什么。
频域处理: 模型对特征应用快速傅里叶变换 (FFT) 。为什么？在信号处理中，FFT 将信号分解为其构成频率。在视频分析中，这有助于模型捕捉全局时间模式——即通过逐帧观察变化可能会错过的长期依赖关系。
逆 FFT: 一个多层感知机 (MLP) 处理这些频率特征，然后逆 FFT 将它们带回空间域。
运动注入: 最后，光流特征 (\(Z_{optical}\)) 通过交叉注意力 (Cross-Attention) 被注入。视频特征查询运动特征以理解场景的动态。

这种复杂的融合确保了 GRIZAL 不仅仅是将关键词与像素匹配；它正在将高层概念与底层运动和视觉模式对齐。

学习目标: GRIZAL 如何学习

GRIZAL 使用监督和自监督损失的组合进行训练。这种双重方法有助于避免仅依赖一种学习类型所带来的偏差。

监督损失: 模型使用标准的二元交叉熵 (BCE) 对帧进行分类，并使用时序 IoU (交并比) 损失来确保预测的开始/结束时间与真值匹配。
自监督损失: 为了使模型对未见数据具有鲁棒性，它使用了余弦相似度和 InfoNCE 损失。这些损失强制模型将视频帧的嵌入与生成的文本/图像的嵌入对齐。即使没有明确的标签，模型也能学会“狗的视频”和“生成的狗的图像”应该位于同一个数学邻域中。

实验与结果

增加合成想象力真的有帮助吗？研究人员在三个主要基准上测试了 GRIZAL: ActivityNet-v1.3、THUMOS14 和 Charades-STA 。他们在“开放集 (Open-set)”场景 (测试动作与训练动作完全不同) 和“封闭集 (Closed-set)”场景下进行了测试。

定量优势

结果非常积极。

表 1: 开放集场景下与最先进技术的比较。

在开放集场景 (表 1) 中，这也是零样本学习的真正考验，GRIZAL 击败了所有竞争对手。

在 ActivityNet 上，GRIZAL 实现了 30.1 的 mIoU (平均交并比) , 显着高于之前的最佳方法 STALE (24.9)。
“GRIZAL w/o DALL-E” (无 DALL-E) 和 “w/o GPT-4” (无 GPT-4) 这两行特别说明问题。移除生成图像导致性能下降超过 8 个百分点。这通过经验证明，合成图像在帮助模型泛化方面发挥了重要作用。

表 2: 封闭集场景下的比较。

在封闭集场景 (表 2) 中，GRIZAL 继续大放异彩。即使面对那些以前见过动作的全监督方法，GRIZAL 丰富的表示也使其能够更精确地定位动作。它以很大的优势击败了最接近的基于 CLIP 的竞争对手 (在 ActivityNet 上 mIoU 提高了近 10%) 。

可视化模型的“大脑”

数字固然好，但可视化模型“看到”的内容能提供更深入的见解。研究人员使用 Grad-CAM (Gradient-weighted Class Activation Mapping) 来可视化当给出提示时模型关注视频帧的哪些部分。

图 3: 比较 STALE 和 GRIZAL 的 Grad-CAM 可视化。

在 图 3 中，请看 “Dog is bathing” (狗在洗澡) 这一列。

基线模型 (STALE) 重点关注人的手臂 (可能是因为人类在数据集中很常见) 。
GRIZAL 则直接关注狗的头部和身体。

因为 GRIZAL 使用了各种生成的“狗在洗澡”的图像进行训练，所以它对“狗”有着区别于“人在洗”的更强语义理解，使其能够忽略背景杂乱信息并专注于主体。

多样性的力量

为了进一步证明生成式先验创造了更好的特征空间，作者使用 t-SNE 绘制了特征嵌入图，这是一种用于在 2D 中可视化高维数据的技术。

图 4: 显示特征聚类的 t-SNE 图。

图 4 比较了嵌入空间。

在 VideoCLIP 和 VAC 等方法中，点 (代表不同的动作) 混杂成一团乱麻。这使得分类器很难在“跑步”和“慢跑”之间画出界限。
在 GRIZAL 图 (最左侧) 中，聚类清晰且分离良好。合成训练数据的多样性迫使模型学习概念之间更清晰、更具辨别力的边界。

边界的精确度

最后，让我们看看实际输出的时间线。TAL 的目标是准确说出动作何时开始和结束。

图 S.7: 展示边界定位能力的定性图。

在 图 S.7 中，我们看到了预测时间间隔的直接比较。

面板 1 (“opens a coat closet” / 打开衣柜): STALE 模型 (中间条) 预测动作在结束后很久还在继续 (0.0秒到14.3秒) 。GRIZAL (底部条) 在 9.1秒停止，更接近真值 (7.0秒) 。
面板 4 (“throwing a pillow” / 扔枕头): GRIZAL 完美匹配了真值的结束时间 (10.1秒) ，而 STALE 则严重高估了它。

这种精确度来自于光流的集成。通过感知运动何时停止，GRIZAL 知道动作已经结束，而仅基于文本的模型可能仍然看到“枕头”并认为动作正在进行中。

意义何在

GRIZAL 代表了我们在数据有限的情况下进行机器学习方式的重大转变。它不只是简单地寻找更多的标记数据集，而是建议我们可以利用现代 AI 的生成能力来教导其他 AI 模型。

通过使用 GPT-4 和 DALL-E 来“想象”训练数据，GRIZAL 实现了:

鲁棒性: 它比以往任何方法都能更好地处理未知类别。
上下文: 它通过详细的描述理解动作的细微差别。
精确性: 它将这种概念理解与通过光流实现的像素级运动跟踪相结合。

局限性与未来

作者指出，GRIZAL 的性能目前与生成模型 (GPT-4/DALL-E) 的质量挂钩。如果这些模型存在偏差 (例如，只显示男性踢足球) ，GRIZAL 将继承这些偏差。未来的工作旨在探索“无偏见”生成，并可能微调较小的开源生成模型，以减少对付费 API 的依赖。

此外，该团队计划在未来整合音频。声音是动作的一个巨大指示器——球棒的撞击声、溅水声或哨声可以为定位提供更强的线索。

对于计算机视觉的学生和研究人员来说，GRIZAL 是 多模态融合 的一堂大师课。它教会我们，解决视觉问题的最佳方法可能就是向语言模型寻求帮助。

问题: 当描述不够用时#

核心概念: 生成式先验 (Generative Priors)#

深入 GRIZAL 架构#

1. 视觉-语言嵌入 (VLE) 模块#

2. 光流嵌入 (OFE) 模块#

3. 主流模块和 F-Transformer#

学习目标: GRIZAL 如何学习#

实验与结果#

定量优势#

可视化模型的“大脑”#

多样性的力量#

边界的精确度#

意义何在#

局限性与未来#