想象一下,你正在尝试教计算机在视频中找到特定的时刻——比如“网球挥拍”或“点球”——但你不允许在训练期间向计算机展示这些具体动作的任何视频示例。你只能用文字来描述它们。
这就是零样本时序动作定位 (Zero-Shot Temporal Action Localization, TAL) 的挑战。这是当今计算机视觉领域最困难的问题之一。传统的深度学习模型渴望大量的标记视频数据集。如果你想让一个模型识别“高空跳伞”,通常需要向它展示成千上万个跳伞的片段。但是,收集和标注这些视频数据集既昂贵又耗时,而且不可能扩展到每一个可能的人类动作。
那么,我们如何构建能够识别从未见过的动作的模型呢?
答案在于弥合视觉和语言之间的鸿沟。如果一个模型通过文本理解了一个动作的概念,理论上它应该能够在视频中找到它。然而,文本描述往往过于抽象,导致混淆。
GRIZAL (Generative Prior-guided Zero-Shot Temporal Action Localization,生成式先验引导的零样本时序动作定位) 应运而生。这种由 Yellow.ai、西北大学 (Northwestern University) 和 印度理工学院鲁尔基分校 (IIT Roorkee) 的研究人员提出的新架构采用了一种迷人的方法: 如果模型没有见过数据,通过想象把它创造出来会怎样?
GRIZAL 利用大型语言模型 (如 GPT-4) 和文本到图像模型 (如 DALL-E) 的强大功能,即时生成合成训练样本。通过“想象”动作的样子及其描述,GRIZAL 构建了一个强大的内部表示,使其在未剪辑视频中查找动作的性能超越了最先进的方法。
在这篇深度文章中,我们将探索 GRIZAL 是如何工作的,其“生成式先验”背后的架构,以及为什么给 AI 增加一点想象力会使其更加准确。
问题: 当描述不够用时
为了理解为什么需要 GRIZAL,我们需要先看看当前零样本 TAL 方法的局限性。
大多数现代方法依赖于预训练的视觉-语言模型,如 CLIP。这些模型将图像和文本映射到一个共享的特征空间中。理论上,“狗在叫”的视频帧向量应该与文本字符串“狗在叫”的向量非常接近。
然而,单纯依赖静态的文本到视频匹配有两个主要陷阱:
- 过完备表示 (Over-complete Representation): 模型可能会将视觉特征与太多不同的动作联系起来,因为表示太宽泛了。例如,“人在跑”出现在足球、篮球和田径运动中。如果模型不理解其中的细微差别,它可能会将篮球比赛标记为田径比赛。
- 欠完备表示 (Under-complete Representation): 模型缺乏上下文。像“拉手风琴”这样的一句话可能无法捕捉到手部动作、姿势或乐器从不同角度看的样子。
此外,视频不仅仅是一堆图像;它是关于时间和运动的。标准的 CLIP 模型是在静态图像上训练的,这意味着它们经常错过动作的时间动态——即“流 (flow)”。

如上方 图 1 所示,像 STALE (第二行) 这样的基线方法经常在这些问题上挣扎。热力图代表了模型认为动作发生的位置。你可以看到 STALE 产生的激活是分散且不准确的。它很难精确定位“举重 (Weight Lifting)”或“网球挥拍 (Tennis Swing)”的开始和结束时间。
然而,GRIZAL (最后一行) 产生了一个紧凑、准确的热力图,几乎与真值 (Ground Truth,绿色条) 完美对齐。它是如何达到这种精度的?答案是通过生成式 AI 来弥补数据的缺失。
核心概念: 生成式先验 (Generative Priors)
GRIZAL 背后的假设简单而有力: 多样性带来泛化能力。
如果你只告诉模型“找一个滑雪的人”,它得到的语言线索非常狭窄。但如果你使用 GPT-4 生成详细的描述 (“滑雪者处于蹲伏姿势”、“雪从滑雪板上飞溅”、“滑雪杖插在雪中”) ,并使用 DALL-E 生成滑雪逼真的图像,你就为模型提供了一个丰富、多模态的“先验”知识库。
这充当了一种合成数据增强的形式。即使模型在训练期间从未见过真实的滑雪视频,它也通过这些生成模型生动地“想象”了它。
让我们拆解架构来看看这是如何实现的。
深入 GRIZAL 架构
GRIZAL 不仅仅是一个单一的网络;它是一个由三个协同工作的不同模块组成的复杂系统。

如 图 2 所示,该架构分为:
- 视觉-语言嵌入 (VLE) 模块: 处理生成式“想象”。
- 光流嵌入 (OFE) 模块: 处理运动和时间动态。
- 主流 (Mainstream) 模块: 融合所有信息以做出最终预测的中央处理器。
1. 视觉-语言嵌入 (VLE) 模块
这是发生“零样本”魔法的核心操作区。
当系统需要查找一个动作标签 (Action Label, AL),例如“弹吉他”时,它不仅仅是查找那个字符串。
- 文本生成: 它将标签输入给文本生成器 (GPT-4)。GPT-4 生成多个在不同上下文中描述该动作的多样化句子。
- 图像生成: 它将标签输入给图像生成器 (DALL-E)。DALL-E 创建该动作的各种视觉描绘。
这些生成的资产充当“外部增强”。然后,它们通过一个联合多模态模型 (本文中特指 GAFFNet) 进行传递。该模型处理生成的图像和文本对,以创建一个密集的、感知上下文的嵌入 (\(Z_{CLS}\))。
这个嵌入 \(Z_{CLS}\) 有效地封装了动作的“概念”。因为它是从多样化的合成数据构建的,所以它比简单的词嵌入要健壮得多。即使没有看过真实的视频,它也理解“弹吉他”涉及手指在指板上、扫弦动作以及特定的物体形状。

图 S.6 展示了这个过程。你可以看到一个简单的提示如何生成描述滑雪技巧 (犁式制动、平行转弯) 的多样化句子,以及多样化的图像 (特写、广角、群像) 。这种丰富性防止了前面提到的“欠完备表示”问题。
2. 光流嵌入 (OFE) 模块
在静态图像中识别动作是一回事;在视频中识别它需要理解运动。一个人拿着高尔夫球杆的静态图像不是“高尔夫挥杆”。挥杆才是那个动作。
为了捕捉这一点,GRIZAL 使用了光流 (Optical Flow) 。 研究人员采用 RAFT 算法从视频中计算光流帧。这些光流帧代表了像素移动的方向和速度。
这些光流帧被编码成特征向量 (\(Z_{optical}\))。这个数据流给模型一种“什么在动以及动得有多快”的感觉,这对于定义动作的开始和结束边界至关重要。
3. 主流模块和 F-Transformer
主流模块是处理实际视频帧 (\(V_{rgb}\)) 的地方。但标准的处理是不够的。模型需要将 RGB 视觉数据与运动数据 (OFE) 和概念数据 (VLE) 相结合。
为了实现这种融合,作者引入了一个名为 F-Transformer (Fourier Transformer,傅里叶变换器) 的新组件。

标准 Transformer 使用自注意力机制将序列的不同部分相互关联。 F-Transformer (如 图 S.5 所示) 通过在频域中操作,更进了一步。
这是分步融合过程:
- 空间混合: RGB 视频特征 (\(Z_{rgb}\)) 与概念嵌入 (\(Z_{CLS}\)) 使用多头自注意力进行结合。这告诉视频编码器根据文本描述去寻找什么。
- 频域处理: 模型对特征应用快速傅里叶变换 (FFT) 。 为什么?在信号处理中,FFT 将信号分解为其构成频率。在视频分析中,这有助于模型捕捉全局时间模式——即通过逐帧观察变化可能会错过的长期依赖关系。
- 逆 FFT: 一个多层感知机 (MLP) 处理这些频率特征,然后逆 FFT 将它们带回空间域。
- 运动注入: 最后,光流特征 (\(Z_{optical}\)) 通过交叉注意力 (Cross-Attention) 被注入。视频特征查询运动特征以理解场景的动态。
这种复杂的融合确保了 GRIZAL 不仅仅是将关键词与像素匹配;它正在将高层概念与底层运动和视觉模式对齐。
学习目标: GRIZAL 如何学习
GRIZAL 使用监督和自监督损失的组合进行训练。这种双重方法有助于避免仅依赖一种学习类型所带来的偏差。
- 监督损失: 模型使用标准的二元交叉熵 (BCE) 对帧进行分类,并使用时序 IoU (交并比) 损失来确保预测的开始/结束时间与真值匹配。
- 自监督损失: 为了使模型对未见数据具有鲁棒性,它使用了余弦相似度和 InfoNCE 损失。这些损失强制模型将视频帧的嵌入与生成的文本/图像的嵌入对齐。即使没有明确的标签,模型也能学会“狗的视频”和“生成的狗的图像”应该位于同一个数学邻域中。
实验与结果
增加合成想象力真的有帮助吗?研究人员在三个主要基准上测试了 GRIZAL: ActivityNet-v1.3、THUMOS14 和 Charades-STA 。 他们在“开放集 (Open-set)”场景 (测试动作与训练动作完全不同) 和“封闭集 (Closed-set)”场景下进行了测试。
定量优势
结果非常积极。

在开放集场景 (表 1) 中,这也是零样本学习的真正考验,GRIZAL 击败了所有竞争对手。
- 在 ActivityNet 上,GRIZAL 实现了 30.1 的 mIoU (平均交并比) , 显着高于之前的最佳方法 STALE (24.9)。
- “GRIZAL w/o DALL-E” (无 DALL-E) 和 “w/o GPT-4” (无 GPT-4) 这两行特别说明问题。移除生成图像导致性能下降超过 8 个百分点。这通过经验证明,合成图像在帮助模型泛化方面发挥了重要作用。

在封闭集场景 (表 2) 中,GRIZAL 继续大放异彩。即使面对那些以前见过动作的全监督方法,GRIZAL 丰富的表示也使其能够更精确地定位动作。它以很大的优势击败了最接近的基于 CLIP 的竞争对手 (在 ActivityNet 上 mIoU 提高了近 10%) 。
可视化模型的“大脑”
数字固然好,但可视化模型“看到”的内容能提供更深入的见解。研究人员使用 Grad-CAM (Gradient-weighted Class Activation Mapping) 来可视化当给出提示时模型关注视频帧的哪些部分。

在 图 3 中,请看 “Dog is bathing” (狗在洗澡) 这一列。
- 基线模型 (STALE) 重点关注人的手臂 (可能是因为人类在数据集中很常见) 。
- GRIZAL 则直接关注狗的头部和身体。
因为 GRIZAL 使用了各种生成的“狗在洗澡”的图像进行训练,所以它对“狗”有着区别于“人在洗”的更强语义理解,使其能够忽略背景杂乱信息并专注于主体。
多样性的力量
为了进一步证明生成式先验创造了更好的特征空间,作者使用 t-SNE 绘制了特征嵌入图,这是一种用于在 2D 中可视化高维数据的技术。

图 4 比较了嵌入空间。
- 在 VideoCLIP 和 VAC 等方法中,点 (代表不同的动作) 混杂成一团乱麻。这使得分类器很难在“跑步”和“慢跑”之间画出界限。
- 在 GRIZAL 图 (最左侧) 中,聚类清晰且分离良好。合成训练数据的多样性迫使模型学习概念之间更清晰、更具辨别力的边界。
边界的精确度
最后,让我们看看实际输出的时间线。TAL 的目标是准确说出动作何时开始和结束。

在 图 S.7 中,我们看到了预测时间间隔的直接比较。
- 面板 1 (“opens a coat closet” / 打开衣柜): STALE 模型 (中间条) 预测动作在结束后很久还在继续 (0.0秒到14.3秒) 。GRIZAL (底部条) 在 9.1秒停止,更接近真值 (7.0秒) 。
- 面板 4 (“throwing a pillow” / 扔枕头): GRIZAL 完美匹配了真值的结束时间 (10.1秒) ,而 STALE 则严重高估了它。
这种精确度来自于 光流 的集成。通过感知运动何时停止,GRIZAL 知道动作已经结束,而仅基于文本的模型可能仍然看到“枕头”并认为动作正在进行中。
意义何在
GRIZAL 代表了我们在数据有限的情况下进行机器学习方式的重大转变。它不只是简单地寻找更多的标记数据集,而是建议我们可以利用现代 AI 的生成能力来教导其他 AI 模型。
通过使用 GPT-4 和 DALL-E 来“想象”训练数据,GRIZAL 实现了:
- 鲁棒性: 它比以往任何方法都能更好地处理未知类别。
- 上下文: 它通过详细的描述理解动作的细微差别。
- 精确性: 它将这种概念理解与通过光流实现的像素级运动跟踪相结合。
局限性与未来
作者指出,GRIZAL 的性能目前与生成模型 (GPT-4/DALL-E) 的质量挂钩。如果这些模型存在偏差 (例如,只显示男性踢足球) ,GRIZAL 将继承这些偏差。未来的工作旨在探索“无偏见”生成,并可能微调较小的开源生成模型,以减少对付费 API 的依赖。
此外,该团队计划在未来整合 音频 。 声音是动作的一个巨大指示器——球棒的撞击声、溅水声或哨声可以为定位提供更强的线索。
对于计算机视觉的学生和研究人员来说,GRIZAL 是 多模态融合 的一堂大师课。它教会我们,解决视觉问题的最佳方法可能就是向语言模型寻求帮助。
](https://deep-paper.org/en/paper/file-3130/images/cover.png)