AI 能通过“脑补”深度和姿态来抓捕犯罪吗?深入解析 PI-VAD
想象一下,你正注视着一家繁忙商店的监控画面。你看到一位顾客拿起一件商品,看了看,然后把它放进包里。这是正常的购物行为,还是入店行窃?
对于人类观察者来说,上下文至关重要。他们有没有紧张地四处张望?他们是否使用了个人扫描仪扫描商品?对于仅依赖像素数据 (RGB) 的标准计算机视觉模型来说,“购买”和“偷窃”之间的视觉差异微乎其微,令人沮丧。两者都涉及伸手、抓取和装袋。
这就是弱监督视频异常检测 (WSVAD) 的核心问题。传统模型在处理复杂的、以人为中心的异常时往往表现挣扎,因为它们依赖于单一模态: 视觉 RGB 帧。它们缺乏区分打斗与舞蹈、或事故与交通拥堵所需的细微“感知能力”。
在最近的一篇 CVPR 论文中,研究人员引入了一个名为 PI-VAD (或 \(\pi\)-VAD) 的突破性框架。他们的方法非常引人入胜: 训练模型仅使用标准视频帧来“脑补” (hallucinate) 五种不同的感官模态——如深度、姿态和光流。通过在训练过程中诱导这些多模态能力,该模型实现了最先进的异常检测,且在部署时无需昂贵的计算开销。
在这篇深度文章中,我们将探索 PI-VAD 如何教会一个简单的视频模型以多传感器阵列的复杂性来观察世界。
单模态视觉的局限性
在剖析解决方案之前,我们必须了解瓶颈所在。大多数现有的视频异常检测系统都是单模态的。它们接收视频流 (RGB 帧) 并试图将片段分类为正常或异常。
这对于明显的事件 (如大规模爆炸或高速车祸) 效果尚可。然而,现实世界的监控很少如此具有戏剧性。它涉及细微的人类行为。

如上图 图 1 (a) 所示,不同的异常通过不同的线索显现:
- 虐待和逮捕: 这些动作幅度很大。光流 (Optical flow,跟踪运动模式) 在这里大放异彩。
- 细微动作: 姿态估计 (Pose estimation,跟踪身体关节) 和 深度 (Depth,3D 距离) 可以检测到标准运动跟踪可能错过的攻击性或异常肢体语言。
- 上下文: 全景分割掩码 (Panoptic masks,分割对象) 和 文本 (Text,语义描述) 帮助模型理解场景上下文——这是一家商店吗?还是一条街道?
问题在于,同时运行五六个深度学习模型 (一个用于姿态,一个用于深度,一个用于分割等) 在计算上非常昂贵。这破坏了闭路电视 (CCTV) 系统所需的实时能力。
这引出了研究人员的核心问题: 我们能否训练一个模型,让它受益于所有这些模态,但在运行时却像只使用 RGB 那样高效?
PI-VAD 登场: 多模态诱导 Transformer
研究人员提出了 PI-VAD , 这是一个使用“教师-学生” (Teacher-Student) 架构的框架。核心创新是一个被称为 多模态诱导器 (Poly-modal Inductor, PI) 的组件。
以下是高层次的直观理解:
- 训练阶段: 你可以访问丰富的数据集,并在其中预先计算所有内容——姿态、深度、掩码、光流和文本描述。你使用这些丰富的数据来教导“学生”网络。
- 推理阶段 (现实世界) : “学生”网络在从丰富数据中学习后,现在只观察简单的 RGB 视频,并在内部“脑补”缺失的模态以做出预测。
架构概览
让我们看看这些部分是如何组合在一起的。

如 图 2(a) 所示,系统分为两条路径:
- 教师 (固定) : 一个预训练的标准 VAD 模型。它提供稳定的基线特征 (\(\mathcal{F}_{teach}\)) 。
- 学生 (学习者) : 这是我们正在训练的模型。它接收 RGB 输入 (\(\mathcal{F}_{RGB}\)) 并将其通过 多模态诱导器 。
学生试图检测异常,但它不断受到两股力量的纠正: 地面真值 (ground truth) 数据和从多模态集成中蒸馏出的知识。
机器的核心: 多模态诱导器 (PI)
多模态诱导器是奇迹发生的地方。它旨在接收标准 RGB 特征并注入多模态智慧。它由两个新颖的模块组成:
- 伪模态生成 (Pseudo Modality Generation, PMG)
- 跨模态诱导 (Cross Modal Induction, CMI)
让我们逐步分解这些模块。
1. 伪模态生成 (PMG)
标准的多模态方法要求你在运行时运行姿态估计器 (如 YOLO-pose) 或深度估计器 (如 DepthAnything) 。PMG 绕过了这一点。
PMG 模块充当翻译器。它获取学生的 RGB 特征,并试图重构其他五种模态的嵌入。它实际上是在问: “基于这些像素,深度图会是什么样子?姿态骨架会是什么样子?”
为了训练这一点,研究人员仅在训练阶段使用从现成的预训练模型 (如用于文本的 CLIP,用于光流的 RAFT,以及用于掩码的 SAM) 中提取的“地面真值”嵌入。
PMG 的损失函数是一个均方误差,它强制生成的伪嵌入 (\(\hat{e}\)) 与真实的模态嵌入 (\(e\)) 相匹配:

这里,\(j\) 代表特定的模态 (姿态、深度、运动、光流、文本) 。通过最小化这个损失,网络学会了将多模态信息直接压缩到 RGB 处理管道中。
2. 跨模态诱导 (CMI)
既然模型已经生成了这些“伪”模态,它需要智能地组合它们。简单的平均行不通,因为不同的模态可能会发生冲突;例如,一个“静态”场景可能具有很高的语义相关性 (文本) ,但运动 (Motion) 为零。
CMI 模块使用对比学习将这些不同的感知对齐到一个共享空间中。
目标是确保为 帧 A 生成的姿态嵌入在语义上接近 帧 A 的 RGB 特征,并远离 帧 B 的特征。这是通过使用 InfoNCE 损失函数来实现的:

总对齐损失将所有五种模态的损失求和:

一旦对齐,模态就会被串联并通过 Transformer 模块。这使得模型能够使用“注意力”机制来决定当前帧中哪种感知最重要。如果摄像头看到打斗,该机制可能会更多地关注 姿态 和 运动 通道。如果它看到一个被遗弃的包,它可能会关注 全景分割掩码 和 深度。
3. 蒸馏: 让教师满意
最后,为了确保这个花哨的多模态特征向量对异常检测这一特定任务确实有用,学生的输出会被蒸馏。模型最小化其增强特征 (\(\mathcal{F}^*_M\)) 与教师在同一阶段的稳定特征 (\(\mathcal{F}_{teach}\)) 之间的差异:

这个蒸馏过程确保了“脑补”出的特征不会偏离到过于抽象的地步,而是保持立足于视频分析任务。
实验结果: 它有效吗?
研究人员在主要基准数据集上测试了 PI-VAD: UCF-Crime、XD-Violence 和新的 MSAD 数据集。
结果令人印象深刻。PI-VAD 不仅优于单模态 RGB 方法,甚至超越了现有的需要在推理时进行大量计算的多模态方法。

如 表 1 所示,PI-VAD 在 UCF-Crime 上实现了 90.33% 的 AUC (曲线下面积) 。这比最好的纯 RGB 模型有显著提升 (+2.75%) ,甚至优于 VadCLIP,后者是一个使用重型视觉-语言集成的大型模型。
哪些异常受益最大?
汇总数据虽好,但按类别细分才能说明真正的问题。

观察 图 3 , 我们可以看到特定类别的巨大提升:
- 爆炸 (Explosion) : 基线 (UR-DMU) 得分惨淡,仅为 47%。PI-VAD 跃升至 78% 。 这表明多模态上下文 (可能是深度和音频/运动) 帮助模型理解了这一混乱事件。
- 入店行窃 (Shoplifting) : 这是一个因其微妙性而臭名昭著的类别。PI-VAD 取得了显著进步 (从 0.66 到 0.86 )。
- 打斗与抢劫 (Fighting & Robbery) : 这里也看到了持续的改进,这可能由姿态和运动的集成所驱动。
眼见为实: 定性分析
研究人员可视化了异常事件期间不同模态的“潜在激活”。这有效地向我们展示了模型“大脑”正在关注什么。

在 图 4 中,请看最下面一行 (Row-3) 。这些彩色线条代表每种模态的激活强度:
- 入室盗窃-024 (第 2 列) : 注意蓝线( 姿态 )和紫线( 运动 )在入室盗窃发生时的激增。
- 交通事故-127 (第 3 列) : 所有模态同时激增。车祸涉及深度、运动、物体分割和姿态的巨大变化。
- 入店行窃-016 (第 5 列) : 这很有趣。激活度较低且较杂乱,反映了犯罪的隐蔽性,但姿态和深度的结合帮助模型保持了较高的异常评分 (Row-2 中的粉色阴影区域) 。
哪种感官最重要?
是否有一种模态在承担所有的重任?研究人员进行了一项消融实验,一次开启一种模态以观察其影响。

图 5 (上图) 显示, 深度 (橙色线) 和 运动 (棕色线) 通常是单一贡献最大的因素。深度允许模型理解场景的 3D 几何结构,区分前景动作和背景噪声。
然而, 图 6 (下图) 显示,最佳性能 (带三角形的蓝色虚线) 来自 “所有模态” (All Modalities) 。 论文指出,虽然运动对于“打斗”很有用,但它可能在“破坏公物”中失效,而此时语义上下文 (文本) 或对象分割 (掩码) 更为重要。PI-VAD 的力量在于所有五者的协同作用。
结论
这就关于“Just Dance with \(\pi\)!”的论文为计算机视觉的未来提出了一个令人信服的论点: 训练虽然昂贵,但推理必须廉价。
通过将多模态分析的负担转移到训练阶段,PI-VAD 允许轻量级模型部署“重量级”的智能。它本质上是教会一个标准摄像头去想象深度、骨骼姿态和语义上下文,从而使其能够以前所未有的准确性检测入店行窃或虐待等复杂的犯罪行为。
对于 VAD 领域的学生和研究人员来说,结论很明确:
- 对于复杂的现实世界行为, RGB 是不够的 。
- 伪标签和蒸馏可以将来自大规模基础模型 (如 SAM 或 CLIP) 的知识转移到更小的、特定任务的网络中。
- 跨模态对齐至关重要。仅有数据是不够的;你必须强迫模型理解不同数据类型之间的关系。
随着监控环境变得越来越复杂,像 PI-VAD 这样平衡高层理解与实时效率的方法,很可能成为智能视频分析的标准。
](https://deep-paper.org/en/paper/file-2097/images/cover.png)