引言

想象一下,你是一名侦探,正在查看繁忙城市街道的闭路电视录像。几个小时单调的交通流逝而过: 汽车在红灯前停下,行人过马路,雨点落下。突然,有那么三秒钟,一辆车猛烈地转弯,撞上了一辆公交车,然后疾驰而去。

如果你是一个传统的计算机视觉模型,你可能会在该时间戳标记出一个异常分数的“峰值”。但你并不一定知道为什么。是打架吗?是爆炸吗?还是交通事故?此外,要理解这是一起“肇事逃逸”,你需要观看转弯前的时刻以及随后的后果。你需要上下文。

这就是视频异常理解 (Video Anomaly Understanding, VAU) 面临的挑战。虽然检测告诉我们何时出了问题,但理解告诉我们是什么、为什么以及如何发生的

目前的方法在两个主要问题上存在困难。首先,它们缺乏层次化理解 ; 它们要么只看单帧,要么看整个视频,错过了短动作 (一拳) 和长事件 (一场骚乱) 之间的细微差别。其次,处理长视频的计算成本很高。模型通常使用“均匀采样” (例如每秒取一帧) ,这意味着它们可能会眨眼间错过异常实际发生的关键瞬间。

Holmes-VAU 登场了,这是一篇从夏洛克·福尔摩斯那里汲取灵感的新研究论文。就像这位著名侦探忽略无关细节而专注于关键线索一样,Holmes-VAU 使用聚焦异常的时间采样器 (Anomaly-focused Temporal Sampler, ATS) 将其计算能力集中在最重要的地方。结合名为 HIVAU-70k 的海量新基准数据集,该方法拓展了机器理解复杂、长期异常的边界。

图 1: 动机。左图: 对层次化数据的需求。右图: Holmes-VAU 关注富含异常片段的概念。

背景: 从检测到理解

要欣赏 Holmes-VAU,我们必须先看看视频异常检测的现状。

传统检测的局限性

历史上,视频异常检测 (Video Anomaly Detection, VAD) 一直被视为二分类问题或评分任务。模型被训练为每一帧输出一个分数 (0 到 1) 。如果分数很高,那就是异常。

  • 问题所在: 高分并不能告诉你这个异常是有人摔倒还是银行抢劫。
  • “黑盒”: 这些方法缺乏可解释性。在监控或自动驾驶等高风险环境中,知道警报为什么触发与警报本身一样重要。

多模态 VAU 的兴起

最近的进展已转向多模态视频异常理解 。 通过将视觉数据与大型语言模型 (LLM) 相结合,研究人员旨在生成异常的文本描述。然而,现有的多模态基准测试受限于“粒度鸿沟”。它们通常只提供视频级 (总结整个剪辑) 或片段级 (描述几秒钟) 的注释。

现实世界中的异常是分层次的。一场“骚乱” (视频级) 由特定的“冲突” (事件级) 组成,而冲突又由个人的“挥拳”或“投掷” (片段级) 组成。如果没有捕捉这种层次结构的训练数据,模型就难以推理长期上下文。

基础: HIVAU-70k 基准

在构建更好的模型之前,研究人员需要更好的数据。他们推出了 HIVAU-70k , 这是一个大规模基准,旨在教导模型进行层次化“思考”。

数据引擎

人工创建包含 70,000 多个注释的数据集将极其昂贵。作者开发了一个半自动化的“数据引擎”,结合了人类专家的知识和 LLM 的生成能力。

图 2: 数据引擎工作流程。它使用 LLM 从片段级字幕通过事件摘要过渡到视频摘要。

该过程分为三个阶段:

  1. 层次化视频解耦: 标注人员获取长视频 (来自现有的数据集,如 UCF-Crime 和 XD-Violence) 并手动对其进行切片。他们确定异常事件的精确开始和结束时间,将其分解为更短的“片段 (clips)”。

  2. 层次化自由文本标注: 这是构建层次结构的地方。

  • 片段级: 视觉感知模型 (或人类) 为短片段生成字幕 (例如,“一名男子拿着包奔跑”) 。
  • 事件级: LLM 聚合这些片段字幕以总结事件 (例如,“一名嫌疑人逃离抢劫现场”) 。
  • 视频级: LLM 聚合事件摘要以描述整个视频的上下文。
  1. 指令构建: 文本被转换为问答对 (指令) 以训练模型。这些范围从简单的感知 (“视频里有什么?”) 到复杂的推理 (“为什么这被认为是异常?”) 。

数据集统计

结果是一个丰富的数据集,迫使模型学习短期视觉线索与长期语义意义之间的联系。

图 3: HIVAU-70k 统计数据。直方图显示了片段、事件和视频的持续时间和字数分布。

如图 3 所示,该数据集涵盖了广泛的持续时间分布。片段很短 (侧重于即时动作) ,而视频很长 (需要上下文) 。注释涵盖了字幕生成、判断、描述和分析 , 为 AI 提供了全面的训练场。

核心方法: Holmes-VAU

现在,让我们看看“侦探”本身。 Holmes-VAU 是一个多模态系统,旨在高效处理长视频并提供详细的异常解释。

该架构解决了一个特定的瓶颈: 效率与准确性的权衡。

  • 如果你将 5 分钟视频的每一帧都输入 LLM,你会立即耗尽内存和算力。
  • 如果你随机或均匀采样 (例如,每 50 帧取一帧) ,你可能会完全错过异常。

Holmes-VAU 通过聚焦异常的时间采样器 (ATS) 解决了这个问题。

图 4: Holmes-VAU 框架。注意位于中心指导 LLM 的聚焦异常的时间采样器 (ATS)。

1. 视觉和文本编码

系统从标准的特征提取开始。它使用预训练的编码器 (InternVL2) 将视频帧转换为视觉 Token (\(V_i\)),将用户问题转换为文本 Token (\(X_q\))。

公式 1

这里,\(\phi_v\) 代表处理视频帧的视觉编码器。

2. 侦探的直觉: 聚焦异常的时间采样器 (ATS)

这是论文的创新核心。ATS 充当过滤器,决定哪些帧值得 LLM 关注。

步骤 A: 异常评分器 首先,一个轻量级、高效的异常检测网络扫描视频。它为每一帧分配一个异常分数 (\(s_i\))。这个网络运行速度快且成本低。它生成一条时间曲线,其中的峰值表示可能存在异常行为。

步骤 B: 密度感知采样 ATS 没有以固定间隔选取帧,而是将异常分数视为概率分布。直觉很简单: 在异常分数高的地方采样更多帧。

为此,模型计算异常分数的累积和 (\(S_{cumsum}\)):

公式 2

在这个公式中,\(\tau\) 是一个小参数,确保即使是正常区域也能得到一些关注 (这样模型就不会完全忽略上下文) ,但重点仍然主要集中在高分区域。通过在累积曲线的 y 轴上均匀采样,对应的 x 轴 (时间) 点自然会聚集在曲线陡峭的部分——即异常部分。

下面的可视化完美地展示了这一点。请看红色垂直线 (采样帧) 是如何密集地聚集在紫色阴影区域 (真实异常标注) 周围的。

图 F: ATS 可视化。红线表示采样帧,聚集在实际异常 (紫色区域) 周围。

3. LLM 集成与推理

一旦 ATS 选出了“线索”帧,它们就会被投影到语言模型的特征空间中。

公式 3

然后,大型语言模型 (LLM) 接收这些视觉 Token (\(V_i\)) 和用户的文本查询 (\(X_q\)) 来生成响应。因为输入帧是经过智能选择的,LLM 拥有关于异常的高分辨率信息,而不会被成千上万个不相关的背景帧淹没。

公式 4

4. 训练策略

训练是一个两步过程:

  1. 训练评分器: 使用 HIVAU-70k 数据集的帧级标签训练轻量级异常评分器。
  2. 指令微调: 在指令-响应对上微调 LLM (使用 LoRA,一种参数高效技术) 。

公式 5

该损失函数 (\(\mathcal{L}_{AS}\)) 确保评分器能够准确区分正常帧和异常帧,这对于采样步骤的正确运行至关重要。

实验与结果

研究人员在标准数据集 (UCF-Crime 和 XD-Violence) 上测试了 Holmes-VAU,以观察其与竞争对手的对比情况。

异常检测性能

首先,它能简单地发现异常吗?作者将 Holmes-VAU 与最先进 (SOTA) 的方法进行了比较,包括无监督和弱监督方法。

表 1: 检测性能。Holmes-VAU 优于不可解释和可解释的方法。

如表 1 所示,Holmes-VAU 在 XD-Violence 上实现了 87.68% 的 AP (平均精度) ,在 UCF-Crime 上实现了 88.96% 的 AUC。它显着优于以前的可解释方法,如 LAVAD。这证明了“智能采样”不仅节省时间;它实际上通过减少噪声提高了准确性。

推理性能

它能解释为什么吗?团队使用 BLEU、CIDEr 和 METEOR 等指标评估了生成文本的质量。他们将 Holmes-VAU 与通用视频 LLM (如 Video-ChatGPT 和 Video-LLaVA) 进行了比较。

表 2: 推理性能。Holmes-VAU 在片段级、事件级和视频级上均占主导地位。

表 2 中的结果令人震惊。Holmes-VAU 在所有指标上的得分都明显更高。例如,在事件级 CIDEr 指标 (衡量描述与人类共识的匹配程度) 上,Holmes-VAU 得分为 1.519 , 而最接近的竞争对手仅为 0.022 。 这一巨大的差距凸显了通用视频模型根本没有学会异常的“语言”——它们错过了 Holmes-VAU 所捕捉到的微妙线索。

为什么层次结构很重要

层次化数据真的有必要吗?作者进行了消融研究,使用片段 (C)、事件 (E) 和视频 (V) 数据的不同组合来训练模型。

表 3: 层次化数据的消融实验。使用所有三个级别 (C+E+V) 产生最佳结果。

表 3 证实了完整的组合产生了最佳性能。仅在片段上训练可以提高短期感知,但在长期推理上失败。仅在视频上训练则会错过细节。层次结构充当了学习的脚手架。

ATS 的威力

最后,受福尔摩斯启发的采样器是否击败了标准采样?

表 4: 采样器消融实验。即使帧数较少,ATS 也优于均匀采样和 Top-K 采样。

表 4 将 ATS 与均匀采样和 Top-K (仅选取得分最高的帧) 进行了比较。ATS 在每个类别中都获胜。至关重要的是,Top-K 在某些情况下表现比均匀采样更差,因为它过多地关注异常的峰值,而错过了导致异常的上下文。ATS 平衡了焦点与上下文。

定性分析

数字虽然重要,但眼见为实。让我们看看该模型的输出与标准模型 (InternVL2) 的对比。

图 5: 定性比较。Holmes-VAU (右列) 正确识别了基线模型 (中间列) 遗漏或产生幻觉的异常。

在第二行 (街头抗议场景) 中,基线模型产生了细节幻觉或给出了模糊的描述。Holmes-VAU 正确识别了“暴力行为”和“财产损坏”,捕捉到了异常的本质。在最后一行 (正常街道) 中,Holmes-VAU 正确指出“没有异常”,而其他模型则凭空捏造了一场从未发生的车祸。

结论

Holmes-VAU 代表了 AI 理解视频方式的重大进步。通过超越简单的帧级评分并采用时间层次观 , 它弥合了看到像素变化与理解“犯罪”之间的鸿沟。

两个关键要点是:

  1. 数据层次结构是关键: HIVAU-70k 基准表明,要教导模型理解复杂事件,训练数据必须在多个粒度上描述世界——从微观动作到宏观事件。
  2. 专注即效率: 聚焦异常的时间采样器 证明我们不需要处理每一帧来理解视频。我们只需要找到正确的帧。

就像夏洛克·福尔摩斯通过过滤噪声找到信号来破案一样,Holmes-VAU 证明了智能、自适应采样是长期视频理解的未来。这为安全、监控和自动视频分析中的实际应用打开了激动人心的大门,在这些领域,理解“为什么”与检测“是什么”同样至关重要。