引言

在通往通用人工智能 (AGI) 的竞赛中,多模态大语言模型 (MLLMs) 已成为舞台的焦点。我们已经目睹了像 GPT-4V 和 Gemini 这样的模型在理解静态图像方面表现出令人难以置信的熟练程度——它们能够描述复杂的场景、阅读手写文字,甚至解释网络迷因 (memes) 。然而,现实世界并非一系列凝固的快照;它是一个由视觉、听觉和文本信息组成的动态、连续的流。

为了真正逼近人类水平的感知能力,人工智能必须掌握视频分析 。 但这存在一个巨大的鸿沟: 尽管 MLLM 的发展突飞猛进,用于测试它们的基准测试却相对滞后。现有的视频基准测试大多关注短片段 (通常只有几秒钟长) ,或者缺乏使视频成为如此丰富媒介的多样化数据模态 (如字幕和音频) 。

Video-MME 应运而生,这是由中国科学技术大学、厦门大学、香港大学等机构的研究人员在最近的一篇论文中引入的突破性基准测试。Video-MME 代表了首个专门为视频分析中的 MLLM 设计的全方位综合评估。通过使用从 11 秒到 1 小时不等的视频,并结合字幕和音频来挑战模型,这项研究清醒地审视了当前 AI 的水平——以及在处理长形式时序数据方面仍然存在的巨大障碍。

当前基准测试的问题

在深入了解 Video-MME 之前,有必要了解为什么需要一个新的基准测试。此前评估 AI 视频理解能力的努力受到三个主要限制的约束:

  1. 时长有限 (Limited Duration) : 像 MSRVTT-QA 或 MSVD-QA 这样的基准测试通常使用平均时长在 10 到 15 秒之间的视频。虽然这对于检查模型是否能识别动作 (例如“跑步”) 很有用,但这些片段无法测试模型在较长时间段内跟踪叙事或上下文的能力。
  2. 缺乏多样性 (Lack of Diversity) : 许多数据集专注于特定领域,例如教学视频 (How2QA) 或第一人称视角 (EgoSchema) ,缺乏对电影、体育或新闻等现实世界场景的广泛代表性。
  3. 模态缺失 (Missing Modalities) : 视频很少仅仅是视觉的。它包含对话 (字幕) 和环境声音 (音频) 。大多数以前的基准测试忽略了这些层级,迫使模型仅依赖视觉,但这并不是人类消费视频内容的方式。

下表展示了 Video-MME 与这些前作的对比。请注意“平均时长 (Average Duration) ”的显著跃升以及对“字幕和音频 (Subtitle & Audio) ”的支持。

表 1 将 Video-MME 与 MSRVTT-QA 和 TGIF-QA 等先前基准进行了比较。

构建 Video-MME: 全方位的方法

为了填补这些空白,研究人员构建了 Video-MME,重点关注多样性、时长和数据广度。

1. 领域多样性

该数据集不仅仅依赖单一来源或体裁。它跨越了 6 个主要视觉领域 , 并细分为 30 个子领域 。 这些包括:

  • 知识 (Knowledge) : 科技、人文等。
  • 影视 (Film & Television) : 电影、电视剧。
  • 体育竞技 (Sports Competition) : 篮球、足球等。
  • 艺术表演 (Artistic Performance) : 魔术表演、杂技。
  • 生活记录 (Life Record) : Vlog、旅行。
  • 多语言 (Multilingual) : 服务于不同语言语境的视频。

这种层级结构确保了模型无法仅通过过拟合特定类型的视频内容来获得高分。

显示 Video-MME 中视频类别分布和视频长度分布的图表。

2. 时域时长

Video-MME 最关键的贡献可能在于其对视频长度的分类。数据集分为:

  • 短视频: 11 秒到 2 分钟。
  • 中等视频: 4 到 15 分钟。
  • 长视频: 30 到 60 分钟。

如上图所示,数据集在这些长度之间保持了均衡的分布。这种结构使研究人员能够精确地找出模型失败的地方。它是否能很好地处理 TikTok 风格的短片,却忘记了一小时纪录片的开头?这种分段对于诊断现代 LLM 的“上下文窗口”限制至关重要。

3. 高质量标注

自动化基准测试通常受噪声影响。为了确保可靠性,Video-MME 采用了严格的人工标注。专家标注员观看了所有 900 个视频,并创建了 2,700 个多项选择题 (每个视频 3 个) 。

这些问题不是简单的“车是什么颜色”的查询。它们旨在测试 感知 (Perception) (识别物体) 、推理 (Reasoning) (推断某事发生的原因) 和 概要 (Synopsis) (总结事件) 。

Video-MME 问题示例,展示了时间线和复杂的推理要求。

请看上图 1 中的示例。

  • 左侧示例: 模型必须识别特定日期。为此,它必须读取时间戳 (“Day 1 is May 31”) ,听音频或看字幕以识别地点 (“Yosemite/优胜美地”) ,并执行算术运算以确定出发日期。
  • 右侧示例: 问题询问一名男子是如何受伤的。答案需要将 03:35 标记处的场景 (受伤) 与 27:30 处角色带着绷带再次出现的场景联系起来。

这需要时序逻辑 (temporal logic) ——即在近 30 分钟内将信息保存在记忆中并连接两个遥远事件的能力。

4. 质量控制和“凭证长度”

为了验证问题确实需要观看视频才能回答 (而不是仅仅根据文本提示进行猜测) ,研究人员使用 Gemini 1.5 Pro 进行了“盲测”。如果 AI 可以在不看视频的情况下仅凭文本提示回答问题,该问题就会被丢弃。

此外,作者还分析了凭证长度 (Certificate Length) 。 该指标代表人类验证答案所需观看的最少视频片段量。

表格显示了短、中、长视频的平均单词数和凭证长度。

如表 3 (上图) 所示,“长”视频的平均凭证长度接近 968 秒 (超过 16 分钟) 。这证实了 Video-MME 相比 EgoSchema 等数据集 (其凭证长度要短得多) 具有显著更高的挑战性,并且需要更深入的内容参与。

实验与主要发现

研究人员评估了广泛的模型,包括商业巨头 (GPT-4V, GPT-4o, Gemini 1.5 Pro) 和开源竞争者 (Video-LLaVA, LLaVA-NeXT-Video) 。结果为 AI 的现状提供了一个引人入胜的快照。

1. 商业模型与开源模型的差距

表现最出色的是 Gemini 1.5 Pro , 取得了 75% 的总体准确率。它显著优于其商业竞争对手 GPT-4o (71.9%),并将开源模型远远甩在身后 (最好的开源模型 VILA-1.5 达到了 59%) 。

这种主导地位在很大程度上归功于 Gemini 巨大的上下文窗口,使其能够处理来自长视频的更多帧和文本数据,而不会丢失早期的信息。

2. 计数与推理的瓶颈

虽然模型在一般感知 (识别物体) 方面变得非常出色,但在计数和复杂推理方面仍然很吃力。

雷达图比较了不同模型在计数和空间推理等认知任务上的表现。

上方的雷达图突显了一个“共同瓶颈”。请注意,所有模型——甚至是表现出色的 Gemini 1.5 Pro (由最外层的形状表示) ——在计数问题 (Counting Problems)时间感知 (Temporal Perception) 上的得分都显著下降。这表明,虽然 MLLM 可以“看到”视频,但它们仍然难以量化元素或在时间上精确排序事件。

3. 模态的影响 (字幕与音频)

视频是一种多模态体验。研究发现,整合字幕和音频可以显著提高性能,特别是对于长视频,因为在长视频中仅凭视觉信息可能稀疏或模棱两可。

表格显示了添加字幕和音频如何提高 Gemini 1.5 Pro 的性能。

在表 5 (上图) 中,请看“长 (Long) ”类别。当 Gemini 1.5 Pro 仅使用帧时,得分为 67.4% 。 当添加字幕时,准确率跃升至 77.4%——巨大的 10% 增幅。这表明文本 (对话) 为模型在长时序上下文中导航提供了关键的“锚点”。

4. 详细分类分析

这些模态的影响因领域而异。在严重依赖对话的类别中,例如“多语言”或“知识”,字幕带来的提升是巨大的。

条形图显示了 Gemini 1.5 Pro 在不同模态下的特定子类别中的表现。

图 4 中的详细分类显示,对于某些类别,添加音频 (深蓝色条) 相比仅使用帧和字幕提供了明显的优势。然而,对于许多类别,字幕 (青色条) 相比仅使用帧 (米色条) 提供了最显著的飞跃。这强化了一种观点,即当前的 MLLM 仍然是以文本为中心的学习者;对它们来说,将音频转换为文本 (字幕) 往往比处理原始音频信号更有效。

“长视频”挑战

所有实验中一个一致的趋势是,随着视频变长,性能会出现下降。几乎所有模型的准确率都在从 短视频 -> 中等视频 -> 长视频 的过程中有所下降。

为什么会发生这种情况?

  1. 信息稀疏性 (Information Sparsity) : 大多数模型无论视频长度如何,都采样固定数量的帧 (例如 8 或 16 帧) 。对于一个 60 分钟的视频,16 帧会导致信息出现巨大的空白。
  2. 上下文过载 (Context Overload) : 即使对于像 Gemini 1.5 Pro 这样可以摄取许多帧的模型来说,在数千个 token 中管理“噪声”并保留特定细节在计算上也是困难的。

结论与未来方向

Video-MME 为 AI 社区敲响了警钟。虽然我们在图像理解方面取得了巨大进步,但全面的视频理解仍然悬而未决 , 特别是当涉及长时间跨度和复杂推理时。

该论文确定了两条关键的前进道路:

  1. 架构创新: 我们需要更好的方法来处理长上下文,例如“环状注意力 (Ring Attention) ”,或是在不丢失时序细节的情况下压缩视频 token 的更有效方法。
  2. 更好的训练数据: 社区需要超越短片段。我们需要专门教导模型在长序列上执行时序推理的指令微调数据集。

Video-MME 提供了我们需要用来衡量这一进步的标尺。通过揭示在计数、时序逻辑和长期记忆方面的弱点,它为下一代能够真正观看、聆听并理解我们周围动态世界的多模态大语言模型奠定了基础。