当我们看电影时,我们看到的不仅仅是一连串的图像;我们看到的是一个通过特定语言讲述的故事。“低角度镜头 (Low-angle shot) ”让角色看起来充满力量;“猛然剪辑 (Smash cut) ”制造突如其来的震惊;“匹配剪辑 (Match cut) ”则在两个不同的时间或地点之间建立主题联系。作为人类,我们直觉地理解这种视觉语法。
然而,对于视频大语言模型 (Vid-LLMs) ——那些设计用来理解视频内容的 AI 系统——来说,这种电影“语法”在很大程度上仍是一门外语。虽然现代 AI 已经非常擅长识别视频中正在发生什么 (例如,“一个男人在跑”) ,但历史上它们一直难以理解视频是如何构建的 (例如,“摄像机正伴随着手持晃动跟拍这个男人,以暗示紧迫感”) 。
这种理解上的差距正是新研究论文 “VEU-Bench: Towards Comprehensive Understanding of Video Editing” 旨在弥合的。研究人员引入了一个全面的基准测试来考查 AI 的视频剪辑概念,设计了一套复杂的流程来生成训练数据,并提出了一个新的专家模型,名为 Oscars 。
在这篇文章中,我们将剖析这篇论文,了解为什么视频剪辑理解 (Video Editing Understanding, VEU) 是计算机视觉的下一个前沿,研究人员如何构建数据集来教授它,以及学习电影技巧为何能出人意料地帮助 AI 更好地理解现实世界。
问题所在: 视频中的名词与动词
要理解为什么当前的 AI 模型在视频方面表现挣扎,我们可以用语言学来打个比方。当前的视频模型非常擅长识别“名词”——即画面中的物体、人物和场景。它们在处理场景内动作的“动词”方面也越来越好。
但视频剪辑引入了一层不同的动词和形容词: 即呈现内容所使用的技术 。 这些包括:
- 镜头属性 (Shot Attributes) : 角度、景别和摄像机运动。
- 剪辑 (Cuts) : 镜头之间生硬或平滑的断开。
- 转场 (Transitions) : 连接场景的视觉特效。
以前的基准测试主要集中在简单的分类上——问模型,“这是一个特写镜头吗?”但真正的理解需要更多。它需要推理 (Reasoning) (识别为什么镜头会变化) 和评判 (Judging) (评估剪辑的艺术功能) 。
因为剪辑元素是源自专门技术的抽象概念 (你在现实世界中“看”不到剪辑;它是一种人为构建) ,它们需要更高层次的抽象推理能力。这就是 VEU-Bench 的用武之地。
介绍 VEU-Bench
研究人员提出了 VEU-Bench (视频剪辑理解基准) ,这是一个旨在评估模型在广泛剪辑任务中表现的框架。与以往只关注孤立元素的尝试不同,VEU-Bench 是整体性的。
三层层级结构
正如下图概览所示,该基准测试涵盖了 10 个维度,并被组织成三个不同认知难度的层级。

这种结构对于理解研究范围至关重要:
- 识别 (Recognition,即“是什么”) :
- 模型能识别镜头类型吗? (例如,“这是一个过肩镜头。”)
- 这是最基础的层级,通常格式化为多项选择题。
- 推理 (Reasoning,即“为什么”和“如何”) :
- 这一层级要求模型提供证据。它询问关于动态变化的问题。
- *例子: * “解释摄像机的运动。”
- *答案: * “摄像机从女人的嘴部垂直向上仰拍到她的眼睛……”
- 评判 (Judging,即“意图”) :
- 这是最高级的层级。它要求模型在故事背景下解释剪辑的功能 。
- *例子: * “这个剪辑的功能是什么?”
- *答案: * “这强调了角色的反应。”
剪辑的 10 个维度
该基准测试将视频剪辑组件分类为三个物理类别:
- 帧内 (Intra-frame,单帧) : 静态图像中可见的特征,如景别 (Shot Size) 、拍摄角度 (Shot Angle) 、场景位置 (Shot Location) 、拍摄主体 (Shot Subject) 、镜头类型 (Shot Type) 和色调 (Shot Color) 。
- 镜头内 (Intra-shot,时间性) : 在一个连续镜头内随时间变化的特征,特别是运镜 (Shot Motion) (摇摄、俯仰、变焦) 和镜头速度 (Shot Speed) (慢动作、延时) 。
- 镜头间 (Inter-shot,场景之间) : 两个不同镜头之间的关系,涵盖剪辑类型 (Cut Types) (匹配剪辑、跳切) 和转场 (Transitions) (划像、叠化) 。
构建数据集
为这样抽象的概念创建一个基准测试是非常困难的。你不能简单地从互联网上抓取数据,然后指望得到关于“匹配剪辑”或“叙事强调”的高质量标签。
研究人员整理了一个包含 30,000 个视频和大约 50,000 个问答样本的数据集。他们从现有的数据集 (如 AVE、MovieCuts 和 AutoTransition) 中获取原始视频,但意识到现有的标签不足以进行深度推理。

如上面的统计数据所示,该数据集涵盖了广泛的视频时长分布 (大多是适合 AI 上下文窗口的短片) 和多样化的答案长度。但真正的创新在于他们如何在不完全依赖昂贵的人类专家或可能产生幻觉的 AI 的情况下,生成复杂的推理和评判标注。
基于本体论的标注流程
为了解决数据质量问题,作者开发了一个半自动化流程,结合了知识库 (Knowledge Base) 和多模态大语言模型 (MLLMs) 。

以下是该流程的分步工作原理:
- 构建知识库: 研究人员根据电影剪辑教科书建立了一个专业知识库。该数据库定义了抽象模式。例如,它将“匹配剪辑 (Match Cut) ”定义为连接跨帧的形状相似的物体。
- 属性选择: 对于特定的视频片段,系统识别相关的剪辑标签 (例如,“匹配剪辑”) 。
- MLLM 重写: 这是巧妙的部分。系统将视频和知识库中的抽象定义提供给 MLLM。然后任务是重写抽象定义以适应特定的视频内容。
- *抽象规则: * “连接形状相似的物体。”
- *视频特定: * “剪辑将空中抛出的圆形骨头连接到轨道上的圆形宇宙飞船。”
这种“重写”策略确保生成的答案在理论上是正确的 (基于知识库) ,在上下文中也是准确的 (基于视频) 。
衡量成功: 一种新的评分系统
你如何给一个像“为什么这个转场效果好?”这样的开放式问题评分?标准指标如精确词匹配在这里会失效。
研究人员采用了一种使用 GPT-4 作为裁判的方法,但他们增加了一个调整机制,以防止裁判偏向于华丽的辞藻。他们引入了一个平衡两个因素的评分方程:
- 模式匹配 (Pattern Matching, PM) : 答案是否符合本体论中的专业定义?
- 信息匹配 (Information Matching, IM) : 答案是否正确识别了视频中的具体视觉对象?
匹配分数的计算公式为:

最后,为了获得开放式任务的总体得分 (\(S_{oe}\)) ,他们将准确率 (模型是否弄对了主要类别?) 与匹配分数结合起来:

这个严格的评分系统确保只有在模型既理解电影理论又理解视频内容时,才能获得高分。
实验: 当前模型的表现如何?
研究人员测试了 11 个最先进的视频 LLM,包括像 LLaVA-Video 这样的开源重量级模型,以及像 GPT-4o 和 Gemini-1.5-Pro 这样的专有巨头。
结果如下面的雷达图所示,非常鲜明。

如你所见,大多数模型 (中心的一簇形状) 的覆盖范围非常有限。它们在简单的任务 (如识别主体或位置 )上表现尚可,但在转场、剪辑和速度等技术维度上,它们的表现一落千丈。
基线评估的一些关键结论:
- 随机猜测: 在像运镜 (Shot Motion) 这样的复杂类别中,一些模型的表现甚至不如随机猜测。
- 推理差距: 与简单的识别相比,模型在推理和评判方面的挣扎要大得多。它们可能会猜到一个镜头是“特写”,但无法解释为什么。
“Oscars”登场: 专家模型
为了证明这种能力是可以学习的,研究人员微调了一个他们称之为 Oscars (以奥斯卡金像奖命名) 的模型。他们使用 Qwen2-VL-7B 模型作为基础,并在他们创建的 VEU-50K 数据集上对其进行了训练。
结果是变革性的。

查看 表 2 :
- Oscars (最右栏) 在榜单上占据主导地位。
- 它超过了其基础模型 (Qwen2-VL-7B) 39.6% 。
- 值得注意的是,它以 4% 的优势超越了商业巨头 Gemini-1.5-Pro , 并达到了与 GPT-4o 相当的性能。
- 这种提升在最难的类别中最为明显: 关于剪辑和转场的推理准确率有了巨大的飞跃。
这表明,当前 AI 对视频剪辑的“视而不见”并不是技术的永久限制——这仅仅是缺乏专门的训练数据。
“涟漪效应”: 剪辑有助于通用理解吗?
论文中最迷人的发现之一出现在次要实验中。研究人员问: 如果我们教模型理解剪辑和摄像机运动,它在理解一般视频内容方面会变得更好吗?
答案是肯定的。

上图中的 表 3 显示了 Oscars 在与剪辑理论无关的通用视频基准测试 (VideoMME, MVBench, TempCompass) 上的表现。
- 属性感知 (Attribute Perception) : +7.3%
- 时间顺序 (Temporal Order) : +8.5%
- 突发动作 (Unexpected Action) : +6.0%
通过迫使模型关注剪辑和摄像机运动,模型似乎对时间和因果关系有了更好的掌握。理解“剪辑”改变了场景,有助于模型意识到动作已经转移,防止它混淆发生在不同地点的事件。
提示工程的作用
研究人员还分析了如何最好地提出这些问题。他们测试了简单提示 (Simple Prompts) 、上下文提示 (Context Prompts,包含定义) 和引导提示 (Guided Prompts) 。

消融研究表明, 上下文提示 (橙色条) 通常能提供显着的提升,特别是对于像 VideoLLaMA2 这样较小的开源模型。这表明,即使模型没有经过微调,在提示中提供电影术语的“词汇表”也可以释放更好的性能。
验证裁判
最后,为了确保他们的自动评分系统是公平的,研究人员将他们基于 LLM 的评分与人工评估进行了比较。

散点图显示,当使用完整的模式匹配 + 信息匹配方法 (左图) 时,自动评分与人类判断之间存在很强的正相关关系 (\(p=0.86\)) 。这验证了 VEU-Bench 是人类水平评估的可靠代理。
结论
VEU-Bench 论文标志着多模态 AI 向前迈出了重要一步。它强调了真正的视频理解不仅仅是识别物体;它需要理解视觉媒介的句法。
通过将视频剪辑视为一种具有名词 (镜头) 、动词 (剪辑) 和语法 (转场) 的结构化语言,研究人员表明:
- 目前的模型在电影语言方面基本上是“文盲”。
- 我们可以自动化创建高质量的教科书 (数据集) 来教授它们。
- 像 Oscars 这样的模型可以掌握这种语言,与专有巨头相抗衡。
- 最重要的是,学习这种抽象语言提高了模型理解普遍现实的能力。
随着 Vid-LLMs 的不断发展,像 VEU-Bench 这样的基准测试对于推动我们将 AI 从简单的“观看”视频转变为真正的“理解”视频至关重要。
](https://deep-paper.org/en/paper/2504.17828/images/cover.png)