如果你曾搜索过“如何修理漏水的水龙头”或“罗马元老院的历史”之类的教程,你很可能遇到过搜索引擎上的“人们还在问” (People Also Ask) 板块。如今,这些推荐不仅指向文本文章,还越来越多地指向视频中的特定章节。这一功能非常实用,但对人工智能来说却是一个巨大的挑战: 机器如何能够“观看”视频,并自动针对其中讨论的特定实体 (人物、地点、概念) 提出有意义的、深度的问题?

大多数当前的 AI 模型擅长表面观察。它们可以看着一帧画面问: “猫是什么颜色的?”或“房间里有几个人?”然而,它们很难提出“以实体为中心的信息搜寻” (Entity-centric Information-seeking,简称 ECIS) 类的问题——即那些能够促进学习的问题,例如“本章讨论的朱里亚法律有什么重要意义?”

在研究论文 “ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos” 中,研究人员引入了一个新颖的框架来填补这一空白。他们提出了一个新的数据集和一套复杂的多模态架构,旨在教会 AI 提出真正有价值的问题。

问题所在: AI 提出的问题太肤浅

问题生成 (Question Generation, QG) 在文本领域已被广泛研究,但视频问题生成仍处于起步阶段。现有的方法通常会陷入两个误区:

  1. 依赖字幕: 它们只阅读字幕,忽略了视频丰富的视觉信息。
  2. 视觉肤浅: 它们关注常见的物体和属性 (例如,“那个人拿着什么?”) ,这通常不是搜索信息的用户所关心的内容。

研究人员定义了一个新目标: ECIS (以实体为中心的信息搜寻) 问题。 这些问题针对视频上下文中的特定实体——如特定的地标、化学过程或历史人物——并寻求关于它们的详细信息。

必应的“人们还在问” (PAA) 模块显示了一个问题以及相关的视频缩略图。 图 1: 必应上的“人们还在问”功能示例。这项研究的目标是自动生成这类高质量、与视频链接的问题。

如图 1 所示,其实际应用非常明确。如果 AI 能准确生成这些问题,它就能为搜索引擎、教育工具和基于视频的聊天机器人提供支持。

为什么现有模型会失败

为了理解为何需要新方法,我们可以看看传统模型如何处理视频内容。在下面的例子 (图 2) 中,传统的 QG 模型问: “食物真的很便宜吗?”虽然语法正确,但这个问题很模糊,缺乏语境。

相比之下,本文提出的 ECIS 系统生成的问题是: “Khaja Ghar 的户外用餐区有什么特别之处?”这个问题识别了实体 (“Khaja Ghar”) 并寻求具体信息 (“户外用餐区”) 。

比较通用 QG 模型与提出的 ECIS QG 模型的两个例子。 图 2: 生成问题的对比。传统模型 (上) 提出的是通用问题,而 ECIS 模型 (下) 提出的是源自视频内容的特定、富含实体的问题。

解决方案: ECIS-VQG 架构

生成这些复杂问题不仅需要语言模型,还需要一个能同时“看”、“读”和“推理”的系统。研究人员开发了一个管道,用于处理视频中的四种不同类型的数据:

  1. 视频标题: 全局语境。
  2. 章节标题: 局部主题。
  3. 字幕: 口语内容。
  4. 视觉信息: 帧描述和视频嵌入。

第一步: 过滤噪声

并非视频的每个部分都值得提问。“开场”或“结尾”章节通常包含填充内容。研究人员首先开发了一个基于 BERT 的 章节标题分类器 。 该模块将章节分为四类:

  • 无用 (UL) : 如“简介”、“订阅”。
  • 自包含问题 (SCQ) : 标题本身就是好问题 (如“什么是虫洞?”) 。
  • 非自包含 (NSC) : 包含关键词但不是完整问题的标题 (如“DNA 的结构”) 。

系统会丢弃“无用”的章节,并将包含信息的章节传递给生成器。

第二步: 多模态表示

架构的核心是如何处理“非自包含”章节,将其转化为完整的问题。这正是 ECIS 问题生成器 发挥作用的地方。

该架构 (图 3) 是多模态融合的典范。它采用了基于 Transformer 的编码器-解码器 (具体利用了 BART 和 T5 等模型) 。

提出的方法架构图,展示了输入表示、章节标题分类器和 Transformer 编码器-解码器模型等各个组件。 图 3: 完整架构。注意视觉输入 (蓝色) 和文本输入 (橙色) 是如何被处理并融合以生成最终问题的。

处理视觉信息

原始视频帧数据量大且充满噪声。为了让语言模型能利用它们,研究人员采用了一种巧妙的双管齐下方法:

  1. 描述与摘要: 他们提取帧并使用名为 BLIP 的模型生成帧描述。由于原始描述可能是不连贯的,他们使用 GPT-3.5-Turbo 将帧描述和字幕总结成一段连贯的段落。
  2. 嵌入: 他们使用 CLIP (一种训练用于理解图像和文本的模型) 来创建视频片段的向量嵌入。

融合机制

模型不仅仅是拼接这些输入。它使用了一种 交叉注意力 (Cross-Attention) 机制。文本标记 (来自字幕和标题) 作为“查询 (query) ”,而视频嵌入作为“键 (key) ”和“值 (value) ”。这使得模型能够“关注”与当前处理的文本相关的特定视觉特征。

第三步: 对比损失

这篇论文的一大创新在于训练目标。标准模型使用 交叉熵损失 (Cross-Entropy Loss) , 这只是鼓励模型预测正确的下一个词。然而,这往往会导致通用的、“安全”的问题。

为了强制模型具体化,研究人员加入了 对比损失 (Contrastive Loss) 。 他们将生成的问题与一个“负面”示例配对——即一个通用的、非以实体为中心的问题 (例如,“图像里有什么?”) 。如果模型的输出与通用问题太相似,就会受到惩罚;如果独特且具体,则会受到奖励。

数据: VIDEOQUESTIONS 数据集

该领域最大的障碍之一是缺乏数据。现有的数据集主要集中在电影或日常活动上,而不是信息密集型内容。为了解决这个问题,作者整理了 VIDEOQUESTIONS , 这是一个包含 411 个 YouTube 视频的数据集,涵盖教育、科学技术和旅游等类别。

他们人工标注了超过 2,200 个问题,确保这些问题是以实体为中心的。数据分析 (图 4) 显示,虽然章节标题很短,但字幕和帧描述提供了生成深度问题所需的丰富语境。

章节标题、帧描述、视频标题和字幕的长度分布。 图 4: 数据分布。字幕 (青色) 和帧描述 (橙色) 提供了大部分文本数据,且随着视频时长的增加而增加。

实验与结果

研究人员将他们的方法 (特别是 BART 和 T5 的变体) 与几个基线模型进行了比较,包括标准的 T5 模型和大型语言模型 (LLM) ,如 Alpaca、GPT-3.5 甚至 GPT-4o。

定量成功

结果令人信服。如表 2 所示,提出的模型——特别是 带有对比损失和多模态输入的 BART (E 块) ——在 BLEU、ROUGE 和 METEOR 等主要指标上均优于其他模型。

展示 ECIS 问题生成结果并对比各种模型的表格。 表 1: 主要结果。表现最好的模型 (E 行) 使用了带有交叉熵+对比损失 (CC) 、摘要输入和 CLIP 嵌入 (\(E_C\)) 的 BART。

结果的关键要点:

  • 对比损失有效: 使用组合损失函数 (CC) 训练的模型始终优于仅使用交叉熵训练的模型。
  • 多模态很重要: 添加视频嵌入 (使用 CLIP) 提供了统计上显著的提升,证明模型确实利用了视觉信息,而不仅仅是阅读字幕。
  • 摘要有帮助: 在将充满噪声的帧描述和字幕输入生成器之前,使用 GPT-3.5 对其进行清理和总结,提高了性能。

定性分析

数字只能说明一半的问题。查看实际生成的问题有助于直观地看到改进。

在表 1 (下表) 中,我们看到了“非 ECIS”问题 (可能来自标准模型) 与“ECIS 生成问题”的区别。对于一个关于植物的视频,通用模型问: “我们要怎么处理根部?”ECIS 模型问: “你必须从合果芋插条的根部剪断枝条吗?”包含实体“合果芋插条” (Syngonium Cuttings) 使得这个问题在搜索和检索中更有价值。

对比非 ECIS 问题与 ECIS 问题的表格。 表 2: 通用问题与所提系统生成问题的对比。ECIS 问题具体且自包含。

作者还进行了人工评估,要求专家对问题的 上下文相关性参与度流畅性 进行评分。提出的 BART 模型获得了最高分,证实了生成的问题不仅在数学上与标准答案相似,而且对人类来说读起来也更好。

结论

ECIS-VQG 论文标志着 AI 与视频内容交互方式向前迈出了重要一步。通过从通用的物体识别转向以实体为中心的理解,研究人员为更智能的视频搜索和教育工具铺平了道路。

三项创新定义了他们的成功:

  1. 一个新的问题定义 , 优先考虑信息搜寻而非简单描述。
  2. 一个精心策划的数据集 , 包含现实世界、信息丰富的 YouTube 视频。
  3. 一个稳健的架构 , 融合了视觉和文本数据,同时使用对比损失来避免生成通用输出。

随着视频内容继续主导互联网,AI “观看”视频并提出正确问题的能力,对于让这些内容变得可访问和可搜索将至关重要。这项研究让我们离这一现实更近了一步。