如果你曾搜索过“如何修理漏水的水龙头”或“罗马元老院的历史”之类的教程，你很可能遇到过搜索引擎上的“人们还在问” (People Also Ask) 板块。如今，这些推荐不仅指向文本文章，还越来越多地指向视频中的特定章节。这一功能非常实用，但对人工智能来说却是一个巨大的挑战: 机器如何能够“观看”视频，并自动针对其中讨论的特定实体 (人物、地点、概念) 提出有意义的、深度的问题?

大多数当前的 AI 模型擅长表面观察。它们可以看着一帧画面问: “猫是什么颜色的？”或“房间里有几个人？”然而，它们很难提出“以实体为中心的信息搜寻” (Entity-centric Information-seeking，简称 ECIS) 类的问题——即那些能够促进学习的问题，例如“本章讨论的朱里亚法律有什么重要意义？”

在研究论文 “ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos” 中，研究人员引入了一个新颖的框架来填补这一空白。他们提出了一个新的数据集和一套复杂的多模态架构，旨在教会 AI 提出真正有价值的问题。

问题所在: AI 提出的问题太肤浅

问题生成 (Question Generation, QG) 在文本领域已被广泛研究，但视频问题生成仍处于起步阶段。现有的方法通常会陷入两个误区:

依赖字幕: 它们只阅读字幕，忽略了视频丰富的视觉信息。
视觉肤浅: 它们关注常见的物体和属性 (例如，“那个人拿着什么？”) ，这通常不是搜索信息的用户所关心的内容。

研究人员定义了一个新目标: ECIS (以实体为中心的信息搜寻) 问题。 这些问题针对视频上下文中的特定实体——如特定的地标、化学过程或历史人物——并寻求关于它们的详细信息。

必应的“人们还在问” (PAA) 模块显示了一个问题以及相关的视频缩略图。 图 1: 必应上的“人们还在问”功能示例。这项研究的目标是自动生成这类高质量、与视频链接的问题。

如图 1 所示，其实际应用非常明确。如果 AI 能准确生成这些问题，它就能为搜索引擎、教育工具和基于视频的聊天机器人提供支持。

为什么现有模型会失败

为了理解为何需要新方法，我们可以看看传统模型如何处理视频内容。在下面的例子 (图 2) 中，传统的 QG 模型问: “食物真的很便宜吗？”虽然语法正确，但这个问题很模糊，缺乏语境。

相比之下，本文提出的 ECIS 系统生成的问题是: “Khaja Ghar 的户外用餐区有什么特别之处？”这个问题识别了实体 (“Khaja Ghar”) 并寻求具体信息 (“户外用餐区”) 。

比较通用 QG 模型与提出的 ECIS QG 模型的两个例子。 图 2: 生成问题的对比。传统模型 (上) 提出的是通用问题，而 ECIS 模型 (下) 提出的是源自视频内容的特定、富含实体的问题。

解决方案: ECIS-VQG 架构

生成这些复杂问题不仅需要语言模型，还需要一个能同时“看”、“读”和“推理”的系统。研究人员开发了一个管道，用于处理视频中的四种不同类型的数据:

视频标题: 全局语境。
章节标题: 局部主题。
字幕: 口语内容。
视觉信息: 帧描述和视频嵌入。

第一步: 过滤噪声

并非视频的每个部分都值得提问。“开场”或“结尾”章节通常包含填充内容。研究人员首先开发了一个基于 BERT 的 章节标题分类器 。该模块将章节分为四类:

无用 (UL) : 如“简介”、“订阅”。
自包含问题 (SCQ) : 标题本身就是好问题 (如“什么是虫洞？”) 。
非自包含 (NSC) : 包含关键词但不是完整问题的标题 (如“DNA 的结构”) 。

系统会丢弃“无用”的章节，并将包含信息的章节传递给生成器。

第二步: 多模态表示

架构的核心是如何处理“非自包含”章节，将其转化为完整的问题。这正是 ECIS 问题生成器 发挥作用的地方。

该架构 (图 3) 是多模态融合的典范。它采用了基于 Transformer 的编码器-解码器 (具体利用了 BART 和 T5 等模型) 。

提出的方法架构图，展示了输入表示、章节标题分类器和 Transformer 编码器-解码器模型等各个组件。 图 3: 完整架构。注意视觉输入 (蓝色) 和文本输入 (橙色) 是如何被处理并融合以生成最终问题的。

处理视觉信息

原始视频帧数据量大且充满噪声。为了让语言模型能利用它们，研究人员采用了一种巧妙的双管齐下方法:

描述与摘要: 他们提取帧并使用名为 BLIP 的模型生成帧描述。由于原始描述可能是不连贯的，他们使用 GPT-3.5-Turbo 将帧描述和字幕总结成一段连贯的段落。
嵌入: 他们使用 CLIP (一种训练用于理解图像和文本的模型) 来创建视频片段的向量嵌入。

融合机制

模型不仅仅是拼接这些输入。它使用了一种 交叉注意力 (Cross-Attention) 机制。文本标记 (来自字幕和标题) 作为“查询 (query) ”，而视频嵌入作为“键 (key) ”和“值 (value) ”。这使得模型能够“关注”与当前处理的文本相关的特定视觉特征。

第三步: 对比损失

这篇论文的一大创新在于训练目标。标准模型使用 交叉熵损失 (Cross-Entropy Loss) , 这只是鼓励模型预测正确的下一个词。然而，这往往会导致通用的、“安全”的问题。

为了强制模型具体化，研究人员加入了 对比损失 (Contrastive Loss) 。他们将生成的问题与一个“负面”示例配对——即一个通用的、非以实体为中心的问题 (例如，“图像里有什么？”) 。如果模型的输出与通用问题太相似，就会受到惩罚；如果独特且具体，则会受到奖励。

数据: VIDEOQUESTIONS 数据集

该领域最大的障碍之一是缺乏数据。现有的数据集主要集中在电影或日常活动上，而不是信息密集型内容。为了解决这个问题，作者整理了 VIDEOQUESTIONS , 这是一个包含 411 个 YouTube 视频的数据集，涵盖教育、科学技术和旅游等类别。

他们人工标注了超过 2,200 个问题，确保这些问题是以实体为中心的。数据分析 (图 4) 显示，虽然章节标题很短，但字幕和帧描述提供了生成深度问题所需的丰富语境。

章节标题、帧描述、视频标题和字幕的长度分布。 图 4: 数据分布。字幕 (青色) 和帧描述 (橙色) 提供了大部分文本数据，且随着视频时长的增加而增加。

实验与结果

研究人员将他们的方法 (特别是 BART 和 T5 的变体) 与几个基线模型进行了比较，包括标准的 T5 模型和大型语言模型 (LLM) ，如 Alpaca、GPT-3.5 甚至 GPT-4o。

定量成功

结果令人信服。如表 2 所示，提出的模型——特别是 带有对比损失和多模态输入的 BART (E 块) ——在 BLEU、ROUGE 和 METEOR 等主要指标上均优于其他模型。

展示 ECIS 问题生成结果并对比各种模型的表格。 表 1: 主要结果。表现最好的模型 (E 行) 使用了带有交叉熵+对比损失 (CC) 、摘要输入和 CLIP 嵌入 (\(E_C\)) 的 BART。

结果的关键要点:

对比损失有效: 使用组合损失函数 (CC) 训练的模型始终优于仅使用交叉熵训练的模型。
多模态很重要: 添加视频嵌入 (使用 CLIP) 提供了统计上显著的提升，证明模型确实利用了视觉信息，而不仅仅是阅读字幕。
摘要有帮助: 在将充满噪声的帧描述和字幕输入生成器之前，使用 GPT-3.5 对其进行清理和总结，提高了性能。

定性分析

数字只能说明一半的问题。查看实际生成的问题有助于直观地看到改进。

在表 1 (下表) 中，我们看到了“非 ECIS”问题 (可能来自标准模型) 与“ECIS 生成问题”的区别。对于一个关于植物的视频，通用模型问: “我们要怎么处理根部？”ECIS 模型问: “你必须从合果芋插条的根部剪断枝条吗？”包含实体“合果芋插条” (Syngonium Cuttings) 使得这个问题在搜索和检索中更有价值。

对比非 ECIS 问题与 ECIS 问题的表格。 表 2: 通用问题与所提系统生成问题的对比。ECIS 问题具体且自包含。

作者还进行了人工评估，要求专家对问题的 上下文相关性、参与度 和 流畅性 进行评分。提出的 BART 模型获得了最高分，证实了生成的问题不仅在数学上与标准答案相似，而且对人类来说读起来也更好。

结论

ECIS-VQG 论文标志着 AI 与视频内容交互方式向前迈出了重要一步。通过从通用的物体识别转向以实体为中心的理解，研究人员为更智能的视频搜索和教育工具铺平了道路。

三项创新定义了他们的成功:

一个新的问题定义 , 优先考虑信息搜寻而非简单描述。
一个精心策划的数据集 , 包含现实世界、信息丰富的 YouTube 视频。
一个稳健的架构 , 融合了视觉和文本数据，同时使用对比损失来避免生成通用输出。

随着视频内容继续主导互联网，AI “观看”视频并提出正确问题的能力，对于让这些内容变得可访问和可搜索将至关重要。这项研究让我们离这一现实更近了一步。

问题所在: AI 提出的问题太肤浅#

为什么现有模型会失败#

解决方案: ECIS-VQG 架构#

第一步: 过滤噪声#

第二步: 多模态表示#

处理视觉信息#

融合机制#

第三步: 对比损失#

数据: VIDEOQUESTIONS 数据集#

实验与结果#

定量成功#

定性分析#

结论#