引言

想象一下,你正试图学习如何修理自行车轮或练习完美的篮球跳投。你在网上找到了一个视频教程,但这不仅仅是一个普通的视频——它是通过五个不同摄像机录制的多视角体验。其中一个摄像头绑在教练的头上 (第一人称视角) ,而其他四个则放置在房间周围的三脚架上 (第三人称视角) 。

这种丰富的数据非常适合捕捉每一个细节,但它给观众带来了巨大的认知负荷。作为观众,你无法同时观看五个屏幕。你需要一位导演——某个人 (或某种东西) 能够在每一刻切换到“最佳”视角。当技工正在拧紧辐条时,你需要手部的特写镜头。当篮球运动员正在上篮时,你需要展示球场的广角镜头。

传统上,解决这个视角选择问题需要昂贵的人工成本。人类必须观看数小时的录像,并手动标记每一秒哪个摄像机是“最好的”。这显然无法大规模扩展。

在这篇文章中,我们将探讨一篇题为 “Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos” (哪个视角展示得最好?利用语言对多视角教学视频中的视角选择进行弱监督) 的研究论文。研究人员提出了一个名为 LANGVIEW 的新颖框架。他们的解决方案非常优雅: 与其让人类标记好的视角,不如利用视频附带的语言 (如脚本或说明) 来教 AI 模型哪个视角最具信息量。

问题: 视角生而不同

在多视角教学视频中,信息的分布是不均匀的。在任何给定的时间戳,一个摄像机可能清晰地显示了关键动作,而另一个可能被教练的背部挡住,或者仅仅是因为距离太远。

现有的自动化选择方法通常分为两类:

  1. 启发式方法 (Heuristics) : 简单的规则,如“总是选择运动幅度最大的视角”或“选择肤色检测最多的视角”。这些方法通常过于粗糙,无法理解复杂的活动。
  2. 监督学习 (Supervised Learning) : 在人类明确标记了最佳视角的数据集上训练神经网络。这种方法准确,但需要创建海量且昂贵的数据集。

LANGVIEW 背后的研究人员提出了一个不同的问题: 我们能否利用视频的旁白作为弱监督信号?

核心假设

这篇论文的核心思想直观但有力: “最佳”视角是那个最能匹配活动文本描述的视角。

如果一段文本旁白说: “那个人正在用双手检查后轮”,而摄像机 1 清晰地显示了车轮和双手,那么观看摄像机 1 的视频描述 AI 应该能够生成与该文本非常相似的描述。然而,如果摄像机 3 被人的身体挡住了,描述生成 AI 可能只会生成一些模糊的内容,比如“一个人站在房间里”。

因此,生成的描述相对于真实旁白的准确性可以作为视角质量的代理指标。

LANGVIEW 核心理念示意图。图表显示了不同的视角如何生成不同的描述。视角 1 与真实旁白匹配良好,获得高分并成为正伪标签。

如图 1 所示,系统将不同角度生成的描述与实际旁白进行比较。生成最准确描述的视角会被自动“伪标签化”为最佳视角。

LANGVIEW 框架

LANGVIEW 框架分两个不同的阶段运行:

  1. 最佳视角伪标签生成器 (仅训练阶段) : 利用语言生成标签。
  2. 最佳视角选择器 (推理阶段) : 仅使用视频来预测最佳视角的实际模型。

让我们逐一分解。

1. 最佳视角伪标签生成器

第一个挑战是在没有人类标签的情况下创建训练数据集。研究人员利用现成的视频描述生成模型 (如 Video-Llama) 来完成这项繁重的工作。

对于特定的视频片段,系统获取视角无关的真实旁白 (描述动作的脚本) 和来自所有 \(N\) 个摄像机的视频流。

流程如下:

  1. 描述生成: \(N\) 个视角中的每一个都被独立输入到视频描述生成器中。
  2. 比较: 每个视角生成的描述都会与真实旁白进行比较。
  3. 排名: 根据生成的描述与真实旁白的语义相似度对视角进行排名。

例如,看看下面的描述比较:

真实旁白与预测描述的示例。‘最佳’预测匹配具体动作 (如接球) ,而’最差’预测则很模糊。

在上面的例子中,真实情况是“C 用双手接住了球”。最佳视角让模型能够准确地预测这一点。最差的视角导致了一个通用的描述: “C 接到了球”。系统给第一个视角分配高分,并将其选为目标标签。

由于单个描述生成模型可能存在噪声,研究人员使用了排名聚合器 (Rank Aggregator) 。 他们运行多个不同的描述生成模型 (例如 Video-Llama 和 VideoChat2) ,并结合它们的排名来就最佳视角达成共识。

2. 最佳视角选择器

一旦生成了伪标签,研究人员就会训练实际的视角选择器模型。这是将在现实世界中使用的模型。至关重要的是,在推理时,该模型不需要文本旁白或相机姿态——它只看视频像素。

LANGVIEW 架构图。它显示了伪标签生成器 (顶部) 为视角选择器 (左下) 生成标签,视角选择器同时也通过辅助姿态预测任务 (右下) 进行训练。

架构

视角选择器 (如图 2a 左下角所示) 使用 TimeSformer 视觉编码器。它处理特定视角的视频图块 (patches) 以创建视觉特征表示。这些特征被传递到一个分类头,该分类头预测当前视角是否是“最佳”视角 (基于之前生成的伪标签) 。

训练目标

主要的损失函数是交叉熵的一种变体。由于对于单个动作可能有多个“好”视角,损失函数被设计为可以处理多个正确的伪标签。

视角分类损失的方程。

在这里,\(\mathcal{L}^W\) 鼓励模型预测被伪标签生成器识别为“最佳”的视图之

秘诀: 辅助相机姿态预测

仅依靠源自描述的伪标签训练模型存在风险。描述生成模型通常经过预训练,对视角变化具有鲁棒性——它们试图即使在糟糕的角度也能正确描述场景。这可能导致模型学习到对视角不变的特征,而这正是我们不希望看到的。我们需要模型对视角高度敏感

为了解决这个问题,研究人员引入了一个辅助任务: 相对相机姿态预测

当模型学习选择最佳视角时,它同时也被要求预测两个相机视角之间的几何关系 (例如,“相机 A 位于相机 B 左侧 30 度”) 。

相对相机姿态预测损失的方程。

通过强迫模型理解相机彼此之间的相对位置,视觉编码器被迫学习几何的、视角依赖的特征。这起到了正则化项的作用,确保模型不仅仅学习那些从任何角度看起来都一样的高级语义特征。

这个辅助任务的影响可以通过下面的 t-SNE 图可视化,该图展示了模型如何对数据进行聚类。

t-SNE 图比较了有无姿态预测的特征。右图 (Ours) 显示不同相机视角之间有更清晰的分离。

在左侧 (没有姿态预测) ,不同相机的特征混杂在一起。在右侧 (有姿态预测) ,相机 1、相机 2 等的特征形成了明显的聚类。这证明了模型已经学会了有效地区分视角。

实验与结果

该模型在两个具有挑战性的多视角数据集上进行了评估: Ego-Exo4D (烹饪或自行车维修等技能型人类活动) 和 LEMMA (家务活动) 。

研究人员将 LANGVIEW 与几个基线进行了比较:

  • 启发式方法: 随机选择、仅中心视角。
  • 智能基线: 基于手部/物体检测置信度或身体姿态可见性来选择视角。
  • SOTA: 以前的最先进方法,如“Snap Angles”。

定量分析

为了衡量成功,他们使用选定的视角生成新的描述,并检查这些描述与真实情况的匹配程度。如果模型选择了一个糟糕的视角,生成的描述将会很差。

他们还查看了注意力热力图 , 以了解模型在做决定时关注什么

注意力热力图显示模型聚焦于相关物体,如切菜板或篮球。

如图 5 所示,模型学会了聚焦于手部、工具和活动物体——这正是人类想要看到的区域。

人类评估

指标虽然有用,但“最佳视角”选择器的终极测试是人类的偏好。研究人员进行了一项研究,让人类并排观看两个视角 (一个由 LANGVIEW 选择,一个由基线选择) ,并要求他们选出更有利于学习该活动的视角。

定性结果显示成功和失败案例。绿色框表示人类偏好的视角,在成功案例中与模型的选择一致。

在图 3 左侧的“成功案例”中,LANGVIEW (绿框) 始终选择能清晰展示互动的视角 (例如,切菜板上的刀) 。在右侧的“失败案例”中,当视角之间的差异很细微或属于风格差异时,模型有时会难以抉择。

总体而言,人类评估显示出对 LANGVIEW 的偏好显著高于“手部-物体”检测等强基线。这表明“信息量”不仅仅是看到手;它关乎动作的语义连贯性,而语言监督有效地捕捉到了这一点。

意义何在

LANGVIEW 论文在视频理解方面迈出了重要一步。以下是关键要点:

  1. 语言作为监督者: 我们并不总是需要明确的标签。文本中的语义信息可以作为一种强大的、低成本的信号来训练视觉模型。
  2. 视角敏感性: 标准视觉模型试图对摄像机角度保持“不变性” (从任何角度都能识别出猫是猫) 。对于电影摄影或机器人等任务,我们需要对角度“敏感”的模型。辅助姿态预测任务是强制实现这一点的巧妙方法。
  3. 教学效率: 随着我们迈向教授技能的 AI 助手 (增强现实导师) ,自动呈现最具信息量的视觉视角的能力至关重要。

通过利用我们看到的内容与我们如何描述它之间的联系,LANGVIEW 教会计算机执导它们自己的电影,确保我们永远不会错过动作的关键时刻。