在 TikTok、YouTube Shorts 和 Twitch 盛行的时代,用户生成内容 (UGC) 已成为媒体消费的主流形式。与使用电影摄像机拍摄的专业制作电影不同,UGC 内容往往狂野且不可预测。它们由智能手机拍摄,经过各类 App 压缩,通过不稳定的 5G 网络传输,并在各种尺寸的屏幕上观看。
对于视频平台而言,理解这些内容的质量是一个价值数十亿美元的问题。如果推荐算法推送了低质量的视频,用户就会流失。然而,传统的视频质量评估 (VQA) 有一个主要的盲点: 它通常将视频质量简化为一个单一的标量分数——比如“5 分里的 3.5 分”。
低分意味着视频像素化了吗?是相机在抖动吗?还是仅仅因为光线太暗?单一的数字无法回答这些问题。
本文将深入探讨 FineVQ , 这是一篇提出细粒度 VQA 方法的新研究论文。研究人员引入了一个庞大的新数据集( FineVD )和一个多模态大语言模型 (MLLM) 架构( FineVQ ),能够从多个维度诊断视频质量: 颜色、噪声、伪影、模糊和时间稳定性。

1. 通用评分的问题
要理解为什么需要 FineVQ,我们必须先看看当前 VQA 系统的局限性。传统的深度学习模型 (如 VSFA 或 VIDEVAL) 接收视频文件并输出一个平均意见得分 (MOS) 。虽然这对通用过滤很有用,但这种“黑盒”评分无法指导具体的优化任务。
例如,如果一个视频因为相机抖动被判定为“低质量”,那么应该应用防抖算法。如果是因为光线不足导致的低质量,则需要亮度校正。通用的评分无法提供这种可操作的情报。
如上文 图 1 所示,现实世界的视频会遭遇具体且独特的降质问题:
- 颜色问题: 颜色模糊或褪色。
- 噪声: 来自低光传感器的颗粒感。
- 伪影 (Artifacts) : 来自严重压缩的块效应。
- 模糊: 对焦问题或运动模糊。
- 时间问题: 抖动或丢帧。
研究人员认为,要真正理解 UGC,我们需要一位能提供全面诊断的“医生”,而不仅仅是一个大致的健康评分。
2. 夯实基础: FineVD 数据库
人工智能的水平取决于它所学习的数据。现有的数据集通常要么关注合成失真 (在实验室中人工添加的噪声) ,要么仅限于有限的现实场景。为了构建一个理解细粒度质量的模型,研究人员首先必须构建 FineVD 。
数据范围
FineVD 是同类中首个大规模数据库,包含 6,104 个 UGC 视频 。 这个数据集的独特之处在于其多样性。它不仅仅是抓取随机的 YouTube 片段,而是仔细平衡了现代消费的两种主要模式:
- 点播视频 (On-demand) : 预录制内容 (Vlog、教程、游戏) 。
- 直播视频 (Live-streaming) : 实时内容 (游戏直播、虚拟主播、移动广播) 。

人为因素
如 图 2(b) 所示,标注过程非常严格。团队没有依赖众包 (这可能带来噪声且不可靠) ,而是在专业环境中使用 22 名标注员。这些标注员不仅是简单地给出好评或差评。他们从 六个具体维度 对每个视频进行了评分:
- 颜色 (Color)
- 噪声 (Noise)
- 伪影 (Artifact)
- 模糊 (Blur)
- 时间稳定性/抖动 (Temporal)
- 整体质量 (Overall Quality)
此外,他们还生成了描述质量的文本说明 (问答对) ,这对于训练模型的语言组件至关重要。
统计多样性
结果就是产生了一个数据集,其中的质量维度并不总是相关的。一个视频可能分辨率极高 (低模糊) ,但稳定性极差 (时间维度差) 。

上方的 图 10 可视化了这些相关性。请注意,“时间 (Temporal) ”维度通常会形成一个与其他维度 (如“颜色”或“模糊”) 不同的聚类。这种统计上的独立性验证了我们需要一个能够分别观察这些特征的模型。如果它们都完全相关,那么单一的评分就足够了。
3. FineVQ 方法: 一种多模态方案
有了数据支持,研究人员开发了 FineVQ 。 这不是一个标准的卷积神经网络 (CNN) ,而是一个 多模态大语言模型 (MLLM) 。 其目标是创建一个“一站式”模型,能够:
- 评级质量 (好/坏) 。
- 评分质量 (0-100) 。
- 描述质量 (文本解释) 。
架构
该架构详见 图 5 , 是现代视觉-语言系统设计的典范。它集成了三条不同的路径来处理信息。

1. 空间之眼 (图像编码器)
视频的核心是一系列图像。为了分析静态质量 (如分辨率、颜色和噪声) ,模型从视频中采样 8 帧 (\(V_f\)) 。它使用强大的视觉 Transformer——InternViT 作为骨干网络 (\(E_I\)) 。
然而,视觉 Transformer 的原始输出无法被基于文本的语言模型直接理解。研究人员使用了一个投影器 (Projector,\(P_I\)) ——本质上是一个翻译神经网络——将视觉特征映射到语言空间。这在数学上表示为:

这里,\(T_s\) 代表 LLM 最终将读取的“空间 token”。
2. 时间之眼 (运动编码器)
空间分析会遗漏运动信息。抖动视频的单帧画面可能看起来不错,但视频本身却无法观看。为了捕捉这一点,FineVQ 使用了一个基于 SlowFast 网络的 运动编码器 (\(E_M\)) 。 它处理 整个 视频以理解运动模式。
与图像路径类似,这些运动特征也被投影成语言 token (\(T_m\)) :

3. 大脑 (大语言模型)
核心推理引擎是 InternLM-8B , 一个预训练的大语言模型。该模型接收一串连接在一起的输入:
[空间 Tokens] + [运动 Tokens] + [文本提示 Tokens]
“文本提示”是用户的问题,例如 “给这个视频的颜色质量打分” 或 “描述存在的伪影。” 由于视觉数据已被投影到与文本相同的 token 空间,LLM 可以同时“看”视频和“读”提示来生成答案。
使用 LoRA (低秩自适应) 进行微调
从头开始训练一个 80 亿参数的模型极其昂贵。此外,我们希望保留模型的通用推理能力,同时教给它特定的视频质量概念。
研究人员采用了 LoRA (低秩自适应) 技术。LoRA 不会更新庞大神经网络中的所有权重 (\(\mathbf{W}\)) ,而是在层中注入小型的、可训练的低秩分解矩阵 (\(\mathbf{A}\) 和 \(\mathbf{B}\)) 。

这种技术使得模型能够以极小的计算成本适应 VQA 的细微差别 (学习“块效应”长什么样) ,该技术同时应用于视觉编码器和 LLM 本身。
4. 实验与性能
这个复杂的架构实际上比现有方法效果更好吗?研究人员将 FineVQ 与最先进的模型进行了基准测试,包括专门的 VQA 模型 (如 FAST-VQA) 和通用的多模态模型 (如 Video-LLaVA) 。
质量评分准确性
成功的主要指标是模型的预测分数与人类评分的相关性如何。这里使用的是斯皮尔曼等级相关系数 (SRCC) ——越接近 1.0 越好。

表 1 展示了在 FineVD 数据集上的结果。
- 统治力: FineVQ (最后一行) 在 所有 维度 (颜色、噪声、伪影、模糊、时间和整体) 上均取得了最高分。
- 时间差距: 注意像 NIQE 这样的传统图像质量评估 (IQA) 方法在“时间”维度上表现糟糕 (SRCC 0.27) 。它们只单独查看帧而完全忽略了运动。得益于其运动编码器,FineVQ 获得了 0.80 的分数。
- 单模型,全任务: 与通常需要为不同维度训练单独权重的基于 DNN 的方法不同,FineVQ 仅由文本提示引导,使用单套权重即可处理所有这些任务。
理解缺陷
除了简单的评分,模型还测试了识别 什么 地方出了问题的能力。研究人员询问了模型“是/否”问题 (例如,“视频中是否有噪声?”) 和“哪个”问题 (例如,“哪种失真最严重?”) 。

表 10 强调了一个关键发现: 通用的大型多模态模型 (如 InternVL2) 在通用视觉方面表现不错,但在技术质量评估方面却很吃力。它们没有被教过压缩伪影或抖动的具体视觉特征。经过 FineVD 数据集微调的 FineVQ 显示出巨大的改进——在检测失真是否存在方面,准确率从 28% 跃升至 91%。
能力可视化
FineVQ 的强大之处最好通过视觉来理解。下方的 图 9 展示了为什么“整体”评分是不够的,以及 FineVQ 如何剖析一个视频。

请看第三列 (“Artifact/伪影”) 。这些视频可能具有不错的颜色或时间稳定性,但压缩伪影 (块效应) 拉低了质量。FineVQ 能够分离出这个特定指标,提供工程师可以用来调整码率或编码设置的反馈。
5. 结论与启示
FineVQ 论文代表了机器理解视频质量方式的重大进步。通过从单一的“平均意见得分”转向多维度分析,并利用大语言模型的语义推理能力,研究人员创造了一种更贴近人类感知的工具。
核心要点:
- 数据至关重要: FineVD 数据库证明,要解决细粒度问题,我们需要细粒度的、人工标注的数据。
- 语义 VQA: 视频质量不仅仅是信号处理;它是一个语义理解任务。将 VQA 视为语言-视觉问题可以实现更灵活和描述性的评估。
- 可操作的洞察: 通过将质量分离为颜色、模糊、噪声等,平台可以自动化特定的修复 (例如,“对视频 A 应用去噪滤镜”与“对视频 B 应用防抖”) 。
随着用户生成内容的持续增长,像 FineVQ 这样的技术将成为无形的守门人,确保我们看到的内容清晰、稳定且生动。
](https://deep-paper.org/en/paper/2412.19238/images/cover.png)