1. 引言

我们生活在一个由视频内容主导的世界,但我们往往受限于拍摄设备的硬件条件。大多数视频都以固定的分辨率 (如 1080p) 和固定的帧率 (通常是 30 或 60 fps) 进行归档。但是,如果你想放大远处的细节而不想看到一团像素化的模糊画面呢?或者,如果你想放慢一个快速移动的动作镜头,而不希望它看起来像幻灯片呢?

这就是 时空视频超分辨率 (Space-Time Video Super-Resolution, STVSR) 的领域——即同时提高视频的空间分辨率 (使图像更清晰) 和时间分辨率 (增加帧数以获得流畅的运动) 。

传统上,这是通过固定比例完成的 (例如,精确放大 4 倍并插值 2 帧) 。然而,该领域的“圣杯”是 连续 STVSR (Continuous STVSR, C-STVSR) : 即能够即时将视频上采样到 任意 分辨率和帧率的能力,即使是非整数倍也不在话下。

虽然最近使用隐式神经表示 (INR) 的方法在这一领域取得了长足进步,但它们面临着一个主要的瓶颈: 它们仅依赖于标准的 RGB 帧。在快门之间,尤其是在快速场景中,帧可能会丢失关键的运动信息,当你试图将模型推向其训练分布之外时,会导致模糊或产生幻觉般的伪影。

EvEnhancer 应运而生,这是北京交通大学和合肥工业大学的研究人员在最近的一篇论文中提出的一种新颖方法。EvEnhancer 集成了 事件相机 (Event Cameras)——一种能够异步捕捉亮度变化的仿生传感器——来填补帧与帧之间的空白。

不同 C-STVSR 方法的性能比较,显示了 EvEnhancer 在 PSNR 和视觉质量方面的优势。

如图 1 所示,EvEnhancer 在不同的数据集和上采样比例上都明显优于现有的最先进方法 (如 VideoINR 和 MoTIF) ,提供了更清晰的细节和更少的伪影。

在这篇文章中,我们将解构 EvEnhancer 的工作原理,重点关注其两个核心创新: 事件自适应合成模块 (Event-Adapted Synthesis Module, EASM)局部隐式视频 Transformer (Local Implicit Video Transformer, LIVT)

2. 背景

在深入了解架构之前,让我们先确立几个基本概念。

基于帧的视觉限制

标准相机以固定的间隔将世界捕捉为一系列静止图像 (帧) 。如果一个物体在帧 \(t\) 和帧 \(t+1\) 之间快速移动,那么中间的信息就永远丢失了。当算法试图对这些帧进行插值时,它们必须“猜测”运动,这通常会导致重影伪影。

事件相机

事件相机则不同。每个像素不是捕捉完整的帧,而是独立运行并异步报告亮度的变化 (对数强度) 。这产生了一个具有微秒级时间分辨率的“事件”流。该流提供了连续的运动记录,使其成为填补标准视频帧之间空白的完美伴侣。

隐式神经表示 (INR)

为了实现 连续 超分辨率 (例如,放大 3.4 倍或 5.9 倍) ,我们不能使用像反卷积这样的标准上采样层。相反,研究人员使用 INR。其核心思想是将视频视为一个连续函数。你向神经网络输入一个时空坐标 \((x, y, t)\),它会输出该特定点的 RGB 值。理论上这允许无限的分辨率,但训练这些网络来捕捉高频细节 (纹理) 和复杂的时间动态是非常困难的。

3. EvEnhancer 架构

研究人员提出了一个统一的框架,将事件的运动精度与帧的视觉丰富性结合起来。如下图所示,该架构分为两个主要阶段。

EvEnhancer 的整体架构,包括事件自适应合成模块 (EASM) 和局部隐式视频 Transformer (LIVT)。

工作流程从 EASM 开始,它融合事件和帧以创建高质量的特征序列。然后,这些特征被传递给 LIVT , 由其处理连续上采样。

3.1. 事件自适应合成模块 (EASM)

EASM 的目标是提取“潜在” (隐藏) 的帧间特征。由于事件提供了连续的运动数据流,模型可以利用它们准确地找出两个 RGB 帧之间发生了什么。

该模块进一步分为两个子步骤:

A. 事件调制对齐 (EMA)

在视频处理中,对齐至关重要。模型需要将相邻帧的特征对齐到当前正在处理的时间戳。

作者使用了金字塔结构 (在不同尺度上处理特征) 。然而,他们不仅仅是从图像中估计光流,而是使用了 事件调制 (Event Modulation)

这种调制通过使用事件特征来修改运动向量。由于事件捕捉了运动的确切轨迹,它们可以比单纯基于图像的光流更准确地指导对齐过程。

调制后的运动向量计算如下:

调制运动向量的公式。

这里,\(\mathcal{M}\) 代表调制函数,\(F^E\) 代表事件特征。这个过程在正向和反向两个方向上进行,以捕捉过去和未来的运动上下文。

B. 双向循环补偿 (BRC)

仅仅对齐是不够的。我们需要随着时间的推移融合这些特征,以构建视频的鲁棒表示。作者采用了一种 双向循环神经网络 (RNN) 方法。

在这一步中,模型在时间上传播信息。它查看对齐后的帧特征和事件流,并迭代地融合它们。

双向循环补偿的公式。

如上式所述,前向隐藏状态 (\(h^f\)) 和后向隐藏状态 (\(h^b\)) 通过结合当前帧特征 (\(F^{LR}\)) 和事件特征 (\(F^E\)) 进行更新。这确保了事件的高时间分辨率被充分利用,以“填补”视频序列的空白,创建一个富含时间细节的特征集。

3.2. 局部隐式视频 Transformer (LIVT)

这是“连续”能力的核心。以前的方法通常将空间和时间解耦——学习一个用于空间放大的函数和另一个用于时间插值的函数。这并非最佳方案,因为空间和时间是相关的 (例如,移动的物体随时间改变位置) 。

EvEnhancer 引入了 局部隐式视频 Transformer (LIVT) , 它学习统一的视频表示。

局部隐式视频 Transformer (LIVT) 的结构。

LIVT 不是处理整个视频体 (这在计算上是不可能的) ,而是使用 局部 注意力机制。以下是分步过程:

步骤 1: 时间选择

给定一个目标时间戳 \(\mathcal{T}\) (例如,我们要生成 \(t=0.54\) 时的帧) ,模型首先从 EASM 生成的序列中识别最近的可用特征网格。它选择一个大小为 \(T^G\) 且最接近目标时间的局部窗口。

最近邻时间选择的公式。

步骤 2: 带位置编码的 3D 局部注意力

一旦选择了局部网格,模型需要确定特定坐标的 RGB 值。它将目标坐标视为 查询 (Query) (\(q\)),将周围的局部特征视为 键 (Key) (\(k\)) 和 值 (Value) (\(v\))。

为了帮助 Transformer 理解相对于查询点发生事情的 地点时间,作者使用了 余弦位置编码 。 这对查询点与局部网格像素之间的时空距离 \((\delta \tau, \delta x, \delta y)\) 进行了编码。

余弦位置编码的公式。

步骤 3: 跨尺度注意力

奇迹就在这里发生。模型计算查询 (坐标) 与局部特征之间的注意力。这使得网络能够动态聚合来自最相关的时空邻居的信息。

注意力机制和最终输出嵌入的公式。

通过计算查询 \(q\) 和键 \(k\) 的点积,加上位置偏置 \(b\),再乘以值 \(v\),模型生成一个特征向量 \(\tilde{z}\)。然后,这个向量通过一个简单的多层感知机 (MLP) 解码为最终的 RGB 像素值。

因为这是通过坐标进行的,所以你可以请求 任何 空间坐标和 任何 时间戳,从而实现真正的连续时空视频超分辨率。

4. 实验与结果

研究人员在 Adobe240GoPro (合成事件) 以及 BS-ERGB (真实世界事件) 等标准数据集上评估了 EvEnhancer。他们将其与包括 TimeLens、VideoINR 和 MoTIF 在内的顶级方法进行了比较。

定量优势

让我们看看数据。表 1 显示了“分布内”尺度 (模型在训练期间见过的上采样尺度) 的性能。

表 1: 分布内时空上采样尺度的定量比较。

EvEnhancer (及其轻量级版本 EvEnhancer-light) 始终获得最高的 PSNR (峰值信噪比) 和 SSIM (结构相似性指数) 。例如,在 GoPro 数据集上,EvEnhancer 达到了 33.52 dB , 明显高于 MoTIF (31.04 dB) 或 VideoINR (30.26 dB)。重要的是,它仅用 MoTIF 大约一半的参数量就做到了这一点。

对分布外 (OOD) 尺度的泛化能力

对连续模型的真正考验是它如何处理以前 未见过 的尺度。表 2 显示了将模型推向极端设置 (例如,时间尺度 \(t=16\),空间尺度 \(s=12\)) 时的结果。

表 2: GoPro 数据集上分布外时空上采样尺度的定量比较。

即使在这些极端尺度下,EvEnhancer 仍保持稳健的性能,而其他方法的性能下降得更厉害。这证明 LIVT 模块成功地学习了视频的连续表示,而不仅仅是记住了固定的上采样模式。

效率

你可能认为增加事件处理和 Transformer 会使模型变得沉重。然而,表 5 中的 TFLOPs (每秒万亿次浮点运算) 比较显示并非如此。

表 5: C-STVSR 模型的 TFLOPs 比较。

虽然 VideoINR 的计算成本更低,但其性能也低得多。与 MoTIF 相比,EvEnhancer 提供了更好的权衡,在提供最先进质量的同时保持了可控的计算成本,特别是在较高的时间尺度上。

视觉质量

定量指标得到了视觉证据的支持。在图 4 中,我们可以看到 GoPro 数据集上的重建质量。

图 4: GoPro 数据集上的定性比较,显示了卓越的纹理恢复能力。

注意文字和精细的细节。EvEnhancer 恢复了在 VideoINR 和 MoTIF 中模糊或丢失的锐利边缘。

此外,时间一致性对视频至关重要。如果帧是在没有上下文的情况下单独上采样的,视频就会闪烁。图 5 可视化了“时间剖面” (视频随时间变化的切片) 。

图 5: GoPro 数据集上的时间剖面比较。

EvEnhancer 列中的平滑线条表明运动稳定、一致。相比之下,其他列中的锯齿状或模糊线条则表明存在闪烁和时间不稳定性。

消融实验

为了证明引擎的每个部分都是必要的,作者进行了消融研究。例如,他们通过在 2D 解耦 (旧方法) 和他们的 3D 统一方法之间切换来测试 LIVT 设计。

表 9: 局部隐式视频 Transformer (LIVT) 设计的消融实验。

表 9 清楚地表明,“3D 统一”策略产生了更好的结果,特别是对于分布外 (OOD) 尺度,证实了将空间和时间一起建模是正确的方法。

5. 结论

EvEnhancer 代表了视频处理领域向前迈出的重要一步。通过将 事件相机 的高时间分辨率与 隐式神经表示 的连续表示能力相结合,作者创建了一个既灵活又强大的系统。

事件自适应合成模块 确保模型能够理解常规帧所遗漏的复杂运动轨迹,而 局部隐式视频 Transformer 则允许模型以人类所需的任何尺度呈现这些信息。

对于计算机视觉的学生和研究人员来说,EvEnhancer 突出了两个重要的趋势:

  1. 多模态是关键: 将标准帧与事件相机等新型传感器相结合,可以解决数据捕获中的根本限制。
  2. 连续表示是未来: 摆脱固定的离散上采样,可以实现更通用、更具泛化能力的 AI 模型。

随着事件相机变得越来越普及,我们可以期待看到更多像 EvEnhancer 这样的技术进入消费级设备,这可能使我们只需点击一下按钮,就能将标准素材变成高速、4K 的慢动作视频。