简介

想象一下,有一台像人眼一样工作的相机。它不会一帧一帧地拍摄快照;相反,它只在发生变化时做出反应。如果你盯着一堵完全静止的墙看,你的视神经就会停止发送关于这堵墙的信号 (尽管你的眼球会做微小的、难以察觉的运动来防止这种“失明”) 。

这就是 事件相机 (Event Cameras,或称动态视觉传感器) 背后的原理。它们是一项革命性的技术,能以微秒级的精度异步捕捉亮度变化。它们擅长捕捉高速运动——比如捕捉飞行中的子弹或躲避障碍物的无人机——而且没有标准相机的运动模糊或低动态范围问题。

然而,事件相机有一个巨大的“盲点”: 静态场景 。 如果相机架在三脚架上且场景静止不动,传感器几乎不会产生任何数据。在视频重建中,这会导致一个移动的物体漂浮在一片灰色的虚无中。背景——也就是语境——丢失了。

多年来,研究人员一直试图通过强制移动相机或使用频闪灯来解决这个问题。但是,如果相机在空闲时产生的“噪声”实际上并不是噪声呢?

在这篇文章中,我们将深入探讨 URSEE (Unified Reconstruction of Static and dynamic scEnes from Events,基于事件的动静态场景统一重建) 。 该论文介绍了一种新颖的框架,将静态“噪声”视为信号,从而能够重建包含高速运动和细节丰富的静态背景的高保真视频。

URSEE 方法概述,展示了光线照射背景和前景、分离流程以及最终的重建结果。

事件相机的悖论

要理解 URSEE 的突破,我们必须首先了解它所解决的根本限制。

标准相机以固定的间隔 (例如每秒 30 帧) 捕捉绝对强度 (亮度) 。然而,事件相机报告的是 亮度变化 。 只有当对数强度变化的幅度超过某个阈值时,像素才会“说话”。

  • 动态场景: 物体移动。像素快速触发。我们获得数据流。
  • 静态场景: 万物静止。像素保持沉默。我们得到的是寂静。

目前最先进的重建网络,如 E2VID , 通过接收这些事件流将其转化为视频。但由于静态背景不产生事件,E2VID 无法“看见”背景。它创造出的视频就像“幽灵”一样,移动的边缘清晰可见,但其背后的墙壁却是隐形的。

URSEE背后的研究人员提出了一个关键问题: 在静态场景中,相机真的是沉默的吗?

第一部分: “静态”事件的物理学

与普遍的看法相反,事件相机在静态场景中确实会触发事件。这些通常被认为是“噪声”或“漏电流”。然而,这篇论文的作者发现,这种噪声并不是随机的;它是具有统计规律的。

他们使用直流光源 (以防止频闪) 和麦克白比色卡 (一种标准校准图表) 进行了一系列实验,以此分析事件相机在盯着静止物体时的行为。

强度与事件的关系

如下通过图表显示的结果揭示了 环境亮度 (Ambient Brightness)反射率 (Reflectance)事件计数 (Event Count) 之间的独特关系。

3D 图和曲线图展示了环境亮度、反射率和事件计数之间的映射关系。

仔细观察 图 2 中的图表:

  1. 低反射率 (较暗物体) : 随着亮度增加,“噪声”事件的数量增加 (图 b) 。
  2. 高反射率 (较亮物体) : 存在一个拐点。事件计数上升,在 60-70 Lux 左右达到峰值,然后实际上会 下降 (图 c) 。

这意味着“噪声”携带了有关静态场景纹理和亮度的信息。事件相机本质上是在随时间对静态场景强度进行随机 (Stochastic) 采样。如果我们积累足够长时间的这些事件,理论上我们应该能看到图像。

第二部分: 重建静态背景

知道静态事件包含数据是第一步。将这些嘈杂的数据转化为清晰的图像是第二步。

像素级积分的问题

最朴素的方法是 像素级积分 (Pixel-wise Integration) : 简单地统计几秒钟内每个像素的事件数,并将该计数映射为亮度值。

这种方法因两个原因而失败:

  1. 噪声累积: 信号很弱,随机噪声使图像看起来像充满了“椒盐”噪点。
  2. 事件饱和: 在长时间曝光下,像素可能会达到最大限制,将值推向 0 或 255 (纯黑或纯白) ,从而破坏对比度。

解决方案: 卷积积分

作者提出了 卷积积分 (Convolutional Integration) 。 他们不再将每个像素视为孤岛,而是在积分过程中使用一个 \(3 \times 3\) 的卷积核 (均值滤波器) 。

这起到了空间平滑器的作用。它聚合了相邻像素的信息,从而大幅减少了“椒盐”噪声,并防止了极值极化 (即像素卡在最大亮度) 。

像素级积分与卷积积分的对比。卷积方法显示出更平滑的直方图和可识别的图像。

图 3 所示,差异是巨大的。“像素级”的汽车图像几乎无法辨认且颗粒感严重。“卷积积分”的图像则清晰地显示了前大灯和格栅。直方图 (底部) 证实了卷积方法保留了健康的中间调灰度分布,而像素级方法则将所有内容都推向了黑暗的左侧。

SRD 模块 (去噪)

即使有了卷积积分,图像也并不完美。为了缩小与标准摄影的差距,作者引入了 SRD 模块 (静态重建去噪,Static Reconstruction Denoising)

这是一个基于 U-Net 架构的神经网络。它的训练目标是接收卷积积分的结果并预测出清晰、高保真的灰度图像。它使用通道注意力机制来理解全局噪声特征并将其滤除。

第三部分: URSEE 框架

现在我们有办法获得静态背景了。但目标是 视频 。 我们需要将这个静态背景与事件相机擅长捕捉的高速移动物体结合起来。

这就引出了 URSEE 框架 (Unified Reconstruction of Static and dynamic scEnes,动静态场景统一重建) 。

URSEE 框架的流程图,展示了事件分离、并行处理和 ERSD 模块。

该流程如 图 4 所示,分三个不同阶段运行:

1. 事件分离

原始数据流包含“静态噪声” (背景) 和“动态运动” (前景) 的混合体。系统使用一个 时空窗口 (\(20 \times 20\) 像素,10ms) 来分析数据流。

  • 如果窗口内的事件计数超过阈值 \(\rightarrow\) 动态事件 (物体移动) 。
  • 如果计数较低 \(\rightarrow\) 静态事件 (背景噪声) 。

2. 并行处理

数据流分为两个通道:

  • 静态通道: 静态事件通过卷积积分和 SRD 去噪模块 (如上所述) 处理,以创建一个单一、清晰的 静态背景帧
  • 动态通道: 动态事件被转换为 体素网格 (Voxel Grids) 。 体素网格是一种 3D 表示 (宽 \(\times\) 高 \(\times\) 时间) ,保留了运动的精确时序。

3. 融合与 ERSD 模块

这是系统的核心。框架将三样东西拼接成一个巨大的张量:

  1. 清晰的静态背景。
  2. 动态体素网格。
  3. 一个 事件分离标签张量 (一张告诉网络哪些像素是静态、哪些是动态的图) 。

这个融合后的张量被送入 ERSD 模块 (Event-based Reconstruction Network with Static and Dynamic Elements,基于事件的动静态元素重建网络) 。

ERSD 是一个使用 ConvLSTM (卷积长短期记忆) 单元的 循环神经网络 。 为什么用 LSTM?因为视频是时序性的。网络需要记住前一帧发生了什么,以确保运动流畅且背景随时间保持稳定。

实验与结果

为了训练和测试这个系统,研究人员无法依赖现有的数据集,因为那些数据集大多忽略了静态背景。他们创建了两个新的数据集:

  • E-Static: 使用混合设置 (事件相机 + 标准 RGB 相机) 捕捉的真实世界数据,以提供真值 (Ground Truth) 。
  • E-StaDyn: 一个合成数据集,他们通过 3D 渲染场景模拟事件,从而拥有复杂运动的完美真值。

静态重建结果

首先,让我们看看 URSEE 仅恢复静态图像的效果,并与 E2VID 或 FireNet 等其他方法进行比较。

静态重建的定性比较。URSEE 提供了清晰、照片级的图像,而其他方法则是灰色且充满噪声的。

图 5 中,结果是无可辩驳的。看一看 E2VID 的 (d) 列——几乎完全是灰色的。因为 E2VID 依赖于运动,它无法看见静态的画作或架子。(j) 列的 URSEE 恢复了书上的文字、画作的纹理以及物体的锐利边缘,几乎与真值 (b) 匹配。

定量数据支持了这一视觉检查:

表格显示 URSEE 在 PSNR、SSIM 和 LPIPS 指标上显著优于其他方法。

URSEE 实现了 22.43 的 PSNR (峰值信噪比) ,几乎是 E2VID (9.35) 的两倍。在图像重建领域,如此巨大的差距代表了质量上的根本性转变。

动态视频结果

终极测试是视频。当机械臂或鸽子在前面移动时,URSEE 能否保持背景稳定?

合成数据的比较。E2VID 显示出重影和背景丢失。URSEE 保持了清晰的背景。

图 6 比较了合成数据上的方法。

  • 顶部 (E2VID): 注意“重影 (ghosting) ”。在第一行中,墙上的标志时隐时现。在第二行中,机械部件是模糊的一团。E2VID 表现挣扎,因为它只有在前景物体移 背景并触发变化时才能看到背景。
  • 中间 (URSEE): 背景标志和机械部件在整个序列中保持清晰稳定。前景物体的运动被高保真地重建出来。

这种表现在现实世界中同样成立。

真实世界视频比较。URSEE 显示了清晰的细节,比如鸽子身后的方格图案。

图 7 中,看一看有鸽子的底部一行。在 E2VID 版本 (顶部和中部) 中,方格背景是一团浑浊的灰色。在 URSEE 版本 (底部) 中,当白鸽拍打翅膀时,你可以清晰地看到背景的网格图案。

结论与启示

URSEE 框架代表了神经形态工程向前迈出的重要一步。通过拒绝将静态事件视为“无用噪声”,研究人员解锁了事件相机作为综合视觉传感器运行的能力。

主要收获:

  1. 噪声即数据: 静态场景会产生统计性的事件模式,可以解码为强度图像。
  2. 卷积积分: 简单的空间滤波对于防止静态重建中的噪声累积至关重要。
  3. 统一架构: 成功的视频重建需要分别处理静态和动态事件,然后再进行融合,而不是强迫单个网络完成所有工作。

这项技术具有巨大的意义。它可以让自动驾驶汽车使用节能的事件相机来完成所有工作——检测超速车辆 (动态) 并且 识别它闯过的停车标志 (静态) ——而无需辅助的标准相机。它架起了生物视觉的效率与数字摄影的清晰度之间的桥梁。