引言

想象一下你在高速驾驶汽车。你依靠眼睛瞬间检测运动。现在,想象一下如果你的大脑只能以每隔几毫秒拍摄一次的快照形式来处理视觉信息。在快照之间那极短的盲区时间内,如果突然出现障碍物,你可能无法及时做出反应。

这是传统基于帧的计算机视觉的基本局限性。标准相机会将世界捕捉为一系列静止图像。为了计算运动——具体来说是光流 (optical flow) ——算法会将这一帧与下一帧进行比较。这就引入了延迟。在捕获并处理完下一帧之前,你无法检测到运动。对于高速机器人、自主无人机或安全关键型系统来说,这种延迟 (通常为数十毫秒) 是极其漫长的。

事件相机 (Event cameras) 提供了一种解决方案。它们不像帧相机那样工作,而是像生物视网膜一样运作,仅在光照强度发生变化时发射异步信号 (事件) 。这发生在微秒级别。然而,在不丧失这种速度优势的情况下处理这种连续的数据流是非常困难的。

目前的深度学习方法通常会做出妥协: 它们要么将事件重新打包成“帧” (丧失速度优势) ,要么单独处理事件但缺乏“全局上下文”,从而导致准确性不足。

在这篇文章中,我们将探讨论文 《Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based Vision》 (结合事件流与周期性聚合的图神经网络用于低延迟事件视觉) 中提出的一种新颖架构。研究人员引入了一个混合系统——HUGNet2+PA——它结合了异步图神经网络 (GNN) 的超快反应速度与周期性处理的上下文记忆能力。结果如何?该系统能够以 50 微秒的延迟预测运动,比最先进的基于帧的方法快约 1,000 倍。

背景: 延迟与精度的困境

要理解这里的创新,我们必须首先看看机器目前是如何“看见”运动的。

帧的问题

在传统的计算机视觉中,光流 (物体表面运动的模式) 是通过比较第 1 帧中的像素 \(A\) 和第 2 帧中的像素 \(A'\) 来计算的。

  1. 盲区时间 (Blind Time) : 帧与帧之间发生的运动会被遗漏。
  2. 计算延迟 (Computation Latency) : 你必须等待整个第 2 帧曝光并读出后才能开始处理。

事件相机的替代方案

事件相机是仿生传感器。每个像素独立工作。当像素检测到亮度变化时,它会立即输出一个“事件”——一个包含坐标 \((x, y)\)、时间戳 \((t)\) 和极性 \((p)\) (变亮还是变暗) 的数据包。

这种数据是稀疏且异步的。没有帧率的概念。“时间分辨率”在微秒量级。

处理瓶颈

如果你的大脑 (算法) 很慢,拥有一个快速的传感器也是无用的。

  • CNN 方法: 大多数当前方法将这些快速事件堆叠成 2D 网格 (“事件帧”) ,以便标准卷积神经网络 (CNN) 可以处理它们。这重新引入了我们试图避免的延迟!
  • GNN 方法: 图神经网络将事件视为通过边 (时空邻近性) 连接的图中的节点。它们可以逐个事件地处理数据。然而,为了真正做到快速,这些图不能等待数据的积累。它们必须只看过去。这种缺乏“累积”知识意味着网络难以理解场景的全局上下文,导致预测充满噪声或不准确。

挑战: 如何构建一个既能对新事件做出即时反应 (低延迟) ,又能理解更广泛场景上下文 (高精度) 的系统?

核心方法: HUGNet2 + 周期性聚合

研究人员提出了一种“两全其美”的架构。他们将问题分解为两个并行分支:

  1. 事件分支 (The Event Branch) : 一个闪电般快速的异步分支,对每一个事件做出反应。
  2. 周期性分支 (The Periodic Branch) : 一个较慢的同步分支,聚合历史信息以提供上下文。

让我们在下面可视化这个高层概念。

展示基于事件与基于帧的预测时间线的概念图。

图 1 所示,传统的基于帧的方法 (绿线) 更新缓慢。提出的方法 (蓝点) 则是连续更新的。当基于帧的方法还在等待下一张快照时,基于事件的预测已经在跟踪运动曲线了。

架构详解

提出的模型被称为 HUGNet2+PA 。 它代表“半球更新图网络 (第 2 版) + 周期性聚合器”。

HUGNet2+PA 的详细架构图,显示了两个分支。

图 2(a) 展示了双分支结构。让我们分解各个组件。

1. 事件分支 (“反射”)

这个分支专为速度而设计。它使用了 HUGNet2 , 这是先前 GNN 的改进版本。

  • 异步图: 当新事件到达时,它被视为一个新节点。它连接到过去的事件 (有向边) 。
  • 无需等待: 因为它不展望未来也不等待一批数据,图更新的延迟实际上为零。
  • 无累积 (Accumulation-Free) : 研究人员剥离了需要等待的操作,例如全图归一化或池化层。
  • 处理: 它使用点变换器 (Point-Transformer) 卷积层,随后是图卷积网络 (GCN) 。这提取了特定事件的即时局部特征。

2. 周期性分支 (“记忆”)

如果说事件分支是反射,那么周期性分支就是记忆。

  • 周期性聚合器 (PA) : 这个模块在后台运行。它从 GNN 获取特征,并在设定的周期内 (例如每 50ms) 将它们聚合到一个网格中。
  • 深度处理: 它使用卷积层和循环神经网络 (ConvGRU) 来处理这些累积的数据。它创建了场景运动历史的密集表示。
  • 输出: 它生成表示场景“上下文”的密集特征图。

3. 新颖的合并: 解决时间差

这里有一个巧妙的工程技巧。事件分支在实时运行 (时刻 \(T\)) 。周期性分支因为要累积数据,所以总是滞后的。如果事件分支等待周期性分支完成对当前帧的计算,它就会失去速度优势。

研究人员意识到他们不需要当前的周期性上下文——他们只需要某种上下文。

图 2(c) 所示,时刻 \(T\) 的事件分支将其数据与时刻 \(T-2\) 的周期性输出合并。

  • 为什么是 T-2?
  • 时刻 \(T\): 事件正在发生。
  • 时刻 \(T-1\): 周期性分支正在处理此期间收集的数据。
  • 时刻 \(T-2\): 该处理已完成并在内存中可用。

通过结合“旧”上下文 (\(PA(T-2)\)) 与“实时”事件特征,系统实现了零等待延迟 。 事件头 (一个全连接层) 学会了融合这两条不同的时间线。它利用实时事件特征来修正旧的上下文,使其能够检测到周期性分支尚未注意到的突然变化。

实验与结果

研究人员使用两个数据集验证了他们的方法: MVSEC (具有平滑运动的真实世界驾驶/无人机镜头) 和 Rock Scenes (具有极快、急促运动变化的合成数据) 。

精度与效率

首先,让我们看看在 MVSEC 数据集上的表现。

比较 MVSEC 数据集上光流结果的表格。

表 1 揭示了几个关键见解:

  1. 延迟优势: HUGNet2+PA 的延迟约为 \(50 \mu s\)。相比之下,CNN/SNN 方法的延迟为 50-100 ms。这是三个数量级的缩减。
  2. 效率: 该方法所需的操作大幅减少。例如,与 E-RAFT 相比,HUGNet2+PA 每秒使用的操作数大约少 50 倍 (19.8 G 对比 948.8 G) 。
  3. 精度权衡: 终点误差 (Endpoint Error, 1.52) 高于重型的基于帧的方法 (如 E-RAFT 的 0.62) 。这是意料之中的;那些方法使用了大量的计算并查看未来的帧 (平滑化) 。然而,对于需要微秒级反应的应用,这种精度是可以接受的,特别是考虑到其速度。

“反射”测试: 检测快速运动

这种方法的真正威力在 Rock Scenes 数据集中大放异彩,该数据集包含突然的随机运动变化 (例如,物体瞬间改变方向) 。这模拟了自主系统的最坏情况。

显示突然变化时终点误差随时间变化的图表。

图 4 也许是论文中最关键的可视化。它绘制了突然运动变化期间 (由绿色星号标记) 随时间变化的误差。

  • 红线 (Periodic T-2) : 这代表“记忆”或标准的基于帧的方法。请注意误差是如何飙升并在变化后保持高位很长一段时间的。在处理跟上之前,它对新的运动是“视而不见”的。
  • 青线 (Event) : 这是 HUGNet2+PA 的预测。误差在变化瞬间飙升,但恢复得快得多

因为事件分支可以访问实时的事件流,它立即“看到”了变化。即使它使用的是旧上下文 (\(T-2\)) ,来自新事件的 GNN 特征提供了足够的信号来覆盖旧记忆并修正轨迹。

平衡分支

更多地依赖事件流还是周期性上下文更好?研究人员分析了这种权衡。

显示终点误差与每秒操作数关系的图表。

图 3 显示了计算成本 (OPS/s) 与误差之间的关系。

  • 在图 (a) 中, “Event”曲线 (青色圆圈) 始终低于“Periodic”曲线 (红色圆圈) 。这意味着在相同的计算量下,混合事件预测的准确性明显更高——在 Rock Scenes 上高达 59% 的提升
  • 这证实了添加异步事件分支不仅仅是“更快”;它实际上通过填补周期性聚合器留下的空白,提高了动态场景下的准确性。

与基于帧的方法的比较

研究人员还实施了一种最先进的基于帧的方法 ADMFlow , 以便在 Rock Scenes 数据集上进行直接比较。

随时间比较 HUGNet2+PA 与 ADMFlow 的图表。

图 5 显示了误差的时间线。

  • ADMFlow(T) (紫色点线) : 从技术上讲,这种方法在处理完帧之后误差较低。但是,在实时场景中,你在时刻 \(T\) 并没有结果。你必须等待。
  • ADMFlow(T-2) (红色虚线) : 这代表机器人实时实际可用的信息。它遭受严重的滞后。
  • HUGNet2+PA (青色实线) : 相比延迟的基于帧的方法,它提供了一个更加稳定和灵敏的误差曲线。它在“完美但缓慢”的未来与“可用但陈旧”的过去之间架起了一座桥梁。

结论与启示

论文 《Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based Vision》 展示了神经拟态工程的重要一步。通过接受我们无法瞬间处理所有信息这一事实,作者设计了一个缓慢处理上下文但即时处理变化的系统。

主要收获:

  1. 架构: 一种混合 GNN (事件) + CNN/RNN (周期性) 结构。
  2. 创新: 将实时事件特征与延迟的 (\(T-2\)) 上下文特征合并,以确保零等待延迟。
  3. 性能: 50 \(\mu s\) 的延迟 (对比标准方法的 50ms) ,且功耗大幅降低。
  4. 应用: 非常适合“反应时间”比“像素级完美平滑”更有价值的场景,例如无人机竞速、避障和高速机器人技术。

这项工作表明,计算机视觉的未来不仅仅在于更大的模型或更高的帧率。它关乎重新思考时间——不把视觉视为一系列照片,而是视为像真实世界一样连续流动的信息流。