引言

想象一下,你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器,期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输,在到达游戏服务器或对手的显示设备之前,遭遇了不可预测的延迟。

在计算机视觉和机器人领域,这就是著名的延迟问题 。 无论是代理机器人复制人类的动作,还是元宇宙化身与虚拟环境互动,由网络传输和算法执行引起的时间延迟都是不可避免的。

多年来,人体动作预测的研究一直建立在一个理想化的假设之上: 零延迟 。 现有的模型假设一旦观察到一个动作,就能立即生成并应用对紧接着的未来的预测。

但在现实世界中,延迟不仅客观存在,而且具有任意性 。 它根据网络稳定性的不同,从几十毫秒到几百毫秒不等。如果一个预测模型期望零延迟却遇到了 200 毫秒的滞后,动作的连续性就会被打破,系统也就无法预测人类的实际位置。

在这篇文章中,我们将深入探讨一篇 CVPR 论文,该论文提出了针对这一问题的新颖解决方案: ALIEN (任意延迟感知隐式神经表示,Arbitrary Latency-aware Implicit nEural represeNtation) 。 该框架摒弃了传统的基于序列的预测,而是将人体动作视为一个连续函数,使其无论“滞后”多长时间,都能生成准确的姿态。

图 1. 现有方法与 ALIEN 的对比。(a) 展示了未能考虑延迟的传统方法。(b) 展示了 ALIEN 方法,它考虑了由网络传输和算法执行引起的延迟期。

如图 1 所示,核心区别在于对“延迟期 (Latency Period) ”的确认。ALIEN 确保智能系统即使在数据晚到的情况下,也能准确预判人类的动作。

背景: 延迟挑战

要理解这篇论文的重要性,我们首先需要看看通常是如何处理人体动作预测的。

标准方法: 序列到序列 (Sequence-to-Sequence)

大多数最先进的方法使用循环神经网络 (RNN) 、图卷积网络 (GCN) 或 Transformer。它们将动作视为离散的姿态序列。你给模型输入一连串过去的帧 (例如,一个人行走的 10 帧) ,它输出接下来的 10 帧。

在数学上,这看起来像是学习一个映射函数 \(f\),使得:

\[ \text{Future Sequence} = f(\text{Past Sequence}) \]

任意延迟的问题

当你引入任意延迟时,“未来序列”并不会紧接着“过去序列”开始。中间存在一个未知持续时间的缺口——我们称之为 \(T_l\) (延迟时间) 。

如果 \(T_l\) 是可变的 (随机的) ,观察到的过去与目标未来之间的联系就会断开。

  1. 连续性被破坏: 关节的平滑轨迹被缺口打断。
  2. 显式建模的失败: 传统模型难以定义一个固定的架构来处理可能一次是 40ms,下一次却是 200ms 的缺口。
  3. 计算浪费: 一个朴素的解决方案是预测一个覆盖最大可能延迟的超长序列。然而,这迫使模型浪费算力去预测那些实际上已经发生在过去的“滞后”帧,从而降低了我们真正关心的未来帧的准确性。

核心方法: ALIEN

ALIEN 背后的研究人员提出了一种范式转变。他们不再将动作预测视为“动作到动作的翻译”任务 (序列 A \(\rightarrow\) 序列 B) ,而是将其公式化为使用隐式神经表示 (INRs)连续函数学习任务。

1. 概念: 将动作视为神经网络

隐式神经表示 (INR) 将信号 (在本例中为人体动作) 直接编码到神经网络的权重中。网络不再存储关节坐标列表,而是学习一个函数 \(f(t)\),该函数将特定的时间坐标 \(t\) 映射到特定的姿态。

如果你能成功地将动作编码到网络中,延迟问题就迎刃而解了。为什么?因为网络不在乎序列缺口。如果你想知道延迟 135ms 后的姿态,只需用时间戳 \(t = \text{current\_time} + 135\text{ms}\) 查询网络即可。

然而,标准的 INR 通常是针对单个对象或场景 (如在 NeRF 中) 进行训练的。为了预测未见过的人的未来动作,系统需要具备可泛化性 (Generalizable)

2. 架构概览

ALIEN 通过使用超网络 (Hyper-Network) 来实现这一点。

图 2. ALIEN 架构概览。它由一个生成权重的超网络 (基于 MLLA) 和一个基于时间坐标预测姿态的共享 INR 解码器组成。

以下是图 2 所示的逐步流程:

  1. 输入: 系统接收一系列过去观察到的动作。
  2. 令牌化 (Tokenization) : 这些动作被转换为令牌 (对关节轨迹使用离散余弦变换) ,并输入到超网络中。
  3. 超网络 (元学习器) : 该网络分析过去的动作,以理解该人的特定运动特征 (或“实例特有的信息”) 。它输出一组权重
  4. 权重调制: 这些权重用于参数化INR 解码器
  5. INR 解码器: 这是一个多层感知机 (MLP) 。它以时间坐标 \(t\) 为输入,并使用超网络提供的权重,输出该特定时间的 3D 姿态。

这种分离至关重要:

  • 超网络处理空间依赖性 (观察序列中关节之间的相互关系) 。
  • INR 解码器处理时间建模 (将时间映射到姿态) 。

3. 高效的超网络: MLLA

使用超网络的最大瓶颈之一是效率。以前的方法 (如 TransINR) 使用 Transformer 作为超网络。虽然 Transformer 很强大,但它们对于令牌数量具有二次复杂度 。 由于人体动作数据涉及随时间变化的许多关节,这会导致计算量巨大,反而增加了系统试图缓解的延迟。

ALIEN 的作者从 Mamba 架构中汲取灵感。他们利用了类 Mamba 线性注意力 (Mamba-like Linear Attention, MLLA)

图 3. 超网络架构对比。(a) 基于梯度的元学习,(b) TransINR (基于 Transformer) ,以及 (c) ALIEN 中使用的 MLLA 元学习器,它提供线性复杂度。

如图 3(c) 所示,MLLA 模块取代了 Transformer 中繁重的 Softmax 注意力。它允许模型以线性复杂度处理长序列令牌,使系统速度显著加快,更适合实时应用。

4. 低秩调制 (Low-Rank Modulation)

即使架构更快,生成深度神经网络的全部权重也是昂贵的。如果 INR 解码器的层大小为 \(256 \times 256\),超网络仅为一个权重矩阵就需要输出 \(65,536\) 个值。

为了解决这个问题,ALIEN 采用了低秩调制 。 超网络不再生成完整的矩阵 \(W\),而是生成两个较小的矩阵 \(U\) 和 \(V\),以及一个基础参数 \(Z\)。

方程 8. 低秩调制的公式。

权重矩阵 \(\theta_{W_l}\) 计算为 \(U\) 和 \(V^T\) 的乘积 (经 Sigmoid 函数调制) ,再与共享基础参数 \(Z\) 进行逐元素相乘。这大大减少了超网络需要预测的参数数量,进一步提升了效率。

5. 多任务学习策略

ALIEN 最巧妙的地方也许在于它的训练方式。

在实时场景中,“延迟期”是一个黑洞——我们看不到滞后期间发生了什么。然而,在训练期间,我们拥有完整的真实数据 (Ground Truth) 。

作者意识到,延迟期间发生的姿态包含有关动作连续性的宝贵信息。他们设计了一个多任务学习框架 , 包含两个目标:

  1. 主任务 (预测) : 预测延迟期之后的未来姿态 (\(T_h + T_l \dots\))。
  2. 辅助任务 (重建) : 利用可变延迟信息重建延迟期期间的姿态。

方程 10. 多任务学习损失函数。L_pred 关注未来预测,而 L_rec 关注重建延迟期的姿态。

通过强制模型重建缺失的延迟帧 (\(\mathcal{L}_{rec}\)) ,超网络学会了更稳健的动作动态表示。它有效地教会了 INR 正确地“填补空白”,这自然提高了未来预测的准确性。

实验与结果

研究人员在三个主要数据集上评估了 ALIEN: Human3.6MCMU-MoCap3DPW 。 他们将最先进的基线方法 (如 LTD、SPGSN 和 NeRMo) 调整为“任意延迟”设置,以进行公平比较。

Human3.6M 上的表现

Human3.6M 数据集 (一个标准基准) 上的结果很有说服力。

表 1. 任意延迟下 Human3.6M 上的预测误差 (MPJPE) 对比。数字越小表示性能越好。

在表 1 中,我们看到了平均关节位置误差 (MPJPE) 。数字越低越好。

  • 观察: ALIEN 在几乎每个类别中都取得了最佳 (粗体) 或第二佳 (下划线) 的结果。
  • 对比: 注意与 NeRMo 的对比。NeRMo 是另一种使用隐式神经表示的最新方法。然而,ALIEN 始终优于它 (例如,在“Walking”类别 600ms 处,ALIEN 得分为 52.7,而 NeRMo 为 55.1) 。这验证了 MLLA 超网络和多任务训练策略优于 NeRMo 的优化方法。

可视化“滞后”恢复

定性结果通常比数字更能说明问题。图 4 可视化了不同模型如何处理延迟为 2 帧 (\(T_l = 2\)) 的行走序列。

图 4. 预测可视化。注意 LTD 和 NeRMo 行中的红框——这些表示由于延迟缺口而生成的无效或扭曲姿态。ALIEN (Ours) 生成了平滑、有效的姿态,与真实值 (G.T.) 紧密匹配。

  • 基线方法的挣扎: 看一下 LTDNeRMo 行 (用红框标出) 。由于延迟导致的断连,这些模型经常生成扭曲或“破碎”的姿态,肢体处于不可能的位置。
  • ALIEN 的优势: Ours 行显示了平滑的连续性。即使在延迟缺口 (黄色阴影区域) 之后,模型也能完美地接上步伐,与真实值 (G.T.) 相匹配。

效率与可扩展性

作为一个旨在处理延迟的系统,模型本身不能慢。

表 4. 运行时间和模型大小的比较。ALIEN 的运行速度明显快于基于 GCN 和 Transformer 的方法。

表 4 强调了 ALIEN 的运行时间为 29.10ms , 这完全在实时系统通常分配给算法执行的 30ms 预算之内。它比 SPGSN (35.22ms) 和 MSR-GCN (48.62ms) 更快,同时保持了更低的错误率。

此外,作者还分析了随着延迟长度增加,性能如何保持。

图 5. (左) CMU-MoCap 上随着延迟长度增加的性能表现。ALIEN (蓝色) 始终击败 NeRMo (橙色)。(右) 标准零延迟任务上的性能。

图 5 (左) 表明,即使延迟增加 (从 1 帧到 5 帧) ,ALIEN 的错误率仍然低于竞争对手 NeRMo。

为什么 MLLA 有效: 注意力可视化

为什么作者选择类 Mamba 线性注意力而不是标准 Transformer?除了速度,它的学习效果好吗?

图 6. MLLA 模块的注意力图,展示了身体关节令牌之间的交互。

图 6 可视化了超网络内部身体关节令牌之间的注意力交互。

  • 早期层 (a): 对角线很突出,意味着关节主要关注自身。
  • 更深层 (c): 注意力扩散开来。这表明模型正在学习全局上下文——理解一个关节 (例如脚) 的运动如何影响另一个关节 (例如手) ,以生成正确的 INR 权重。

结论

论文《ALIEN: Implicit Neural Representations for Human Motion Prediction under Arbitrary Latency》指出了当前计算机视觉研究中的一个关键空白。通过摆脱零延迟的假设,作者解决了一个影响从云游戏到远程机器人等各个领域的现实问题。

关键要点:

  1. 新任务定义: 论文正式定义了任意、可变延迟下的动作预测任务。
  2. 隐式建模: 使用 INR 允许模型将动作视为连续函数,将预测与固定的时间步长解耦。
  3. 通过 Mamba 提高效率: 使用类 Mamba 线性注意力使超网络能够处理复杂的空间数据,而没有 Transformer 的计算惩罚。
  4. 数据效率: 多任务学习框架巧妙地重新利用“丢失”的延迟期作为训练信号,以提高模型的鲁棒性。

ALIEN 代表了向更具响应性和沉浸感的智能系统迈出的重要一步。随着我们迈向一个由远程交互和元宇宙主导的未来,处理网络中不可见的延迟将与化身本身的视觉保真度一样重要。