引言
想象一下,你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器,期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输,在到达游戏服务器或对手的显示设备之前,遭遇了不可预测的延迟。
在计算机视觉和机器人领域,这就是著名的延迟问题 。 无论是代理机器人复制人类的动作,还是元宇宙化身与虚拟环境互动,由网络传输和算法执行引起的时间延迟都是不可避免的。
多年来,人体动作预测的研究一直建立在一个理想化的假设之上: 零延迟 。 现有的模型假设一旦观察到一个动作,就能立即生成并应用对紧接着的未来的预测。
但在现实世界中,延迟不仅客观存在,而且具有任意性 。 它根据网络稳定性的不同,从几十毫秒到几百毫秒不等。如果一个预测模型期望零延迟却遇到了 200 毫秒的滞后,动作的连续性就会被打破,系统也就无法预测人类的实际位置。
在这篇文章中,我们将深入探讨一篇 CVPR 论文,该论文提出了针对这一问题的新颖解决方案: ALIEN (任意延迟感知隐式神经表示,Arbitrary Latency-aware Implicit nEural represeNtation) 。 该框架摒弃了传统的基于序列的预测,而是将人体动作视为一个连续函数,使其无论“滞后”多长时间,都能生成准确的姿态。

如图 1 所示,核心区别在于对“延迟期 (Latency Period) ”的确认。ALIEN 确保智能系统即使在数据晚到的情况下,也能准确预判人类的动作。
背景: 延迟挑战
要理解这篇论文的重要性,我们首先需要看看通常是如何处理人体动作预测的。
标准方法: 序列到序列 (Sequence-to-Sequence)
大多数最先进的方法使用循环神经网络 (RNN) 、图卷积网络 (GCN) 或 Transformer。它们将动作视为离散的姿态序列。你给模型输入一连串过去的帧 (例如,一个人行走的 10 帧) ,它输出接下来的 10 帧。
在数学上,这看起来像是学习一个映射函数 \(f\),使得:
\[ \text{Future Sequence} = f(\text{Past Sequence}) \]任意延迟的问题
当你引入任意延迟时,“未来序列”并不会紧接着“过去序列”开始。中间存在一个未知持续时间的缺口——我们称之为 \(T_l\) (延迟时间) 。
如果 \(T_l\) 是可变的 (随机的) ,观察到的过去与目标未来之间的联系就会断开。
- 连续性被破坏: 关节的平滑轨迹被缺口打断。
- 显式建模的失败: 传统模型难以定义一个固定的架构来处理可能一次是 40ms,下一次却是 200ms 的缺口。
- 计算浪费: 一个朴素的解决方案是预测一个覆盖最大可能延迟的超长序列。然而,这迫使模型浪费算力去预测那些实际上已经发生在过去的“滞后”帧,从而降低了我们真正关心的未来帧的准确性。
核心方法: ALIEN
ALIEN 背后的研究人员提出了一种范式转变。他们不再将动作预测视为“动作到动作的翻译”任务 (序列 A \(\rightarrow\) 序列 B) ,而是将其公式化为使用隐式神经表示 (INRs) 的连续函数学习任务。
1. 概念: 将动作视为神经网络
隐式神经表示 (INR) 将信号 (在本例中为人体动作) 直接编码到神经网络的权重中。网络不再存储关节坐标列表,而是学习一个函数 \(f(t)\),该函数将特定的时间坐标 \(t\) 映射到特定的姿态。
如果你能成功地将动作编码到网络中,延迟问题就迎刃而解了。为什么?因为网络不在乎序列缺口。如果你想知道延迟 135ms 后的姿态,只需用时间戳 \(t = \text{current\_time} + 135\text{ms}\) 查询网络即可。
然而,标准的 INR 通常是针对单个对象或场景 (如在 NeRF 中) 进行训练的。为了预测未见过的人的未来动作,系统需要具备可泛化性 (Generalizable) 。
2. 架构概览
ALIEN 通过使用超网络 (Hyper-Network) 来实现这一点。

以下是图 2 所示的逐步流程:
- 输入: 系统接收一系列过去观察到的动作。
- 令牌化 (Tokenization) : 这些动作被转换为令牌 (对关节轨迹使用离散余弦变换) ,并输入到超网络中。
- 超网络 (元学习器) : 该网络分析过去的动作,以理解该人的特定运动特征 (或“实例特有的信息”) 。它输出一组权重 。
- 权重调制: 这些权重用于参数化INR 解码器 。
- INR 解码器: 这是一个多层感知机 (MLP) 。它以时间坐标 \(t\) 为输入,并使用超网络提供的权重,输出该特定时间的 3D 姿态。
这种分离至关重要:
- 超网络处理空间依赖性 (观察序列中关节之间的相互关系) 。
- INR 解码器处理时间建模 (将时间映射到姿态) 。
3. 高效的超网络: MLLA
使用超网络的最大瓶颈之一是效率。以前的方法 (如 TransINR) 使用 Transformer 作为超网络。虽然 Transformer 很强大,但它们对于令牌数量具有二次复杂度 。 由于人体动作数据涉及随时间变化的许多关节,这会导致计算量巨大,反而增加了系统试图缓解的延迟。
ALIEN 的作者从 Mamba 架构中汲取灵感。他们利用了类 Mamba 线性注意力 (Mamba-like Linear Attention, MLLA) 。

如图 3(c) 所示,MLLA 模块取代了 Transformer 中繁重的 Softmax 注意力。它允许模型以线性复杂度处理长序列令牌,使系统速度显著加快,更适合实时应用。
4. 低秩调制 (Low-Rank Modulation)
即使架构更快,生成深度神经网络的全部权重也是昂贵的。如果 INR 解码器的层大小为 \(256 \times 256\),超网络仅为一个权重矩阵就需要输出 \(65,536\) 个值。
为了解决这个问题,ALIEN 采用了低秩调制 。 超网络不再生成完整的矩阵 \(W\),而是生成两个较小的矩阵 \(U\) 和 \(V\),以及一个基础参数 \(Z\)。

权重矩阵 \(\theta_{W_l}\) 计算为 \(U\) 和 \(V^T\) 的乘积 (经 Sigmoid 函数调制) ,再与共享基础参数 \(Z\) 进行逐元素相乘。这大大减少了超网络需要预测的参数数量,进一步提升了效率。
5. 多任务学习策略
ALIEN 最巧妙的地方也许在于它的训练方式。
在实时场景中,“延迟期”是一个黑洞——我们看不到滞后期间发生了什么。然而,在训练期间,我们拥有完整的真实数据 (Ground Truth) 。
作者意识到,延迟期间发生的姿态包含有关动作连续性的宝贵信息。他们设计了一个多任务学习框架 , 包含两个目标:
- 主任务 (预测) : 预测延迟期之后的未来姿态 (\(T_h + T_l \dots\))。
- 辅助任务 (重建) : 利用可变延迟信息重建延迟期期间的姿态。

通过强制模型重建缺失的延迟帧 (\(\mathcal{L}_{rec}\)) ,超网络学会了更稳健的动作动态表示。它有效地教会了 INR 正确地“填补空白”,这自然提高了未来预测的准确性。
实验与结果
研究人员在三个主要数据集上评估了 ALIEN: Human3.6M、CMU-MoCap 和 3DPW 。 他们将最先进的基线方法 (如 LTD、SPGSN 和 NeRMo) 调整为“任意延迟”设置,以进行公平比较。
Human3.6M 上的表现
Human3.6M 数据集 (一个标准基准) 上的结果很有说服力。

在表 1 中,我们看到了平均关节位置误差 (MPJPE) 。数字越低越好。
- 观察: ALIEN 在几乎每个类别中都取得了最佳 (粗体) 或第二佳 (下划线) 的结果。
- 对比: 注意与 NeRMo 的对比。NeRMo 是另一种使用隐式神经表示的最新方法。然而,ALIEN 始终优于它 (例如,在“Walking”类别 600ms 处,ALIEN 得分为 52.7,而 NeRMo 为 55.1) 。这验证了 MLLA 超网络和多任务训练策略优于 NeRMo 的优化方法。
可视化“滞后”恢复
定性结果通常比数字更能说明问题。图 4 可视化了不同模型如何处理延迟为 2 帧 (\(T_l = 2\)) 的行走序列。

- 基线方法的挣扎: 看一下 LTD 和 NeRMo 行 (用红框标出) 。由于延迟导致的断连,这些模型经常生成扭曲或“破碎”的姿态,肢体处于不可能的位置。
- ALIEN 的优势: Ours 行显示了平滑的连续性。即使在延迟缺口 (黄色阴影区域) 之后,模型也能完美地接上步伐,与真实值 (G.T.) 相匹配。
效率与可扩展性
作为一个旨在处理延迟的系统,模型本身不能慢。

表 4 强调了 ALIEN 的运行时间为 29.10ms , 这完全在实时系统通常分配给算法执行的 30ms 预算之内。它比 SPGSN (35.22ms) 和 MSR-GCN (48.62ms) 更快,同时保持了更低的错误率。
此外,作者还分析了随着延迟长度增加,性能如何保持。

图 5 (左) 表明,即使延迟增加 (从 1 帧到 5 帧) ,ALIEN 的错误率仍然低于竞争对手 NeRMo。
为什么 MLLA 有效: 注意力可视化
为什么作者选择类 Mamba 线性注意力而不是标准 Transformer?除了速度,它的学习效果好吗?

图 6 可视化了超网络内部身体关节令牌之间的注意力交互。
- 早期层 (a): 对角线很突出,意味着关节主要关注自身。
- 更深层 (c): 注意力扩散开来。这表明模型正在学习全局上下文——理解一个关节 (例如脚) 的运动如何影响另一个关节 (例如手) ,以生成正确的 INR 权重。
结论
论文《ALIEN: Implicit Neural Representations for Human Motion Prediction under Arbitrary Latency》指出了当前计算机视觉研究中的一个关键空白。通过摆脱零延迟的假设,作者解决了一个影响从云游戏到远程机器人等各个领域的现实问题。
关键要点:
- 新任务定义: 论文正式定义了任意、可变延迟下的动作预测任务。
- 隐式建模: 使用 INR 允许模型将动作视为连续函数,将预测与固定的时间步长解耦。
- 通过 Mamba 提高效率: 使用类 Mamba 线性注意力使超网络能够处理复杂的空间数据,而没有 Transformer 的计算惩罚。
- 数据效率: 多任务学习框架巧妙地重新利用“丢失”的延迟期作为训练信号,以提高模型的鲁棒性。
ALIEN 代表了向更具响应性和沉浸感的智能系统迈出的重要一步。随着我们迈向一个由远程交互和元宇宙主导的未来,处理网络中不可见的延迟将与化身本身的视觉保真度一样重要。
](https://deep-paper.org/en/paper/file-1922/images/cover.png)