引言

在计算机视觉领域,理解人类运动是一项基石任务。无论是用于医疗康复系统、安全监控,还是生成逼真的视频动画,计算机不仅需要知道人在哪里,还需要知道他们如何移动。

多年来,研究人员主要依赖两大工具: 光流 (Optical Flow) (跟踪每个像素的移动) 和姿态估计 (Pose Estimation) (跟踪骨架关节) 。虽然两者都很有用,但它们都有明显的缺陷。光流充满噪声——它会像关注人类主体一样关注飘动的树叶和过往的车辆。姿态估计则精确但过于抽象——它将复杂的人体简化为火柴人,丢失了至关重要的形状信息。

如果我们能结合两者的优点呢?如果我们能教计算机像我们一样看待运动——聚焦于人类,忽略背景,并同时理解整体轨迹和肢体的细微动作呢?

这就引出了 H-MoRe , 这是由密歇根州立大学的研究人员提出的一种新颖的“以人为中心”的运动表示 (Human-centric Motion Representation) 流程。这就论文提出了一种方法,能够动态过滤背景噪声,捕捉精确的人体运动和形状,而且可以直接从真实世界的视频中学习,无需昂贵的人工标注。

问题所在: 噪声与抽象

要欣赏 H-MoRe,我们需要先看看当前技术的局限性。

光流计算的是两个连续帧之间像素的运动偏移量。它创建了一个密集的运动图。问题在于?它是“对人类视而不见”的。如果一个人走过一棵摇曳的树,光流图会像捕捉人的运动一样生动地捕捉树的运动。此外,这些模型通常是在合成数据 (计算机生成的电影) 上训练的,这意味着它们有时难以处理真实人类运动的生物学细微差别。

另一方面, 人体姿态估计检测关节 (肘部、膝盖、肩膀) 。它是严格以人为中心的。然而,它丢弃了身体形状。如果你想通过步态 (走路的方式) 来识别一个人,他们的体型和衣服移动的方式很重要。火柴人无法捕捉到这些。

H-MoRe 与其他运动表示方法的比较。顶行显示姿态相关的方法 (2D、3D、PoseFlow) 。底行显示流相关的方法。注意 H-MoRe (右下角) 如何捕捉到清晰的人体边界,而不像标准光流那样。

如上图 1 所示,H-MoRe (红框高亮显示) 提供了一种清晰、干净的表示。与模糊且嘈杂的标准光流不同,H-MoRe 精确地勾勒出人物轮廓。与姿态表示不同,它保留了身体形状的密集运动信息。

解决方案: H-MoRe

研究人员提出了一个流程,可以直接从原始视频中学习估计这种“以人为中心”的运动。核心创新主要体现在两个方面:

  1. 联合约束学习框架 (Joint Constraint Learning Framework) , 利用物理学和形状信息来监督学习过程。
  2. 世界-局部流 (World-Local Flows) 的概念,将运动分离为绝对分量和相对分量。

1. 联合约束学习框架

训练运动模型的最大障碍之一是缺乏“真值 (ground truth) ”数据。你很难获得真实 YouTube 视频的完美像素级运动图。

H-MoRe 通过使用自监督方法解决了这个问题。该模型通过确保其预测遵循源自视频本身的两个逻辑约束来学习: 骨架约束边界约束

训练流程。系统接收两帧图像,估计光流,并应用两个约束: 骨架约束 (绿色) 和边界约束 (蓝色) 。

骨架约束 (\(\mathcal{F}\))

这个约束基于运动学。假设很简单: 靠近骨骼的“肉” (像素) 的运动方向不应该与骨骼本身完全不同。

系统使用标准的姿态估计器提取人体骨架。然后,它检查估计的运动流。如果属于手臂的像素向左移动,但骨架手臂向右移动,模型就会受到惩罚。这使得像素级的运动与身体的运动学结构保持一致。

边界约束 (\(\mathcal{G}\))

这个约束侧重于形状。它确保预测运动流的边缘与图像中人体的实际边缘对齐。

研究人员使用边缘检测来找到人体轮廓。然后,他们强制光流图的“边缘”与该轮廓匹配。这防止了标准光流中常见的“溢出”效应,即人的运动模糊到了背景中。

约束细节。(a) 将身体点与骨架匹配。(b) 角度约束确保运动跟随骨骼方向。(c) 强度约束。(d) 将光流边缘与人体边界匹配。

图 5 (上图) 直观地分解了这一点。

  • 面板 (b) 和 (c) 展示了模型如何检查流向量 (\(u_p\)) 是否在角度和强度上与骨架向量 (\(k_q\)) 一致。
  • 面板 (d) 说明了边界约束,确保流边缘 (\(s\)) 紧贴人体边界 (\(e\))。

2. 世界-局部流

这就论文的第二个主要贡献是它如何表示运动。标准光流通常给出相对于相机的绝对运动。但人类的运动是复杂的。

想象一个人边向前走边挥手。

  • 世界流 (World Flow, \(M_w\)) : 这是手相对于环境的运动。它结合了行走速度和挥手速度。
  • 局部流 (Local Flow, \(M_l\)) : 这是手相对于人体自身的运动。它分离出了“挥手”这个动作。

H-MoRe 同时捕捉这两者。

世界流与局部流的定义。世界运动 (Mw) 是相对于环境的。局部运动 (Ml) 是相对于主体的。

这为什么重要?对于某些任务,比如在房间里追踪一个人,世界流至关重要。对于其他任务,比如识别特定的手势 (例如“看手表”) ,局部流的信息量大得多,因为它忽略了人走得有多快。

计算效率

计算两个不同的流图通常需要两个庞大的神经网络,这会使计算成本翻倍。作者利用了受伽利略变换启发的巧妙运动学技巧。

他们首先计算世界流 (\(M_w\))。然后,他们不运行庞大的网络来获取局部流,而是使用一个轻量级网络来估计主体的整体速度 (\(v_s\))。通过简单地从世界流中减去整体速度,他们在数学上得到了局部流:

\[M_l = M_w - v_s\]

这使得 H-MoRe 能够在不牺牲实时性能的情况下提供丰富、多层次的运动信息。

实验结果

研究人员在三个不同的任务上测试了 H-MoRe: 步态识别、动作识别和视频生成。

步态识别

步态识别通过走路的方式来识别身份。当人们换衣服或背包时,这通常非常困难。

步态识别的定量比较。H-MoRe 在 CASIA-B 数据集上优于标准光流方法 (RAFT, GMA 等) 。

如表 1 所示,H-MoRe 显著优于最先进的光流方法 (如 RAFT 和 FlowFormer++) 。

  • CL (换衣场景) : 看“CL”这一列。这是最难的测试。H-MoRe 达到了 87.66% 的准确率,而流行的 RAFT 模型仅达到 80.52%。边界约束在这里可能发挥了巨大作用,因为它确保了即使衣服改变,身体形状也能被保留下来。

动作识别

这个任务涉及对人在做什么进行分类 (例如,跳水、跑步) 。研究人员使用了 Diving48 数据集,该数据集具有快节奏的运动和模糊。

动作识别和视频生成的定量比较。

在表 2 中,H-MoRe 再次领先。它达到了 72.99% 的准确率 (Acc@1) ,比最接近的竞争对手高出 1% 以上。虽然这看起来很小,但在竞争激烈的动作识别领域,这是一个稳固的优势,特别是考虑到 H-MoRe 比笨重的“VideoFlow”或“FlowFormer++”模型要高效得多。

视频生成

H-MoRe 质量最直观的证明可能是在视频生成方面。研究人员将运动表示输入到生成模型中,看它是否能重建视频帧。

视频生成的定性比较。注意 RAFT (中间列) 中的伪影与 H-MoRe (右列) 中清晰的重建对比。

仔细观察图 6。

  • GT: 真值 (视频原本的样子) 。
  • RAFT: 使用标准光流生成的视频。注意模糊的手和“重影”效应。模型对哪里是手、哪里是背景感到困惑。
  • H-MoRe: 视频清晰得多。因为 H-MoRe 强制执行严格的边界,生成模型确切地知道在哪里渲染人体像素。

光流的可视化

最后,让我们看看计算机实际上“看到”了什么。

流图的视觉比较。与其他方法的噪点团块相比,H-MoRe (右下红框) 显示了清晰的人体形状流。

在图 7 中,比较 H-MoRe [World Flow] (右下角) 与 RAFTGMA

  • 其他方法: 光流溢出边缘。脚部是模糊的团块。
  • H-MoRe: 光流看起来像是一个完美的人体剪影。你可以清楚地看到腿和公文包。旁边的 局部流 (Local Flow) 可视化分离了相关的肢体运动,提供了动作机制独特的“透视”视图。

结论

H-MoRe 代表了人体运动分析向前迈出的重要一步。通过承认“像素不是随机移动的”——它们是根据骨架和边界移动的——研究人员创建了一个既在物理上合理又在视觉上精确的系统。

世界-局部流的引入为计算机理解动作提供了更丰富的词汇,区分了“在空间中移动”和“移动身体”。无论是用于识别安全录像中的步态,还是在元宇宙中生成栩栩如生的虚拟化身,H-MoRe 证明了在分析人类时,以人为中心是值得的。

作者已公开了代码和模型,为未来在实时体育分析、医疗监控等领域的应用铺平了道路。