你是否曾看过电影里的 CGI 角色或者一个试图行走的人形机器人,总觉得哪里有点……不对劲?画面可能完美无瑕,机器人的关节可能闪烁着金属光泽,但脚似乎在地面上轻微滑动,就像在滑冰一样,或者身体看起来没有重量感,仿佛漂浮着。

这是人体动作捕捉 (Human Motion Capture, MoCap) 中的一个典型问题。目前大多数现代 AI 系统纯粹依赖视觉——即 RGB 摄像头——来估计人体姿态。它们非常擅长匹配人体的视觉几何结构 (比如肘部相对于肩膀的位置) ,但在理解物理学方面却表现糟糕。摄像头看得到人,却“感觉”不到地面。它忽略了主宰我们要如何运动的质量、重力和摩擦力。

在一篇题为 “MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond” 的精彩论文中,来自南京大学和清华大学的研究人员提出了一个解决方案: 通过压力图 (pressure maps) 赋予 AI 触觉。他们引入了一个庞大的新数据集和一种名为 FRAPPE 的新型神经网络架构,将视觉数据与地面压力读数融合,从而创造出不仅在视觉上相似,而且在物理上合理 (physically plausible) 的动作捕捉。

MotionPRO 概览,展示了多样的姿态和对应的压力图。

纯视觉 MoCap 的问题

在深入探讨解决方案之前,让我们先定义一下问题。目前的“最先进技术” (SOTA) 方法通常将姿态估计视为一种视觉匹配游戏。它们获取一张 2D 图像,并试图猜测 3D 形状 (通常使用 SMPL 人体模型) 。

然而,在缺乏深度信息的情况下,这是一个“不适定 (ill-posed) ”问题。AI 可能会猜测出一个从摄像头角度看是正确的、但在物理上不可能的姿态——比如一个人身体前倾过度却没有摔倒,或者悬浮在离地 5 厘米的地方。当应用于 3D 场景或机器人技术时,这些误差会导致滑步 (foot sliding)抖动 (jitter)穿模 (penetration,即脚穿过地板)

研究人员假设, 压力信号——即身体施加在地面上的力的分布——可以作为缺失的环节。压力反映了重力、平衡和接触,它可以作为一个视觉本身无法提供的硬性物理约束。

夯实基础: MotionPRO 数据集

要教会 AI 理解压力,你需要数据。不幸的是,现有的数据集要么太小,要么只专注于特定的活动 (如瑜伽或睡眠) ,要么缺乏同步的全身压力数据。

为了填补这一空白,作者构建了 MotionPRO , 这是一个大规模的多模态数据集。

用于数据采集的动作捕捉系统架构。

如上图所示,该数据采集系统非常全面。它包括:

  1. 光学 MoCap 系统: 12 个摄像头,提供关节位置的真值 (黄金标准) 。
  2. RGB 摄像头: 4 个视角,提供视觉输入。
  3. 压力垫: 一个高分辨率 (120x160 厘米) 的垫子,用于捕捉与地面的相互作用。

与前辈相比,MotionPRO 的规模是巨大的。它包含了 70 名志愿者执行的 400 种动作 , 总计超过 1240 万个姿态帧

MotionPRO 中 400 种动作类型的层级分布。

至关重要的是,动作的多样性确保了模型的泛化能力。如上面的层级图所示,该数据集不仅仅包含行走和跑步;它还涵盖了有氧运动、柔韧性练习、日常活动 (如捡东西) 以及专为人形机器人控制设计的特定动作。这种多样性使得在该数据上训练的神经网络能够理解各种人类行为中身体动力学与压力模式之间的相关性。

直觉: 为什么要用压力?

为什么压力信息量如此之大?考虑一下站立和蹲下之间的区别。从视觉上看,在某些角度下,遮挡可能让人很难确切分辨重心在哪里。但压力图讲述了一个不同的故事。

站立和蹲下时的压力对比。

站立时 (图 15 左) ,压力中心 (CoP) 靠近脚后跟。蹲下时 (右) ,为了保持平衡,重量会转移到脚趾。这种转移为 AI 推断下半身姿态提供了强有力的先验信息,即使腿部在视觉上被遮挡。

方法 1: 用脚“看”世界 (纯压力估计)

作者首先提出了一个基本问题: 我们能否使用压力图来估计全身姿态?

这看起来似乎是不可能的——仅凭脚印怎么知道手在哪里?然而,人体运动遵循动力链。如果你知道随时间变化的压力分布,你就可以推断出加速度和平衡,从而约束上半身可能的位置。

为了验证这一点,他们开发了一个利用长短期注意力模块 (LSAM) 的网络。

仅使用压力的姿态和轨迹估计。

该架构的工作原理是对压力帧进行编码,并将其通过 LSAM。

  • GRU (门控循环单元) : 捕捉短期的上下文动作。
  • 自注意力 (Self-Attention) : 捕捉长期依赖关系 (例如,下蹲的开始动作与动作底部的关系) 。

结果令人惊讶: 虽然它不能完美地预测手势 (这很自然) ,但纯压力模型实现了高精度的全局轨迹和合理的下半身姿态。这证明了压力数据包含着关于全身动力学的丰富潜在信息。

方法 2: FRAPPE – 融合 RGB 和压力

然而,最终的目标是结合两者的优点: RGB 图像的详细几何结构和压力的物理基础。作者提出了 FRAPPE (Fuses RGB And Pressure for human Pose Estimation,即融合 RGB 和压力的人体姿态估计) 。

架构

FRAPPE 在之前的架构上增加了一个 RGB 分支,并引入了一个融合交叉注意力模块 (Fusion Cross-Attention Module, FCAM)

融合压力和 RGB 进行全局姿态和轨迹估计的 FRAPPE 框架。

以下是融合的工作原理,也是这篇论文的“秘诀”所在:

  1. 双编码器: 一个分支处理视频 (使用预训练的 HRNet) ,另一个分支处理压力图。
  2. 交叉注意力 (FCAM) : 模型不仅仅是简单地拼接特征,而是使用了注意力机制。它将压力特征作为查询 (Query) , 将图像特征作为键 (Key) 和值 (Value)

为什么要用这种顺序? 作者认为压力包含了关于物理交互的“真相”。通过将压力作为查询,模型会向图像特征提问: “基于我在地面上感觉到的这种物理接触,什么样的视觉特征符合这种配置?” 这迫使视觉特征与物理现实保持一致。

正交投影约束

FRAPPE 中一个微妙但至关重要的创新是相机模型。大多数 3D 姿态估计器使用“弱透视投影”,这允许 AI 通过收缩或放大 3D 人体模型来适应 2D 图像进行“作弊”,从而经常搞乱深度信息。

FRAPPE 使用正交投影 。 这保留了深度方向上的比例。它迫使模型预测在 3D 空间中一致的轨迹,而不仅仅是在压扁到 2D 图像上时看起来不错。

损失函数 (网络试图优化的分数) 结合了几个因素:

\[ \begin{array} { r } { \mathcal { L } _ { F R A P P E } = \lambda _ { p o s e } \mathcal { L } _ { p o s e } + \lambda _ { 3 d } \mathcal { L } _ { 3 d } + \lambda _ { 2 d } \mathcal { L } _ { 2 d } } \\ { \lambda _ { t r a n s } \mathcal { L } _ { t r a n s } + \lambda _ { c o n t a c t } \mathcal { L } _ { c o n t a c t } , } \end{array} \]

值得注意的是,\(\mathcal{L}_{contact}\) 确保了当压力图显示脚应该接触地面时,预测的脚实际上接触了地面。

实验与结果

增加压力信息真的有帮助吗?定量和定性的结果都给出了肯定的答案。

视觉质量

在下面的对比中,请看“Squat (深蹲) ”和“Bend (弯腰) ”这两行。

人体姿态估计方法的定性比较。

  • CLIFF & VIBE (仅 RGB) : 注意腿部经常看起来不自然或漂浮。在深蹲中,膝盖和脚的对齐通常猜测错误。
  • Ours (FRAPPE) : 姿态是脚踏实地的。双脚稳稳地落在物理学规定它们必须在的地方。

全局轨迹

当追踪一个人随时间在 3D 空间中的运动时,改进更加明显。

全局轨迹估计的定性比较。

在顶部图表中 (垂直高度随时间变化) ,看看像 WHAM (绿色) 和 TRACE (橙色) 这样的标准方法。它们有明显的漂移,显示人漂浮起来或沉入地板。 FRAPPE (粉色) 几乎完美地追踪了真值 (GT,蓝色) 。这种稳定性对于动画和机器人技术至关重要;你绝不希望一个角色在过场动画中逐渐飘向天空。

下面的表格在数值上证实了这一点。FRAPPE 的根节点平移误差 (RTE)抖动 (Jitter) 得分大幅低于竞争对手。

MotionPRO 上的全局轨迹评估。

超越 MoCap: 驱动人形机器人

作者将他们的研究更进一步,应用到了具身智能 (Embodied AI) ——特别是人形机器人领域。

将人类动作转移到机器人身上是很困难的,因为机器人既重又刚性。如果你给机器人输入一个来自标准视觉算法的“漂浮”或“滑动”姿态,机器人就会失去平衡并摔倒。压力中心 (CoP) 必须准确无误。

真实机器人上的动作驱动

作者开发了一个流程,将 FRAPPE 的输出重定向到 NAO 人形机器人上。 机器人演示系统的框架。

通过使用经过压力优化的姿态,机器人能够以更高的稳定性模仿人类动作,与使用 CLIFF 等标准 RGB 方法得到的姿态相比,摔倒的风险更小。这意味着像 MotionPRO 这样的数据集可能对训练下一代通过观察人类来学习的通用机器人起到关键作用。

结论

MotionPRO 论文提出了一个令人信服的观点: 纯视觉动作捕捉已经触及了天花板。虽然摄像头给了我们纹理和几何结构,但它们遗漏了控制运动的基本力学。

通过整合压力图 , 作者证明了我们可以:

  1. 消除滑步和穿模。
  2. 大幅改善全局轨迹追踪。
  3. 实现更稳定的人形机器人控制。

对于进入该领域的学生来说,这项研究强调了一个重要的趋势: 多模态学习 。 计算机视觉的未来不仅仅是更好的摄像头;它是关于将视觉与其他传感器——触觉、深度和压力——融合,以构建真正理解物理世界的 AI。