引言

在计算机视觉领域,教机器理解人类运动一直是一个长期的目标。我们已经非常擅长追踪跑道上的跑步者、人行道上的行人或练功房里的舞者。这些被称为“地面运动 (ground-based motions) ”。其物理规律在某种程度上是可以预测的: 重力向下,双脚与平坦的地面相互作用。

但是,当人类离开地面时会发生什么?

攀岩对人体动作恢复 (Human Motion Recovery, HMR) 提出了一个迷人但极其困难的挑战。攀岩者不仅仅是在行走;他们是在解决垂直方向上的谜题。他们的身体扭曲成极端的姿势,四肢伸展到极限,且与环境的互动非常复杂——手和脚必须在微小的岩点上找到支撑,同时身体要对抗重力。大多数现有的 AI 模型都是基于行走或跑步数据训练的,当任务是分析攀岩者时,它们往往会彻底失败。它们难以理解攀岩者在“世界”中的位置 (全局位置) ,并且经常臆测出在垂直墙壁上物理上不可能存在的姿势。

这就引出了一篇突破性的论文,题为 “ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate” (ClimbingCap: 世界坐标系下的攀岩多模态数据集与方法) 。 在这篇文章中,我们将深入探讨一组研究人员如何解决“离地”动作捕捉的问题。他们不仅调整了现有的算法;他们构建了一个名为 AscendMotion 的庞大新数据集,并设计了一种名为 ClimbingCap 的新颖方法,该方法巧妙地融合了视觉数据 (RGB) 与深度数据 (LiDAR) ,以前所未有的精度重建攀岩动作。

ClimbingCap 方法和 AscendMotion 数据集概览。

如图 1 所示,该系统旨在接收原始传感器数据并输出攀岩者的数字孪生体,包含精确的骨骼追踪和全局轨迹。

背景: 为什么攀岩捕捉如此困难?

要欣赏解决方案,我们必须首先理解问题所在。传统的动作捕捉 (MoCap) 通常依赖于标记点——那些贴在紧身衣上的像乒乓球一样的小球——并由演播室中的摄像机阵列进行捕捉。这对电影制作很有效,但对运动员来说具有侵入性,且几乎无法在巨大的户外岩壁上架设。

另外,“无标记 (markerless) ”捕捉使用标准视频 (RGB) 。虽然便于获取,但标准视频缺乏深度信息。如果攀岩者伸手去抓一个岩点,单台摄像机很难确定那只手离墙壁究竟有多远。此外,计算机视觉模型存在坐标模糊性 (coordinate ambiguity) 。 它们可能正确估计了身体的姿势 (例如,膝盖弯曲了 90 度) ,但无法将身体正确地放置在 3D 世界中 (例如,攀岩者悬浮在离墙两英尺的地方) 。

研究人员确定了该领域的两个主要空白:

  1. 数据稀缺: 缺乏大规模、高质量的攀岩 3D 标注数据集。
  2. 方法局限性: 现有方法无法处理攀岩的“离地”特性,而在攀岩中,全局位置与局部身体姿势同样重要。

基础: AscendMotion 数据集

没有优质的数据,就无法训练出卓越的 AI。这项工作的第一个主要贡献是 AscendMotion , 这是一个在规模和复杂性上都令以往尝试相形见绌的数据集。

硬件设置

为了捕捉攀岩的复杂细节,研究人员不再局限于简单的视频。他们构建了一个多模态硬件系统,能够记录在时间和空间上同步的数据流。

用于数据采集的多传感器硬件设置。

如图 3 所示,这个采集装置是一个技术巨兽:

  • LiDAR (Ouster-OS1): 该传感器发射激光脉冲,以创建攀岩者和墙壁的精确 3D 点云。它的工作频率为 20Hz。
  • RGB 摄像机 (Hik 1080P): 捕捉标准视频,提供视觉背景和纹理。
  • IMU 系统 (Xsens MVN): 对于数据集的“已标注”部分,攀岩者穿着带有 17 个惯性测量单元 (IMU) 的套装。这些传感器测量加速度和旋转,为身体的移动方式提供“真值 (ground truth) ”。
  • 3D 扫描仪: 岩壁本身经过预先扫描,以创建环境的完美数字副本。

该数据集包含 22 名熟练的攀岩者 (包括教练) 在 12 面不同的岩壁上的攀爬过程。这个区别很重要;熟练的攀岩者的运动方式与新手不同。他们使用的技术如“侧身平衡 (flagging) ”或“折膝 (drop knees) ”需要复杂的生物力学。

标注流程

收集原始数据只是成功的一半。要训练 AI,你需要“标签”——即告诉 AI 它正在看什么的正确答案。研究人员开发了一套复杂的流程来生成这些标签。

AscendMotion 标注流程: 从预处理到人工修复。

图 4 概述了这一严格的过程。这不仅仅是信任 IMU 套装那么简单。IMU 传感器存在“漂移 (drift) ”现象——随着时间的推移,计算出的位置会偏离现实。为了解决这个问题,该流程采用了多阶段全局优化 (Multi-stage Global Optimization) :

  1. 预处理: 同步 LiDAR、RGB 和 IMU 数据的时间和空间。
  2. 全局重拟合与场景接触: 系统优化身体位置,使数字替身实际接触岩壁 (场景接触损失 Scene Touch Loss) 并与 LiDAR 点云对齐 (全局重拟合损失 Global Refit Loss) 。
  3. 人工修复: 最后,人工标注员验证数据,纠正自动化系统可能导致肢体扭曲不自然的任何错误。

结果是一个包含 412,000 帧的高精度、高难度的攀岩动作数据集。

核心方法: ClimbingCap

有了数据,研究人员提出了 ClimbingCap 。 这是一种专门设计用于处理攀岩难题的全局人体动作恢复 (HMR) 方法。

ClimbingCap 的“独门秘籍”在于它处理坐标系的方式。它采用了一种分离坐标解码 (Separate Coordinate Decoding) 的策略。它不是试图一次性猜测所有内容,而是利用每种传感器类型的优势:

  • RGB 图像非常适合理解姿势 (身体形状和关节角度) 。
  • LiDAR 点云非常适合理解位置 (身体在 3D 世界中的位置) 。

ClimbingCap 框架的详细架构。

图 2 提供了架构蓝图。该框架分三个不同阶段运行: 分离坐标解码、后处理和半监督训练。让我们逐一分解。

第一阶段: 分离坐标解码

网络接收两个输入: 一系列图像和一系列点云。

相机坐标解码器 (Camera Coordinate Decoder) 专注于 RGB 数据 (由点云特征增强) 。它利用 Transformer 架构 (ViT) 提取特征。它的工作是预测 SMPL 参数。 (SMPL 是一个标准的数字人体模型,控制形状 \(\beta\) 和姿势 \(\theta\)) 。

解码器输出的数学公式为:

解码器输出 token 的方程。

在这里,解码器接收一个 token 和骨干网络特征,输出一个状态 \(\mathbf{t}_{out}\)。然后,该 token 用于迭代更新身体姿势和形状。

同时, 全局平移解码器 (Global Translation Decoder) 专注于 LiDAR 数据。由于 LiDAR 提供原生 3D 深度,它的任务是弄清楚攀岩者在世界中的确切位置。它预测全局平移参数 \(\Gamma^{trans}\)。

更新全局平移参数的方程。

通过迭代更新平移参数 (\(\Psi\) 代表权重矩阵) ,该模型允许数字攀岩者在虚拟空间中“攀爬”,以此匹配现实世界的轨迹。

为了确保网络正确学习,训练过程使用了一个复合损失函数:

总损失函数方程。

这个方程可能看起来令人生畏,但它是一系列逻辑约束的总和:

  • \(\mathcal{L}_{kp3d}\) 和 \(\mathcal{L}_{kp2d}\): 关键点损失。数字关节 (肘部、膝盖) 应在 3D 空间和 2D 图像投影中与真实关节匹配。
  • \(\mathcal{L}_{\theta}^{smpl}\) 和 \(\mathcal{L}_{\beta}^{smpl}\): SMPL 损失。预测的身体姿势和形状参数必须与真值匹配。
  • \(\mathcal{L}_{traj}\): 轨迹损失。攀岩者在墙上的路径必须与现实一致。

第二阶段: 后处理

即使是最好的深度学习模型也可能产生“抖动”或物理上不一致的结果。后处理阶段对输出进行细化。

研究人员使用外参矩阵 (相机和 LiDAR 之间已知的物理关系) 将姿势从相机坐标系转换到世界坐标系。

他们在这里应用了三种特定的优化:

  1. 肢体权重差异化 (Limb Weight Differentiation, \(L_{LWD}\)) : 并非所有身体部位都同样稳定。躯干通常比挥舞的四肢更稳定。这种加权有助于稳定核心位置。
  2. 速度方向平滑 (Speed Direction Smoothing, \(L_{SDS}\)) : 在攀岩中,速度变化是平滑的。你不会瞬间传送或以光速反转方向。这种平滑约束确保了自然的运动。
  3. 可见肢体修复 (Visible Limb Repair, \(L_{VLR}\)) : 有时肢体会被遮挡 (对相机隐藏) 。这一步利用 LiDAR 点云“找到”缺失的肢体并纠正其姿势。

第三阶段: 半监督训练

ClimbingCap 最聪明的地方之一是它处理数据的方式。标注数据 (给攀岩者穿上 MoCap 套装) 既昂贵又缓慢。然而,记录原始视频和 LiDAR (不穿套装) 则既便宜又快速。

研究人员使用了教师-学生 (Teacher-Student) 框架。

  1. 他们在已标注数据上训练了一个“教师”模型。
  2. 他们将未标注数据输入给教师模型。
  3. 教师模型对这些新数据做出最佳猜测 (伪标签) 。
  4. 然后,一个“学生”模型在原始已标注数据教师的伪标注数据上进行训练。

这种半监督方法使得模型能够学习比仅使用标注数据集时更多样化的动作。

实验与结果

这行得通吗?研究人员将 ClimbingCap 与几种最先进的方法进行了比较,包括仅使用 RGB 的方法 (如 WHAM 和 TRACE) 以及基于 LiDAR 的方法。

定量分析

AscendMotion 数据集上的结果被分为“水平 (Horizontal) ”和“垂直 (Vertical) ”场景。由于反重力的姿势,垂直场景通常更难。

ClimbingCap 与其他方法在 AscendMotion 上的对比表。

表 3 显示 ClimbingCap 取得了明显的胜利。

  • MPJPE (平均关节位置误差) : 这衡量了关节与现实的偏差程度。越低越好。在垂直场景中,ClimbingCap 达到了 75.45 的 MPJPE,而排名第二的方法 (GVHMR) 为 107.09。
  • W-MPJPE (世界坐标系 MPJPE) : 这是终极测试——关节在全局 3D 世界中是否正确?ClimbingCap 达到了 78.99 , 彻底击败了纯 RGB 方法,后者的得分通常超过 200 甚至 600。这证明了集成 LiDAR 对于全局精度至关重要。

研究人员还在一个完全不同的数据集 CIMI4D 上测试了模型,以检查其泛化能力。

ClimbingCap 在 CIMI4D 数据集上的对比表。

  • (注: 参考图片组中提供的 CIMI4D 表格,即源文本中标注为表 4 的内容) *

即使在一个并非为其主要设计的数据集上,ClimbingCap 也保持了卓越的性能,表明该方法具有鲁棒性,而不仅仅是记住了训练数据。

定性分析

数据固然重要,但视觉证据往往更有说服力。

攀岩场景下的骨骼叠加定性对比。

在图 5 中,我们可以看到并排对比。

  • 左侧 (相机坐标系) : 注意标准方法 (如 TRACE 或 WHAM) 经常无法将骨骼与图像对齐,尤其是在复杂的伸展动作期间。
  • 右侧 (世界坐标系) : 差异非常明显。红圈突出了其他方法的错误——悬浮的双脚、扭曲的躯干,或者攀岩者位于墙壁内部。“Ours”一栏 (ClimbingCap) 显示攀岩者正确地附着在墙上,四肢自然地伸向岩点。

消融实验: 我们需要所有部分吗?

科学需要验证。研究人员进行了消融实验,移除了系统的部分组件以观察结果。

显示移除不同组件影响的消融研究结果。

表 5 说明了一切:

  • 仅 RGB 输入: 没有 LiDAR,误差 (MPJPE) 从 75.45 跃升至 105.67。这证实了仅凭视觉数据不足以实现高精度的全局攀岩捕捉。
  • 无半监督 (w/o SS) : 移除教师-学生训练增加了误差,证明额外的未标注数据有助于模型学习更好的表征。
  • 无 SDS (平滑) : 移除速度平滑导致精度显著下降,突显了物理运动约束的重要性。

结论与启示

“ClimbingCap” 论文代表了体育计算机视觉领域向前迈出的重要一步。通过摒弃传统动作捕捉的“平坦地面”假设,研究人员开启了分析复杂 3D 环境中人类运动的大门。

主要收获:

  1. 环境至关重要: 如果不理解墙壁 (场景) 和全局位置,就无法准确捕捉攀岩动作。
  2. 传感器融合是关键: RGB 提供姿势;LiDAR 提供位置。通过分离坐标解码将它们结合起来,可以两全其美。
  3. 数据为王: AscendMotion 的创建为研究界提供了一个基准,用于测试未来的“离地”算法。

这项技术的意义不仅仅在于帮助运动员改进攀爬策略。这里使用的原则——将场景几何与身体姿势相结合——可以应用于建筑工人安全监控、搜救机器人,或任何人类与复杂的垂直环境互动的领域。通过教 AI “攀岩”,我们正在教它以真正的三维视角理解世界。