引言

人类手部的灵巧性是我们物种的一个决定性特征。无论是组装家具、编写代码,还是搅拌鸡蛋,我们都在不断地与物理世界互动以操纵物体。对于人工智能而言,理解这些交互是具身感知 (embodied perception) 的圣杯。如果 AI 能够真正理解手和物体如何在 3D 空间中协同移动,我们将解锁无限可能——从向机器人传授操作技能,到创建能将任何表面变成虚拟键盘的增强现实 (AR) 界面。

然而,计算机视觉的愿景与现实之间存在巨大差距。目前的系统很难从第一人称 (以自我为中心) 的视角可靠地追踪手和物体的 3D 运动、形状和接触情况。一个主要的瓶颈在于缺乏数据——具体来说,是缺乏能够反映 AR 眼镜等现实世界设备复杂性的数据。

这正是 HOT3D 数据集的用武之地。由 Meta Reality Labs 的研究人员创建的 HOT3D 是一个大规模的、多视角的自我中心数据集,旨在突破 3D 手物追踪的界限。

HOT3D 概览,展示了来自 Aria 和 Quest 3 的多视角帧以及 3D 模型。

在这篇文章中,我们将拆解 HOT3D 论文,探讨这个数据集是如何构建的,它与前辈有何不同,以及其实验基准如何证明多视角系统是自我中心视觉的未来。

背景: 为什么我们需要 HOT3D?

要理解 HOT3D 的重要性,我们首先必须回顾该领域计算机视觉数据集的历史。从历史上看,研究一直被分为两个孤岛: 仅手部 (hands-only)仅物体 (objects-only)

  • 仅手部数据集 专注于姿态估计,但忽略了被操纵的物体。
  • 仅物体数据集 专注于刚性物品的六自由度 (6DoF) 姿态估计,但忽略了握持它们的手。

虽然近年来出现了一些试图结合两者的尝试 (如 HO-3D 或 DexYCB) ,但它们通常存在局限性。许多数据集依赖于“第三人称” (外视) 相机,这无法反映用户通过 AR 眼镜看到的内容。其他数据集使用合成数据,缺乏现实世界的噪声和光照细微差别。此外,极少有数据集提供 多视角自我中心视频——即来自头显上多个相机的同步流——而这在 Meta Quest 3 等现代设备上已是标准配置。

比较 HOT3D 与 ARTIC、HOI4D 和 DexYCB 等现有数据集的表格。

如上表所示,HOT3D 的独特之处在于它提供了超过 370 万张图像,这些图像具有来自真实头显的硬件同步流,并标注了高质量的动作捕捉 (MoCap) 数据。就图像数量而言,它是目前提供这种级别自我中心保真度的最大数据集。

核心贡献: 构建 HOT3D

研究人员构建 HOT3D 旨在促进各种任务的训练和评估,包括 3D 手部追踪、物体姿态估计和 3D 重建。让我们来分解使该数据集独一无二的组件。

1. 硬件: 真实设备

与使用绑在头盔上的相机来模拟自我中心视角的数据集不同,HOT3D 使用了实际的消费者和研究硬件:

  • Project Aria: 一款轻量级 AI 眼镜的研究原型。它捕捉 RGB、黑白 (monochrome) 和视线 (eye-gaze) 数据。
  • Meta Quest 3: 一款广泛发货的 VR/MR 头显。

Project Aria 研究眼镜。

Meta Quest 3 头显。

使用这些设备可确保数据包含算法在实际部署中将面临的特定光学特征 (如鱼眼畸变和特定的相机基线) 。

2. 数据: 规模与多样性

该数据集包含 833 分钟的录像,共有 19 名受试者与 33 种不同的刚性物体进行互动。场景不仅仅是简单的“拿起和放下”任务;它们模拟了厨房、办公室和客厅中的动作。

为了确保视觉数据的稳健性,研究人员收集了:

  • 超过 150 万帧多视角画面 (总计 370 万+ 张独立图像) 。
  • 视线信号 (来自 Aria) 。
  • 3D 点云 (来自同步定位与建图 SLAM) 。

Project Aria 记录的传感器流,包括 RGB、黑白和 IMU 数据。

3. 真值: 精密动作捕捉

任何基准数据集的“秘诀”都在于其真值 (Ground Truth) 的准确性。如果标签错误,在其上训练的模型就会有缺陷。

作者利用了一个配备了数十个红外 OptiTrack 相机的专业动作捕捉实验室。受试者的手和物体上都贴有小型光学标记点。这使得团队能够捕捉毫米级精度的 6DoF 姿态。重要的是,标记点足够小 (3mm) ,以避免干扰自然的灵巧操作。

配备红外相机的动作捕捉实验室设置。

4. 物体

该数据集包含 33 种物体,从厨房用具 (杯子、碗) 到办公用品 (订书机、玩具) 。这些不是通用的 CAD 近似模型;它们是具有基于物理渲染 (PBR) 材质的高分辨率扫描件,如果需要,可以进行照片级逼真的渲染。

数据集中使用的 33 种物体的高质量 3D 网格模型。

对数据集的一项有趣的统计分析揭示了这些物体在会话期间的“生活”。如下图所示,虽然键盘等物品大多保持静止,但“白色马克杯”在所有录音中累计移动了 700 多米,使其成为数据集中的“探险家”。

图表显示数据集中各种物体移动的距离。

实验与基准

作者不仅发布了数据;他们还建立了强大的基准,以证明 多视角 信息的价值。他们评估了三个主要任务: 3D 手部姿态追踪、6DoF 物体姿态估计和手持物体的 3D 提升 (3D Lifting) 。

任务 1: 3D 手部姿态追踪

挑战: 估计每一帧中手部关节的 3D 位置。

方法: 研究人员利用了 UmeTrack , 一种统一的多视角追踪器。他们比较了该模型的单视角版本与利用头显提供的立体 (双视角) 信号的版本。

结果: 实验突显了一个关键的“域差距 (domain gap) ”。仅在先前数据集 (如 UmeTrack 数据集) 上训练的追踪器在 HOT3D 上测试时失败了,因为它没有见过手物交互,只见过手手交互。

然而,最重要的发现是多视角数据的影响。当允许追踪器使用两个视角 (立体) 时,与单视角方法相比,错误率显着下降。多视角几何有助于解决歧义——例如,当手指在一个相机中被遮挡但在另一个相机中可见时。

示例 3D 手部姿态追踪结果,显示骨架和网格。

训练数据集视角HOT3D 上的 MKPE (mm)
HOT3D-Quest31 (单视角)18.0
HOT3D-Quest32 (多视角)13.1

注: MKPE 代表平均关键点位置误差 (Mean Keypoint Position Error)。数值越低越好。

任务 2: 6DoF 物体姿态估计

挑战: 确定已知物体相对于相机的精确位置和旋转 (6 个自由度) 。

方法: 作者改编了 FoundPose , 这是一种通常使用 DINOv2 特征在单张图像上工作的方法。他们将其扩展为多视角框架。该系统在所有可用视角中裁剪物体,检索模板,并通过同时在 所有 视角中寻找 2D 图像与 3D 模型之间的对应关系来求解姿态。

FoundPose 的 6DoF 姿态估计结果示例。

结果: 正如假设的那样,多视角扩展明显优于单视角基准。召回率 (正确估计姿态的百分比) 增加了 8–12%。

为什么?看上面的图片 (图 7) 。在底行中,物体在 RGB 视角中被手严重遮挡。单视角方法在这里很可能会失败。然而,侧面的黑白相机有更清晰的视线,允许多视角系统准确锁定物体的姿态。

表格显示 FoundPose 在单视角与多视角下的召回率。

任务 3: 手持物体的 3D 提升

挑战: 给定物体的 2D 掩码 (知道它在图像中的 位置) ,估计其 深度 和 3D 空间位置。这对于将未知物体“导入”系统至关重要。

方法: 研究人员比较了三种方法:

  1. HandProxy: 假设物体位于手部中心。
  2. MonoDepth: 使用神经网络从单张图像预测深度。
  3. StereoMatch (新基准) : 一种多视角方法,使用 DINOv2 特征在立体图像之间寻找匹配点并对物体深度进行三角测量。

结果: StereoMatch 方法显然是赢家。单目深度估计通常在绝对尺度上挣扎——它可能知道物体“很远”,但不知道 确切 是 55 厘米远。立体匹配利用头显相机之间固定的物理距离,通过三角测量计算精确深度。

手持物体 3D 提升的示例结果。

在上面的可视化 (图 9) 中,您可以看到投影到 3D 的结果。红点 (StereoMatch) 与绿点 (真值) 始终保持一致,而蓝点 (MonoDepth) 通常沿光轴 (视线方向) 漂移,表明存在深度误差。

任务 4: 2D 分割

最后,论文评估了当前模型识别属于手持物体的像素的能力。他们比较了 EgoHOS (一种专门的手物分割模型) 与在内部数据上训练的标准 Mask R-CNN

EgoHOS 与 Mask R-CNN 的分割掩码比较。

有趣的是,将预测的深度图输入 Mask R-CNN (论文中表示为 MRCNN-DA) 产生了最好的结果。这表明,即使对于 2D 任务,理解 3D 几何 (深度) 也有助于 AI 将前景物体从杂乱的背景中分离出来。

比较分割准确率 (mIoU) 的表格。

结论与启示

HOT3D 的发布标志着自我中心计算机视觉的关键时刻。通过提供一个结合了大数据规模与动作捕捉精度的数据集——并且是在定义下一代计算的硬件上完成的——作者为该领域建立了一个新标准。

论文中进行的实验讲述了一个连贯的故事: 双眼胜过单眼。 无论是追踪手部细微的手指运动,还是定位用户手中的咖啡杯,多视角方法始终优于单视角方法。

对于学生和研究人员来说,启示很明确:

  1. 上下文是关键: 算法必须考虑到可穿戴头显的独特几何结构。
  2. 立体视觉至关重要: 仅依赖单目线索会限制性能;利用 Quest 3 等设备上已有的多相机设置是前进的方向。
  3. 交互很重要: 在静态物体或孤立手部上训练的模型无法捕捉动态交互的复杂性。

HOT3D 不仅仅是一个数据集;它是一张路线图,用于构建能够从我们的视角看世界,并充分理解我们的行为以帮助我们更好地执行任务的 AI。