引言
想象一下在虚拟现实中弹钢琴。你可以看到你的数字双手悬停在琴键上方,但当你弹奏和弦时,却产生了一种脱节感。你感觉不到阻力,系统也很难确切知道你按下的力度有多大。或者考虑一个试图拿起塑料杯的机器人;如果不知道它施加了多少压力,它可能会捏碎杯子或者让杯子掉落。
在计算机视觉的世界里,我们已经非常擅长确定物体在哪里 (姿态估计) 以及它们是什么 (物体识别) 。然而,理解物理交互——特别是触摸接触和压力——仍然是一个巨大的挑战。这在“第一视角 (Egocentric) ”视觉中尤其困难,而这正是 AR/VR 头显和人形机器人的标准视角。
问题的根源在于缺乏数据。现有的数据集要么完全缺乏压力信息,要么依赖于第三视角的静态相机,要么要求用户戴上笨重的手套,从而破坏了自然的触觉反馈。
EgoPressure 应运而生,这是一篇开创性的研究论文,介绍了一个海量数据集和一种从第一视角估计手部压力和姿态的新方法。通过结合头戴式相机、多视角装置和高分辨率压力垫,研究人员创造了一种方法,不仅能教机器看懂手,还能理解手施加的力。

背景: 为什么触觉很重要
要理解 EgoPressure 的重要性,我们需要审视手-物交互 (HOI) 的现状。
纯视觉方法的局限性
传统上,如果你想知道一只手是否在触摸桌子,你会看像素。如果手的像素与桌子的像素重叠,你就假设发生了接触。但这并不精确。一只手悬停在表面上方 1 毫米处,与一只手向下施加 10 牛顿的力,看起来几乎一模一样。
传感器的问题
以前解决这个问题的尝试涉及在用户身上安装仪器。研究人员会在手套上放置压力传感器。虽然准确,但这具有侵入性。它改变了用户与物体交互的方式,并遮挡了手部的视觉外观,使得数据对训练基于视觉的 AI 用处不大。
EgoPressure 填补的空白
如下面的对比表所示,之前的数据集存在空白。有些有压力数据但没有手部姿态。有些有姿态但没有压力。很少有第一视角 (Egocentric) 的。EgoPressure 通过提供以下内容填补了这一空白:
- 第一视角视频: 由头戴式相机拍摄。
- 准确的手部姿态: 手部的 3D 网格。
- 真值压力 (Ground Truth Pressure) : 来自传感器垫的精确力学图谱。
- 无手套: 双手是裸露的,确保了自然的交互。

EgoPressure 数据集
这项工作的基础是数据采集装置。研究人员不仅录制了视频;他们还构建了一个同步的多传感器环境。
采集装置
该设置涉及 21 名参与者 执行各种手势 (按压、拖动、捏合) ,共计 5 小时 的镜头。该装置包括:
- 一台头戴式相机: 捕捉第一视角 (用户所看到的) 。
- 七台静态相机: 放置在用户周围,从各个角度捕捉手部。
- Sensel Morph 触控板: 一个高分辨率压力传感器,作为交互表面。

一个巧妙的工程细节是同步方法。团队使用了放置在触控板周围的主动红外 (IR) 标记 (如上图 4 所示) 。这些标记以特定的模式闪烁,使系统能够完美同步相机和压力垫之间的时间,确保视觉帧与毫秒级的压力数据相匹配。

核心方法: 无标记标注
收集数据只是战斗的一半。原始数据由视频文件和压力读数组成。挑战在于将它们联系起来: 如何获得一个与压力读数完美对齐的精确 3D 手部网格?
研究人员提出了一种无标记标注方法 (Marker-less Annotation Method) 。 他们没有在手上使用动作捕捉标记,而是使用了一个基于视觉数据和压力数据来优化手部形状的管线。
优化管线
该过程分为初始化阶段和两个细化阶段。

1. 初始化
首先,他们使用现成的工具来获得一个粗略的起点。他们使用 HaMeR (一种最先进的手部估计器) 来猜测初始姿态,并使用 Segment-Anything (SAM) 将手从背景图像中分割出来。
2. 姿态优化
系统创建一个 3D 手部模型 (使用 MANO 拓扑结构) 。它尝试对齐这个 3D 模型,使其同时与所有 7 个静态相机的图像相匹配。
这一阶段的目标函数如下所示:

这里,\(\mathcal{L}_{\text{pose}}\) 最小化渲染的手部与真实图像之间的差异 (\(\mathcal{L}_{\mathcal{R}}\)) ,同时确保网格不会发生自相交 (\(\mathcal{L}_{\text{insec}}\)) 。
3. 形状细化与“虚拟相机”
这是该方法最具创新性的部分。标准的视觉算法通常在深度方面表现不佳——一只手看起来像是在触摸桌子,但在 3D 空间中,它可能略微漂浮在桌子上方,或者穿模穿过了桌子。
为了解决这个问题,研究人员引入了一个虚拟正交相机 (Virtual Orthogonal Camera) 。 想象一个放置在触控板下方的相机,向上看着手部。
- 压力传感器确切地告诉我们手在触摸哪里。
- 系统从这个虚拟的仰视角度渲染手部网格。
- 然后它优化手部形状,使网格的“接触”部分与压力读数完美对齐。
该形状细化阶段的损失函数包含一个针对虚拟渲染的特定项 (\(\mathcal{L}_{\breve{\mathcal{R}}}\)) :

虚拟渲染损失定义为:

这个方程本质上是在说: “最小化渲染的压力纹理与真实压力数据 (\(P_{gt}\)) 之间的误差,并确保在有压力的地方,手部网格与触控板之间的距离为零。”
处理遮挡 (深度剔除)
多视角设置的一个困难是,从某些相机角度看,手可能会被触控板遮挡。该方法使用深度剔除 (Depth Culling) 来解决这个问题。通过对场景几何进行建模,系统知道手指何时位于触控板后面,并在优化过程中忽略图像的那一部分,防止模型产生混淆。

基准测试: PressureFormer 模型
随着数据集的创建和标注,研究人员为未来的 AI 模型建立了基准。他们引入了 PressureFormer , 这是一个旨在从单张第一视角 RGB 图像估计压力的神经网络。
超越 2D 压力
以前的方法 (如 PressureVisionNet) 将压力估计视为图像分割任务——在 2D 图像上绘制“压力像素”。PressureFormer 向前迈进了一步,它估计手部网格 UV 贴图上的压力。
什么是 UV 贴图? 可以把它想象成把 3D 手部的皮肤剥下来,像世界地图一样摊平。通过在这个地图上预测压力,模型可以确切地学习到皮肤的哪个部分正在向下按压。这使得系统能够重构 3D 空间中的压力,无论手部的方向如何。

架构
- 输入: 手部的 RGB 图像。
- 主干网络: HaMeR 网络提取图像特征并估计 3D 手部顶点。
- Transformer 解码器: 一种 Transformer 机制关注这些特征以预测 UV 压力图 。
- 投影: 这个贴图被包裹回 3D 手部网格上。使用可微渲染器,它将压力投影回图像平面,以便与真值进行比较。
损失函数平衡了预测正确的 UV 纹理 (\(\mathcal{L}_c\)) 和正确的投影 2D 压力 (\(\mathcal{L}_p\)) :

实验与结果
研究人员将 PressureFormer 与现有的基线 (PressureVisionNet) 以及利用手部姿态数据的扩展版本进行了比较。
定量结果
总结在表 3 中的结果显示,PressureFormer 在 接触 IoU (交并比——基本上就是它定位接触区域的准确程度) 方面优于基线。更重要的是,因为它是在 UV 贴图上进行预测,所以它能够实现 3D 压力重构 , 这是基于图像的基线根本无法做到的。

定性分析
视觉结果令人印象深刻。在下图中,你可以看到对比。
- GT Pressure: 真值。
- PressureVision: 经常模糊压力或遗漏指尖。
- PressureFormer (Pred. Pres.): 精确地定位了正在用力的特定指尖。“On Hand”一列显示了 3D 网格在施加力的确切位置发光。

UV 损失的重要性
研究人员发现,使用 UV 贴图监督训练至关重要。如果没有它 (仅使用 2D 图像监督) ,模型可能会在面向相机的手背部分产生压力的幻觉 (这在物理上是不可能的,因为压力来自底部) 。UV 损失迫使网络学习压力来自接触表面。

改进手部姿态估计
有趣的是,EgoPressure 数据集不仅仅用于压力;它还改进了姿态估计。通过在这个新数据集上微调标准的 HaMeR 模型,研究人员实现了更好的网格与表面对齐。在下面的比较中,注意标准的 HaMeR 网格 (中间) 是如何不自然地悬浮的,而在 EgoPressure 上微调的模型 (右侧) 则做出了令人信服的接触。

结论与启示
EgoPressure 代表了让机器“感知”世界的重大一步。通过创建一个将第一视角视觉与物理压力联系起来的高质量数据集,作者为以下领域打开了大门:
- 更好的 AR/VR: 你可以在桌子上打字或演奏具有真实力反馈的虚拟乐器的界面。
- 熟练的机器人技术: 通过理解人手中可见的细微压力线索,能够操纵易碎物体的机器人。
- 3D 交互理解: 从简单的 2D 边界框转向对力的完全体积化理解。
虽然当前的数据集仅限于平面 (触控板) ,但使用优化方法融合视觉和压力传感器的做法树立了一个强有力的先例。未来的工作可能会将其扩展到弯曲的物体和工具,让我们离计算机能像我们一样理解触摸的物理后果的世界更近一步。
](https://deep-paper.org/en/paper/2409.02224/images/cover.png)