想象一下教别人如何修理自行车。你很少会给他们一列几何坐标或矢量旋转数据。相反,你会向他们展示。你会演示手应该如何握住扳手,需要什么样的特定扭转动作,以及手指需要在哪里施加压力。
在机器人技术和计算机视觉领域,这种自然的指导形式——演示“怎么做”——极难复制。目前的大多数系统依赖于精确的物体 3D 模型来规划交互。但是,当我们想要智能体与日常物体交互时会发生什么呢?比如那些薄的、透明的、可变形的,或者根本没有预先存在的 3D 扫描模型的物体?
这正是论文 “How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions” 所解决的挑战。研究人员推出了 LatentAct , 这是一个新颖的框架,可以从单张图像预测 3D 手部运动和接触图。通过学习程式化手部动作的“词汇表”,LatentAct 可以预测手应该如何与物体交互,即使没有该物体的完美 3D 模型。

如上图 1 所示,该系统接收一张输入图像、一段文本描述 (如“推显卡”) 和一个接触点,并合成出逼真的手部动作序列。
在这篇文章中,我们将剖析 LatentAct 是如何实现这一点的,从其对潜在码本 (latent codebooks) 的巧妙运用到其庞大的半自动数据引擎。
核心问题: 3D 交互中的鸿沟
要理解为什么 LatentAct 是必要的,我们首先需要看看当前人-物交互 (HOI) 研究的局限性。
现有的方法通常分为两大阵营:
- 受限设置: 它们在涉及已知完美 3D 几何形状的刚性物体的拾取和放置任务中表现良好。
- 2D 局限: 它们适用于自然视频,但只能预测 2D 边界框或分割掩码,缺乏机器人或 AR 系统实际执行任务所需的 3D 空间理解。
现实世界是混乱的。像袋子这样的物体是可变形的;玻璃杯是透明的;工具会被握住它们的手遮挡。获取厨房中每件物体的干净 3D 网格是不可能的。
LatentAct 的作者提出了视角的转变。他们不再纠结于物体的精确几何形状,而是专注于 手。他们观察到,虽然物体是无限多样的,但手与它们的交互方式是“程式化”的。拧东西的方式只有几种典型的原型,无论是三脚架的腿还是罐子的盖子。如果模型能学会这些原型动作,它就能推广到新的物体上。
方法: 交互轨迹的标记化
LatentAct 的核心思想是交互的 标记化 (tokenizing) 。 就像大型语言模型 (LLM) 将文本分解为 token 一样,LatentAct 将物理交互分解为学习到的动作码本。
1. 手部与接触的表示
在构建模型之前,研究人员需要一种稳健的方式来表示交互。他们使用了 MANO 手部模型,该模型提供了手部的参数化网格。
然而,仅仅手的位置是不够的。我们需要知道它 如何 接触物体。

如图 2 所示,团队定义了一个 接触图 (Contact Map) 。 这是一个覆盖 MANO 手部网格 778 个顶点的二进制掩码。对于轨迹中的每一个时间步,模型会追踪:
- 手部姿态: 形状和关节角度。
- 全局轨迹: 相对于相机的 3D 空间运动。
- 接触图: 手的哪些具体部位正在接触物体 (图中以红色高亮显示) 。
2. 交互码本 (InterCode)
框架的第一阶段是训练 交互码本 (Interaction Codebook) 。 这是一个矢量量化变分自编码器 (VQ-VAE) 。
该模块的目标是学习一个潜在的启示性 (affordances) “字典”。
- 输入: 3D 手部姿态和接触图的序列 (地面实况轨迹) 。
- 编码器: 将此轨迹压缩到低维特征空间。
- 量化: 特征被映射到学习到的“码本”中最近的条目。这有效地将连续运动捕捉为一个代表特定类型运动 (例如,一种特定类型的抓握或扭转) 的离散“token”。
- 解码器: 从码本条目重建原始轨迹。

这个过程迫使模型学习人类手部交互的基本、可复用的模式。它充当了一个先验知识库——一个关于手部“合法”和“自然”运动方式的记忆库。
3. 索引器与预测器
一旦码本被训练以此来理解 运动,第二阶段就是训练模型根据视觉输入来预测这些运动。这就是 学习型索引器 (Learned Indexer) 和 交互预测器 (Interaction Predictor) 发挥作用的地方。
在测试时,模型没有完整的轨迹 (那正是我们试图预测的!) 。它只有:
- 单张 RGB 图像 (物体图像) 。
- 一段文本描述 (例如,“打开瓶子”) 。
- 一个 3D 接触点 (物体上的起始位置) 。

流程如下:
- 索引器: 该模块接收图像、文本和接触点特征,并充当检索系统。它预测码本中的哪个“token” (索引) 最适合当前情况。它实际上是在问: “给定这张瓶子的图片和‘打开’的指令,我应该从我的记忆库中使用哪个动作?”
- 交互预测器: 一旦索引器从码本中检索到潜在嵌入,预测器就会对其进行细化。它获取检索到的代码,并将其与特定的 3D 接触点和场景的视觉上下文对齐,以生成最终的 MANO 网格和接触图序列。
这种两阶段方法——先学习运动的“语言” (码本) ,再学习如何根据视觉线索“说”这种语言 (索引器) ——使得模型的泛化能力远好于直接从像素预测原始坐标。
数据引擎: 扩展 3D 标注
深度学习模型的优劣取决于其数据。研究人员面临一个重大障碍: 没有包含准确 3D 手部和接触标注的大规模日常第一人称视频数据集。现有的数据集要么太小,要么太人工化,要么只有 2D 标签。
为了解决这个问题,他们利用 HoloAssist 数据集构建了一个 半自动数据引擎 。

如图 4 所示,该流水线结合了几个最先进的工具:
- 输入: 人们执行任务 (修理、烹饪等) 的第一人称视频。
- 分割: 他们使用 SAMv2 (Segment Anything Model) 在视频帧中追踪物体掩码。
- 手部重建: 他们使用 HaMeR (一种基于 Transformer 的模型) 从图像中预测 3D 手部网格。
- 接触计算: 通过结合 3D 手部网格和 2D 物体掩码,他们通过计算推导出 3D 接触点。
结果是一个包含 120 个物体类别 和 24 个动作类别 的 800 个任务 的庞大数据集。这比像 GRAB 或 ARCTIC 这样的旧数据集大 2.5 倍到 10 倍 , 提供了学习鲁棒交互先验所需的多样性。
实验与结果
研究人员在两个主要任务上评估了 LatentAct:
- 预测 (Forecasting) : 仅给定起始帧和文本,预测未来的手部运动。
- 插值 (Interpolation) : 给定起始帧、结束帧和文本,预测运动。
他们测试了模型对 新物体 (它以前没见过的东西) 、新动作 和 新场景 的泛化能力。
定量成功
LatentAct 与经过调整的强基线模型进行了比较,包括 HCTFormer (一种 Transformer 方法) 和 HCTDiff (一种基于扩散的方法) 。
结果是决定性的。LatentAct 在所有方面都实现了更低的平均关节位置误差 (MPJPE) 和更好的接触图准确度 F1 分数。

图 5 凸显了数据引擎的重要性。随着训练数据量的增加 (从 20% 到 100%) ,LatentAct 和基线模型都在改进,但 LatentAct 保持了持续的领先优势。这证明该架构能够摄取大规模数据以优化其先验知识。
定性可视化
数字固然重要,但在计算机视觉中,眼见为实。

图 6 展示了生成的轨迹。
- 列: 左侧显示输入。“Camera View (相机视图) ”和“Another View (另一视图) ”列显示预测的 3D 手部 (白色网格) 。“Contact Map (接触图) ”列显示预测的触摸区域 (红色) 。
- 性能: 看看“旋转镜头 (rotate lens) ”或“搅拌咖啡 (mix/stir coffee) ”的例子。基线模型产生的手通常会抖动或方向错误。然而, LatentAct 产生的手部姿态与物体的几何形状自然对齐。接触图清晰且定位准确,表明模型不仅理解手 正在 接触物体,还理解 究竟如何 操作它。
为什么它的效果更好?
作者进行了消融研究 (移除模型的部分以观察哪里会出问题) ,并发现了两个关键见解:
- 码本至关重要: 直接从图像预测运动 (没有中间的码本) 表现明显更差。码本充当了一个稳定的“先验”,防止模型生成物理上不可能或不自然的手部扭曲。
- 接触图有助于手部姿态: 有趣的是,训练模型预测接触图 (手上的红色区域) 实际上提高了手部骨骼姿态的准确性。知道 在哪里 触摸有助于模型弄清楚 如何 放置手指。
结论与意义
LatentAct 代表了合成人-物交互的重要一步。通过将“什么” (物体) 与“如何” (交互风格) 解耦,并利用海量的日常活动新数据集,该模型甚至可以为它从未见过 3D 模型的物体“幻构”出合理的 3D 交互。
给学生和研究人员的关键要点:
- 表示法很重要: 从简单的坐标转向“交互轨迹” (姿态 + 接触图) 提供了更丰富的监督信号。
- 先验是强大的: VQVAE 码本允许模型“记住”原型动作,使其对嘈杂的输入具有鲁棒性。
- 数据引擎实现规模化: 使用基础模型 (如 SAM 和 HaMeR) 半自动地标记数据是克服 3D 任务中数据稀缺的可行策略。
这项工作为未来的应用铺平了道路,届时机器人或虚拟助手仅仅通过看一张照片并知道“怎么做”,就能理解如何操纵周围混乱、未建模的世界。
](https://deep-paper.org/en/paper/2504.12284/images/cover.png)