LatentAct：通过标记化手部交互教 AI “怎么做”

想象一下教别人如何修理自行车。你很少会给他们一列几何坐标或矢量旋转数据。相反，你会向他们展示。你会演示手应该如何握住扳手，需要什么样的特定扭转动作，以及手指需要在哪里施加压力。

在机器人技术和计算机视觉领域，这种自然的指导形式——演示“怎么做”——极难复制。目前的大多数系统依赖于精确的物体 3D 模型来规划交互。但是，当我们想要智能体与日常物体交互时会发生什么呢？比如那些薄的、透明的、可变形的，或者根本没有预先存在的 3D 扫描模型的物体？

这正是论文 “How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions” 所解决的挑战。研究人员推出了 LatentAct , 这是一个新颖的框架，可以从单张图像预测 3D 手部运动和接触图。通过学习程式化手部动作的“词汇表”，LatentAct 可以预测手应该如何与物体交互，即使没有该物体的完美 3D 模型。

LatentAct 基于输入图像预测未来的手部运动和接触点。

如上图 1 所示，该系统接收一张输入图像、一段文本描述 (如“推显卡”) 和一个接触点，并合成出逼真的手部动作序列。

在这篇文章中，我们将剖析 LatentAct 是如何实现这一点的，从其对潜在码本 (latent codebooks) 的巧妙运用到其庞大的半自动数据引擎。

核心问题: 3D 交互中的鸿沟

要理解为什么 LatentAct 是必要的，我们首先需要看看当前人-物交互 (HOI) 研究的局限性。

现有的方法通常分为两大阵营:

受限设置: 它们在涉及已知完美 3D 几何形状的刚性物体的拾取和放置任务中表现良好。
2D 局限: 它们适用于自然视频，但只能预测 2D 边界框或分割掩码，缺乏机器人或 AR 系统实际执行任务所需的 3D 空间理解。

现实世界是混乱的。像袋子这样的物体是可变形的；玻璃杯是透明的；工具会被握住它们的手遮挡。获取厨房中每件物体的干净 3D 网格是不可能的。

LatentAct 的作者提出了视角的转变。他们不再纠结于物体的精确几何形状，而是专注于手。他们观察到，虽然物体是无限多样的，但手与它们的交互方式是“程式化”的。拧东西的方式只有几种典型的原型，无论是三脚架的腿还是罐子的盖子。如果模型能学会这些原型动作，它就能推广到新的物体上。

方法: 交互轨迹的标记化

LatentAct 的核心思想是交互的 标记化 (tokenizing) 。就像大型语言模型 (LLM) 将文本分解为 token 一样，LatentAct 将物理交互分解为学习到的动作码本。

1. 手部与接触的表示

在构建模型之前，研究人员需要一种稳健的方式来表示交互。他们使用了 MANO 手部模型，该模型提供了手部的参数化网格。

然而，仅仅手的位置是不够的。我们需要知道它如何接触物体。

将接触点可视化为手部网格顶点上的二进制掩码。

如图 2 所示，团队定义了一个 接触图 (Contact Map) 。这是一个覆盖 MANO 手部网格 778 个顶点的二进制掩码。对于轨迹中的每一个时间步，模型会追踪:

手部姿态: 形状和关节角度。
全局轨迹: 相对于相机的 3D 空间运动。
接触图: 手的哪些具体部位正在接触物体 (图中以红色高亮显示) 。

2. 交互码本 (InterCode)

框架的第一阶段是训练 交互码本 (Interaction Codebook) 。这是一个矢量量化变分自编码器 (VQ-VAE) 。

该模块的目标是学习一个潜在的启示性 (affordances) “字典”。

输入: 3D 手部姿态和接触图的序列 (地面实况轨迹) 。
编码器: 将此轨迹压缩到低维特征空间。
量化: 特征被映射到学习到的“码本”中最近的条目。这有效地将连续运动捕捉为一个代表特定类型运动 (例如，一种特定类型的抓握或扭转) 的离散“token”。
解码器: 从码本条目重建原始轨迹。

使用 VQVAE 的交互码本架构。

这个过程迫使模型学习人类手部交互的基本、可复用的模式。它充当了一个先验知识库——一个关于手部“合法”和“自然”运动方式的记忆库。

3. 索引器与预测器

一旦码本被训练以此来理解运动，第二阶段就是训练模型根据视觉输入来预测这些运动。这就是 学习型索引器 (Learned Indexer) 和 交互预测器 (Interaction Predictor) 发挥作用的地方。

在测试时，模型没有完整的轨迹 (那正是我们试图预测的！) 。它只有:

单张 RGB 图像 (物体图像) 。
一段文本描述 (例如，“打开瓶子”) 。
一个 3D 接触点 (物体上的起始位置) 。

索引器和交互预测器的工作流程。

流程如下:

索引器: 该模块接收图像、文本和接触点特征，并充当检索系统。它预测码本中的哪个“token” (索引) 最适合当前情况。它实际上是在问: “给定这张瓶子的图片和‘打开’的指令，我应该从我的记忆库中使用哪个动作？”
交互预测器: 一旦索引器从码本中检索到潜在嵌入，预测器就会对其进行细化。它获取检索到的代码，并将其与特定的 3D 接触点和场景的视觉上下文对齐，以生成最终的 MANO 网格和接触图序列。

这种两阶段方法——先学习运动的“语言” (码本) ，再学习如何根据视觉线索“说”这种语言 (索引器) ——使得模型的泛化能力远好于直接从像素预测原始坐标。

数据引擎: 扩展 3D 标注

深度学习模型的优劣取决于其数据。研究人员面临一个重大障碍: 没有包含准确 3D 手部和接触标注的大规模日常第一人称视频数据集。现有的数据集要么太小，要么太人工化，要么只有 2D 标签。

为了解决这个问题，他们利用 HoloAssist 数据集构建了一个 半自动数据引擎 。

生成 3D 标注的数据引擎流水线。

如图 4 所示，该流水线结合了几个最先进的工具:

输入: 人们执行任务 (修理、烹饪等) 的第一人称视频。
分割: 他们使用 SAMv2 (Segment Anything Model) 在视频帧中追踪物体掩码。
手部重建: 他们使用 HaMeR (一种基于 Transformer 的模型) 从图像中预测 3D 手部网格。
接触计算: 通过结合 3D 手部网格和 2D 物体掩码，他们通过计算推导出 3D 接触点。

结果是一个包含 120 个物体类别 和 24 个动作类别 的 800 个任务 的庞大数据集。这比像 GRAB 或 ARCTIC 这样的旧数据集大 2.5 倍到 10 倍 , 提供了学习鲁棒交互先验所需的多样性。

实验与结果

研究人员在两个主要任务上评估了 LatentAct:

预测 (Forecasting) : 仅给定起始帧和文本，预测未来的手部运动。
插值 (Interpolation) : 给定起始帧、结束帧和文本，预测运动。

他们测试了模型对 新物体 (它以前没见过的东西) 、新动作 和 新场景 的泛化能力。

定量成功

LatentAct 与经过调整的强基线模型进行了比较，包括 HCTFormer (一种 Transformer 方法) 和 HCTDiff (一种基于扩散的方法) 。

结果是决定性的。LatentAct 在所有方面都实现了更低的平均关节位置误差 (MPJPE) 和更好的接触图准确度 F1 分数。

图表显示性能随着数据集规模的增加而提高。

图 5 凸显了数据引擎的重要性。随着训练数据量的增加 (从 20% 到 100%) ，LatentAct 和基线模型都在改进，但 LatentAct 保持了持续的领先优势。这证明该架构能够摄取大规模数据以优化其先验知识。

定性可视化

数字固然重要，但在计算机视觉中，眼见为实。

LatentAct 预测与基线模型的视觉对比。

图 6 展示了生成的轨迹。

列: 左侧显示输入。“Camera View (相机视图) ”和“Another View (另一视图) ”列显示预测的 3D 手部 (白色网格) 。“Contact Map (接触图) ”列显示预测的触摸区域 (红色) 。
性能: 看看“旋转镜头 (rotate lens) ”或“搅拌咖啡 (mix/stir coffee) ”的例子。基线模型产生的手通常会抖动或方向错误。然而, LatentAct 产生的手部姿态与物体的几何形状自然对齐。接触图清晰且定位准确，表明模型不仅理解手正在接触物体，还理解 究竟如何 操作它。

为什么它的效果更好？

作者进行了消融研究 (移除模型的部分以观察哪里会出问题) ，并发现了两个关键见解:

码本至关重要: 直接从图像预测运动 (没有中间的码本) 表现明显更差。码本充当了一个稳定的“先验”，防止模型生成物理上不可能或不自然的手部扭曲。
接触图有助于手部姿态: 有趣的是，训练模型预测接触图 (手上的红色区域) 实际上提高了手部骨骼姿态的准确性。知道 在哪里 触摸有助于模型弄清楚如何放置手指。

结论与意义

LatentAct 代表了合成人-物交互的重要一步。通过将“什么” (物体) 与“如何” (交互风格) 解耦，并利用海量的日常活动新数据集，该模型甚至可以为它从未见过 3D 模型的物体“幻构”出合理的 3D 交互。

给学生和研究人员的关键要点:

表示法很重要: 从简单的坐标转向“交互轨迹” (姿态 + 接触图) 提供了更丰富的监督信号。
先验是强大的: VQVAE 码本允许模型“记住”原型动作，使其对嘈杂的输入具有鲁棒性。
数据引擎实现规模化: 使用基础模型 (如 SAM 和 HaMeR) 半自动地标记数据是克服 3D 任务中数据稀缺的可行策略。

这项工作为未来的应用铺平了道路，届时机器人或虚拟助手仅仅通过看一张照片并知道“怎么做”，就能理解如何操纵周围混乱、未建模的世界。

核心问题: 3D 交互中的鸿沟#

方法: 交互轨迹的标记化#

1. 手部与接触的表示#

2. 交互码本 (InterCode)#

3. 索引器与预测器#

数据引擎: 扩展 3D 标注#

实验与结果#

定量成功#

定性可视化#

为什么它的效果更好？#

结论与意义#