在快速发展的计算机视觉领域,从 2D 图像重建 3D 人物是一个经过充分研究的问题。但人类很少存在于真空中。我们拿着手机,坐在椅子上,骑着自行车,搬运箱子。当方程中加入物体时,复杂性便会呈爆炸式增长。
这个领域被称为人物-物体交互 (HOI) 重建 , 它面临着一个根本性的冲突。要重建 3D 场景,你需要理解全局结构 (人相对于物体的位置) 和局部细节 (手指如何包裹手柄) 。大多数现有方法很难平衡这两者,往往以牺牲其中一方为代价来优先考虑另一方。
在这篇文章中,我们将深入探讨一篇题为 “End-to-End HOI Reconstruction Transformer with Graph-based Encoding” (简称 HOI-TG) 的论文。这项研究提出了一种新颖的架构,结合了 Transformer 的全局上下文感知能力和图卷积网络 (GCN) 的局部拓扑优势。
核心问题: 显式与隐式建模
在理解解决方案之前,我们必须先定义问题。以前最先进的方法通常依赖于显式接触约束 。
想象一下你要重建一个坐在椅子上的人。显式方法可能会尝试通过计算偏移向量或接触图,强制臀部的几何形状完美地接触椅子表面。虽然这听起来合乎逻辑,但它造成了一种“天然冲突”。
- 全局重建: 旨在最小化人物和物体的整体形状误差。
- 局部约束: 想要强制特定顶点接触,这通常会扭曲整体形状,或者需要昂贵且缓慢的后处理优化步骤来修复网格。

如图 1 所示,传统方法 (a) 依赖于偏移量和接触部位匹配。提出的 HOI-TG 方法 (b) 采取了不同的途径: 隐式建模 。 它不是硬编码接触规则,而是使用注意力机制自然地学习这种交互。
HOI-TG 架构
研究人员提出了一个框架,以端到端的方式重建人物网格、物体网格及其相对位置。该架构非常复杂,所以让我们将其分解为三个明显的阶段: 初始化、Transformer 编码和基于图的细化 。

1. 查询的准备 (初始化)
标准的基于 Transformer 的重建方法 (如 METRO) 通常在 HOI 任务上失败,因为它们使用静态查询——本质上是要求模型从“白板”或通用模板中学习复杂的交互。
HOI-TG 使用了一种更智能的初始化策略 (见图 2a ):
- 骨干提取: 使用 ResNet50 提取 2D 图像特征。
- 初始预测: 使用标准回归预测一个粗略的人物“初始网格”和物体的粗略姿态。
- 网格采样: 这是关键步骤。模型不是使用通用的特征向量,而是将这个初始网格的 3D 顶点投影回 2D 图像特征上。它在这些特定点采样特征,并将它们与 3D 坐标连接起来。
这就创建了关节查询、顶点查询和物体查询 , 这些查询在进入 Transformer 之前就已经具备了“3D 感知”能力。
这为什么重要? 研究人员验证了这个假设。如下面的表 2 所示,与使用静态模板 (Static) 相比,使用这种初始化策略 (Initial) 显著降低了误差 (倒角距离) 。

2. Transformer 编码器
一旦准备好查询,它们就被输入到 HOI 重建 Transformer 中。这是一个旨在捕获全局依赖关系的多层编码器。
由于自注意力机制 , 输入的每一部分都可以与所有其他部分“对话”。手部顶点可以关注杯子顶点;脚部顶点可以关注地板。这对于解决全局定位问题非常出色。模型隐式地学习到,如果一个人拿着箱子,手臂必须相对于物体以某种方式定位。
然而,Transformer 有一个弱点: 它们将输入视为一堆点。它们并不天生尊重 3D 网格的物理连接 (拓扑结构) 。这会导致“模糊”,即手和物体之间的边界变得模糊不清。
3. 基于图的编码 (HOI-TG 中的 “TG”)
为了修复由 Transformer 引起的局部模糊,研究人员在 Transformer 层内引入了图残差块 (见图 2b )。
虽然多头注意力机制关注整体画面,但图模块强制模型尊重顶点的局部邻域。

人物图: 对于人物网格,拓扑结构是固定的 (标准的人体布局) 。模型使用预定义的邻接矩阵 (在图 3a 中可视化) 来执行图卷积。
图卷积的方程为:

这里,\(\bar{\mathbf{A}}\) 是邻接矩阵,\(\mathbf{W}_G\) 是可学习的权重。此操作基于身体的实际物理连接来平滑特征。
物体图: 这更棘手。物体千差万别——椅子的拓扑结构与滑板完全不同。你不能使用固定的图。
解决方案是 K-近邻 (KNN) 方法。对于任何给定的物体模板,模型通过将每个顶点与其 \(K\) 个最近的邻居连接起来,动态地构建一个图 (见图 3b )。
物体的邻接矩阵是基于距离计算的:


这使得模型能够处理任意物体,同时仍然强制局部一致性。
寻找合适的 K 值: 物体顶点应该查看多少个邻居?研究人员进行了一项消融研究 (如图 6 所示) 。

他们发现 \(K=10\) 是最佳平衡点。邻居太少 (图表左侧) ,图太稀疏无法学习结构。邻居太多 (右侧) ,局部信息会被噪声淹没,从而增加了重建误差 (倒角距离) 。
训练模型
该模型使用组合损失函数进行端到端训练。目标是同时最小化人物、物体及其交互的误差。

人物损失 (\(\mathcal{L}_{\text{human}}\)): 这包括多个尺度 (从粗到细) 的顶点位置、关节位置以及 SMPL 身体模型参数的项。它还强制执行“边长一致性”,以防止出现尖锐、不自然的网格。

物体损失 (\(\mathcal{L}_{\text{object}}\)): 这确保物体的顶点位于正确的位置,并且其旋转/平移参数是准确的。

实验结果
研究人员在两个具有挑战性的数据集上评估了 HOI-TG: BEHAVE 和 InterCap 。 他们将自己的方法与主要基线方法进行了比较,如 METRO、Graphormer、PHOSA、CHORE 和 CONTHO。
定量性能
使用的主要指标是倒角距离 (CD) , 它测量重建的 3D 网格与真实值之间的几何误差 (越低越好) 。他们还测量了接触精确率和召回率 (越高越好) 。

如表 1 所示,HOI-TG 达到了最先进的结果。
- 在 BEHAVE 上,它将人物误差 (CD) 从 4.99 (CONTHO) 降低到了 4.59 。
- 在 InterCap 上,它将人物误差从 5.96 降低到了 5.43 。
- 至关重要的是, 接触精确率显著提升 (例如,在 BEHAVE 上从 0.628 提升到 0.662 )。
这证明了添加图残差块不仅仅修复了局部几何形状;它还帮助了全局交互预测。
消融: 我们需要图吗?
你可能会想,光有 Transformer 是否就足够了。 表 3 证实了基于图的编码的必要性。

- 仅 Transformer: 4.73 人物 CD。
- + 人物图: 4.61 人物 CD。
- + 人物 & 物体图: 4.59 人物 CD。
每增加一个图模块,误差就会下降,接触精确率就会上升。
定性可视化
数字很好看,但视觉检查揭示了它们为什么好。
在下面的图 9 中,请看“CONTHO”列与“HOI-TG (Ours)”列的对比。在第二行 (搬运箱子) 中,基线方法很难将箱子相对于手正确定位。HOI-TG 定位准确。在最后一行 (坐姿) 中,基线方法允许人物网格穿透椅子。HOI-TG 更好地尊重了边界。

此外,我们可以可视化注意力图来看看模型在“想”什么。

在图 5 中,明亮区域代表高注意力。注意当模型在重建人物时 (例如,坐在椅子上的人) ,它会高度关注与身体交互的特定物体顶点。这证实了隐式交互学习正在按预期工作。
局限性与未来工作
没有一种方法是完美的。作者坦率地讨论了失败案例,特别是躺卧姿态和高度对称的物体 。

- 躺卧姿态 (第 1 行) : 当人躺下时,自遮挡非常极端。骨干网络很难找到初始网格,Transformer 无法恢复。
- 对称物体 (第 2 行) : 对于像瑜伽球这样的物体,在几何上很难确定确切的旋转 (旋转后的球体看起来是一样的) 。模型有时会预测这些物体的错误旋转。
结论
HOI-TG 论文为 3D 重建中的混合架构提供了令人信服的论据。通过结合 Transformer (用于全局、隐式交互理解) 和 图神经网络 (用于局部、拓扑细化) ,研究人员解决了全局结构与细粒度接触之间的冲突。
其结果是一个快速、端到端的系统,不需要缓慢的后处理优化步骤,推动了数字化人物-物体交互的边界。这项工作为增强现实中更逼真的交互以及能够理解我们如何与周围世界互动的更强能力的机器人铺平了道路。
](https://deep-paper.org/en/paper/2503.06012/images/cover.png)