简介
在计算机动画和机器人领域,行走已经是一个被解决的问题。我们可以以令人印象深刻的保真度模拟双足运动。然而,一旦你要求虚拟角色与世界进行交互——拿起盒子、坐在椅子上或推手推车——这种错觉往往会破灭。手漂浮在物体上方几英寸处,脚滑过桌腿,或者角色干脆乱动一番然后摔倒。
这就是 基于物理的人与物体交互 (Physics-Based Human-Object Interaction, HOI) 的挑战。与角色沿预定义路径移动 (运动学) 的标准动画不同,基于物理的角色必须使用虚拟肌肉 (执行器) 来产生力。它们必须保持平衡,考虑摩擦力,并操纵具有质量和惯性的动态物体。
学习这些动作的主要数据来源是动作捕捉 (MoCap)。然而,众所周知,动作捕捉数据是不完美的。传感器会被遮挡,导致动作“抖动”,而且物理接触很少被准确捕捉。当你将这些混乱的数据输入物理模拟器时,模拟会拒绝它——手会穿过物体,或者物体在接触时飞走。
在这篇文章中,我们将深入探讨 InterMimic , 这是 CVPR 上提出的一个新框架,旨在弥合不完美数据与真实物理控制之间的差距。研究人员提出了一种新颖的“教师-学生”课程,不仅能模仿复杂的交互,还能修正源数据中的错误,从而实现通用的全身控制。

核心问题: 数据与物理之间的鸿沟
为了理解为什么需要 InterMimic,我们必须了解当前方法的局限性。
1. 动作捕捉的不完美
动作捕捉提供了运动学 (随时间变化的位置) ,但没有提供动力学 (力) 。在原始的动捕录像中,由于传感器误差,虚拟手可能处于盒子内部 2 厘米处。在动画中,这看起来有点奇怪。在物理模拟中,这会导致碰撞爆炸,把盒子送入轨道。相反,如果手离得太远 2 厘米,物理角色就什么也抓不到,任务就会失败。
2. 可扩展性瓶颈
以前的方法通常针对特定任务训练特定的策略 (例如,“拿起这个特定的马克杯”) 。将其扩展到数千种不同的物体和交互上,不仅计算成本高昂,而且极其不稳定。
InterMimic 解决方案: 两阶段课程
研究人员将其视为一个学习问题,并秉持一种特定的理念: 先完美,再扩展。 他们利用一个包含专门的“教师”策略和通用的“学生”策略的两阶段过程。

第一阶段: 模仿即完善 (教师)
在第一阶段,系统训练多个教师策略 。 每个教师都是一小部分数据的专家 (例如,某个特定的人类受试者做的一组任务) 。
教师的目标不仅仅是模仿动作捕捉数据,而是要修正它。由于教师在物理模拟器中运行,它被迫寻找一种符合物理规律的方式来执行动作。如果动捕数据说“手在物体内部”,教师就会学会将手放在物体表面以实现稳定的抓取。
初始化的挑战
训练物理智能体的一个主要障碍是“参考状态初始化” (Reference State Initialization, RSI) 。通常,为了加速训练,模拟器会让角色从动作的随机点开始 (例如,在举起盒子的中途) 。
然而,由于动捕参考是不完美的,完全按照动捕指示开始模拟通常会导致无效状态 (例如,穿模) 。物理引擎立即检测到碰撞,模拟前推 (rollout) 失败,智能体什么也学不到。
作者引入了物理状态初始化 (Physical State Initialization, PSI) 。 系统不再盲目相信动捕参考,而是维护一个在之前的模拟运行中达到的成功状态的缓冲区。重置环境时,智能体会从这些物理上有效的状态之一开始。

如上图所示,标准的 RSI 会导致“不可达区域” (红色) ,其中的参考在物理上是不可能的。PSI 通过从智能体先前发现的有效状态进行初始化来弥补这些差距,允许策略探索并连接动作片段。
接触引导奖励
为了教智能体如何交互,研究人员设计了一个能够感知接触的奖励系统。他们从混乱的动捕数据中推断出“参考接触标记”。

- 红色区域: 系统检测到人类应该接触物体 (从物体加速度推断) 。智能体因在此处接触而获得奖励。
- 蓝色区域: 智能体因在此处接触物体而受到惩罚 (以防止意外碰撞) 。
- 绿色区域: 中性缓冲区,既不强制也不惩罚接触,以适应传感器噪声。
接触奖励公式使用这些标记来指导学习:
\[ E _ { b } ^ { c } = \sum \left\| \hat { \boldsymbol { c } } _ { b } - \boldsymbol { c } \right\| \odot \hat { \boldsymbol { c } } _ { b } , \]这里,系统计算期望接触状态 \(\hat{c}\) 与实际模拟接触 \(c\) 之间的差异。
第二阶段: 带蒸馏的模仿 (学生)
一旦教师掌握了各自的任务并“清理”了数据,就该训练学生策略了。学生是一个单一且强大的模型 (使用 Transformer 架构) ,旨在学习跨所有物体的所有技能。
这个阶段使用一种称为蒸馏的技术。学生通过两种方式向教师学习:
- 参考蒸馏: 学生不尝试模仿原始、混乱的动捕数据。相反,它尝试模仿由教师生成的修正后的轨迹。这提供了一个干净、符合物理规律的目标。
- 策略蒸馏: 学生尝试匹配教师输出的动作 (肌肉扭矩) 。
RL 微调
至关重要的是,学生不仅仅是个模仿者。在最初的“行为克隆”阶段 (盲目复制教师) 之后,学生会进行强化学习 (RL) 微调 。 这使得学生能够解决冲突 (例如,如果两位教师建议用略微不同的方式拿椅子) 并进一步优化动作,质量通常会超过教师。
架构: MLP 与 Transformer
教师策略使用多层感知机 (MLP) 。 这些是简单的网络,擅长特定任务,但在处理复杂的长期依赖关系时会很吃力。
学生策略使用 Transformer 。 Transformer 擅长处理序列数据和时间依赖性。这使得学生能够“回顾”观察历史,理解动作的上下文 (例如,“我现在正处于蹲下捡盒子的过程中”) 。这种架构对于扩展到大型、多样化的数据集至关重要。
实验与结果
作者在几个具有挑战性的数据集上评估了 InterMimic,包括 OMOMO 和 BEHAVE,其中包含了与盒子、球、椅子和桌子等物体的动态交互。
1. 修正伪影
最令人印象深刻的结果之一是系统修复“损坏”数据的能力。在下面的比较中,基线方法 (PhysHOI) 失败了,因为它试图严格遵循不完美的参考。InterMimic 的教师修正了手部位置,建立了稳固的抓握。

此外,系统还修正了诸如“滑动”之类的物理违规行为。在动捕中,对称物体 (如健身球) 可能看起来像是在地面上滑动,因为旋转没有被完美捕捉。InterMimic 的物理模拟强制球自然滚动。

2. 定量成功
下表重点介绍了在 BEHAVE 数据集上的表现。“成功率”表示智能体在不掉落物体或摔倒的情况下成功完成动作的频率。

值得注意的指标:
- 时间: 智能体保持在正确状态的持续时间。InterMimic (42.6s) 远超基线 (12.2s)。
- 消融实验: 去掉 PSI (“w/o PSI”) 后性能显著下降,证明初始化策略至关重要。
3. 泛化能力
物理智能体的终极测试是零样本泛化 。 学生策略能处理它从未见过的物体吗?
实验表明,由于学生学习了对身体力学和物体几何形状的通用理解 (通过 Transformer) ,它可以与训练集之外的新形状进行交互。

4. 生成能力
最后,InterMimic 弥合了模仿与生成之间的差距。通过与运动学生成器 (基于文本产生动作的模型) 集成,InterMimic 可以物理地执行诸如“踢那个大盒子”之类的命令,即使该特定动作不在训练数据中。

结论
InterMimic 代表了数字人模拟的一大进步。通过承认现实世界的数据是混乱的,并利用物理作为“过滤器”来清理它,研究人员创建了一个既稳健又可扩展的框架。
其影响不仅仅在于更好的电影特效。
- 机器人技术: “模拟到现实” (Sim-to-Real) 的差距是一个主要障碍。InterMimic 能够将混乱的人类数据重定向到一致的物理模型 (以及潜在的人形机器人) 上,这为机器人通过观察人类来学习复杂的操纵技能铺平了道路。
- VR/AR: 能够逼真地处理物体的交互式化身可以带来更加身临其境的体验。
通过结合强化学习的精确性和 Transformer 的可扩展性,InterMimic 让我们更接近这样一个世界: 虚拟角色不仅仅看起来像是在与环境交互——它们确确实实是在交互。
这篇博客文章解读了 Sirui Xu 等人的论文“INTERMIMIC: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions”。
](https://deep-paper.org/en/paper/2502.20390/images/cover.png)