掌握交互物理学：InterMimic 如何教虚拟人应对真实世界

简介

在计算机动画和机器人领域，行走已经是一个被解决的问题。我们可以以令人印象深刻的保真度模拟双足运动。然而，一旦你要求虚拟角色与世界进行交互——拿起盒子、坐在椅子上或推手推车——这种错觉往往会破灭。手漂浮在物体上方几英寸处，脚滑过桌腿，或者角色干脆乱动一番然后摔倒。

这就是 基于物理的人与物体交互 (Physics-Based Human-Object Interaction, HOI) 的挑战。与角色沿预定义路径移动 (运动学) 的标准动画不同，基于物理的角色必须使用虚拟肌肉 (执行器) 来产生力。它们必须保持平衡，考虑摩擦力，并操纵具有质量和惯性的动态物体。

学习这些动作的主要数据来源是动作捕捉 (MoCap)。然而，众所周知，动作捕捉数据是不完美的。传感器会被遮挡，导致动作“抖动”，而且物理接触很少被准确捕捉。当你将这些混乱的数据输入物理模拟器时，模拟会拒绝它——手会穿过物体，或者物体在接触时飞走。

在这篇文章中，我们将深入探讨 InterMimic , 这是 CVPR 上提出的一个新框架，旨在弥合不完美数据与真实物理控制之间的差距。研究人员提出了一种新颖的“教师-学生”课程，不仅能模仿复杂的交互，还能修正源数据中的错误，从而实现通用的全身控制。

InterMimic 概览，展示了从滑板到搬运盒子等各种交互。

核心问题: 数据与物理之间的鸿沟

为了理解为什么需要 InterMimic，我们必须了解当前方法的局限性。

1. 动作捕捉的不完美

动作捕捉提供了运动学 (随时间变化的位置) ，但没有提供动力学 (力) 。在原始的动捕录像中，由于传感器误差，虚拟手可能处于盒子内部 2 厘米处。在动画中，这看起来有点奇怪。在物理模拟中，这会导致碰撞爆炸，把盒子送入轨道。相反，如果手离得太远 2 厘米，物理角色就什么也抓不到，任务就会失败。

2. 可扩展性瓶颈

以前的方法通常针对特定任务训练特定的策略 (例如，“拿起这个特定的马克杯”) 。将其扩展到数千种不同的物体和交互上，不仅计算成本高昂，而且极其不稳定。

InterMimic 解决方案: 两阶段课程

研究人员将其视为一个学习问题，并秉持一种特定的理念: 先完美，再扩展。 他们利用一个包含专门的“教师”策略和通用的“学生”策略的两阶段过程。

展示两阶段流程的图表: 教师策略完善特定技能，随后进行学生蒸馏。

第一阶段: 模仿即完善 (教师)

在第一阶段，系统训练多个教师策略 。每个教师都是一小部分数据的专家 (例如，某个特定的人类受试者做的一组任务) 。

教师的目标不仅仅是模仿动作捕捉数据，而是要修正它。由于教师在物理模拟器中运行，它被迫寻找一种符合物理规律的方式来执行动作。如果动捕数据说“手在物体内部”，教师就会学会将手放在物体表面以实现稳定的抓取。

初始化的挑战

训练物理智能体的一个主要障碍是“参考状态初始化” (Reference State Initialization, RSI) 。通常，为了加速训练，模拟器会让角色从动作的随机点开始 (例如，在举起盒子的中途) 。

然而，由于动捕参考是不完美的，完全按照动捕指示开始模拟通常会导致无效状态 (例如，穿模) 。物理引擎立即检测到碰撞，模拟前推 (rollout) 失败，智能体什么也学不到。

作者引入了物理状态初始化 (Physical State Initialization, PSI) 。系统不再盲目相信动捕参考，而是维护一个在之前的模拟运行中达到的成功状态的缓冲区。重置环境时，智能体会从这些物理上有效的状态之一开始。

RSI 失败区域与成功前推区域的可视化。

如上图所示，标准的 RSI 会导致“不可达区域” (红色) ，其中的参考在物理上是不可能的。PSI 通过从智能体先前发现的有效状态进行初始化来弥补这些差距，允许策略探索并连接动作片段。

接触引导奖励

为了教智能体如何交互，研究人员设计了一个能够感知接触的奖励系统。他们从混乱的动捕数据中推断出“参考接触标记”。

接触标记可视化: 红色促进接触，蓝色惩罚接触。

红色区域: 系统检测到人类应该接触物体 (从物体加速度推断) 。智能体因在此处接触而获得奖励。
蓝色区域: 智能体因在此处接触物体而受到惩罚 (以防止意外碰撞) 。
绿色区域: 中性缓冲区，既不强制也不惩罚接触，以适应传感器噪声。

接触奖励公式使用这些标记来指导学习:

\[ E _ { b } ^ { c } = \sum \left\| \hat { \boldsymbol { c } } _ { b } - \boldsymbol { c } \right\| \odot \hat { \boldsymbol { c } } _ { b } , \]

这里，系统计算期望接触状态 \(\hat{c}\) 与实际模拟接触 \(c\) 之间的差异。

第二阶段: 带蒸馏的模仿 (学生)

一旦教师掌握了各自的任务并“清理”了数据，就该训练学生策略了。学生是一个单一且强大的模型 (使用 Transformer 架构) ，旨在学习跨所有物体的所有技能。

这个阶段使用一种称为蒸馏的技术。学生通过两种方式向教师学习:

参考蒸馏: 学生不尝试模仿原始、混乱的动捕数据。相反，它尝试模仿由教师生成的修正后的轨迹。这提供了一个干净、符合物理规律的目标。
策略蒸馏: 学生尝试匹配教师输出的动作 (肌肉扭矩) 。

RL 微调

至关重要的是，学生不仅仅是个模仿者。在最初的“行为克隆”阶段 (盲目复制教师) 之后，学生会进行强化学习 (RL) 微调 。这使得学生能够解决冲突 (例如，如果两位教师建议用略微不同的方式拿椅子) 并进一步优化动作，质量通常会超过教师。

架构: MLP 与 Transformer

教师策略使用多层感知机 (MLP) 。这些是简单的网络，擅长特定任务，但在处理复杂的长期依赖关系时会很吃力。

学生策略使用 Transformer 。 Transformer 擅长处理序列数据和时间依赖性。这使得学生能够“回顾”观察历史，理解动作的上下文 (例如，“我现在正处于蹲下捡盒子的过程中”) 。这种架构对于扩展到大型、多样化的数据集至关重要。

实验与结果

作者在几个具有挑战性的数据集上评估了 InterMimic，包括 OMOMO 和 BEHAVE，其中包含了与盒子、球、椅子和桌子等物体的动态交互。

1. 修正伪影

最令人印象深刻的结果之一是系统修复“损坏”数据的能力。在下面的比较中，基线方法 (PhysHOI) 失败了，因为它试图严格遵循不完美的参考。InterMimic 的教师修正了手部位置，建立了稳固的抓握。

定性比较显示 InterMimic 修正了导致基线失败的手部放置错误。

此外，系统还修正了诸如“滑动”之类的物理违规行为。在动捕中，对称物体 (如健身球) 可能看起来像是在地面上滑动，因为旋转没有被完美捕捉。InterMimic 的物理模拟强制球自然滚动。

InterMimic 从滑动的动捕数据中恢复合理的物体旋转 (滚动) 。

2. 定量成功

下表重点介绍了在 BEHAVE 数据集上的表现。“成功率”表示智能体在不掉落物体或摔倒的情况下成功完成动作的频率。

InterMimic 与 SkillMimic 的比较表，显示了更高的成功率和更低的跟踪误差。

值得注意的指标:

时间: 智能体保持在正确状态的持续时间。InterMimic (42.6s) 远超基线 (12.2s)。
消融实验: 去掉 PSI (“w/o PSI”) 后性能显著下降，证明初始化策略至关重要。

3. 泛化能力

物理智能体的终极测试是零样本泛化 。学生策略能处理它从未见过的物体吗？

实验表明，由于学生学习了对身体力学和物体几何形状的通用理解 (通过 Transformer) ，它可以与训练集之外的新形状进行交互。

在 BEHAVE 和 HODome 的新物体上进行零样本泛化。

4. 生成能力

最后，InterMimic 弥合了模仿与生成之间的差距。通过与运动学生成器 (基于文本产生动作的模型) 集成，InterMimic 可以物理地执行诸如“踢那个大盒子”之类的命令，即使该特定动作不在训练数据中。

与文本生成 HOI 和交互预测模型的集成。

结论

InterMimic 代表了数字人模拟的一大进步。通过承认现实世界的数据是混乱的，并利用物理作为“过滤器”来清理它，研究人员创建了一个既稳健又可扩展的框架。

其影响不仅仅在于更好的电影特效。

机器人技术: “模拟到现实” (Sim-to-Real) 的差距是一个主要障碍。InterMimic 能够将混乱的人类数据重定向到一致的物理模型 (以及潜在的人形机器人) 上，这为机器人通过观察人类来学习复杂的操纵技能铺平了道路。
VR/AR: 能够逼真地处理物体的交互式化身可以带来更加身临其境的体验。

通过结合强化学习的精确性和 Transformer 的可扩展性，InterMimic 让我们更接近这样一个世界: 虚拟角色不仅仅看起来像是在与环境交互——它们确确实实是在交互。

这篇博客文章解读了 Sirui Xu 等人的论文“INTERMIMIC: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions”。

简介#

核心问题: 数据与物理之间的鸿沟#

1. 动作捕捉的不完美#

2. 可扩展性瓶颈#

InterMimic 解决方案: 两阶段课程#

第一阶段: 模仿即完善 (教师)#

初始化的挑战#

接触引导奖励#

第二阶段: 带蒸馏的模仿 (学生)#

RL 微调#

架构: MLP 与 Transformer#

实验与结果#

1. 修正伪影#

2. 定量成功#

3. 泛化能力#

4. 生成能力#

结论#

简介