与其训练机器人，不如训练人类？利用第一人称视角视频大规模扩展人形机器人学习

通用人形机器人的梦想正一步步接近现实。硬件在飞速进步——能走路、搬盒子、抗推搡。但机器人的“大脑”，即告诉它如何灵巧操作物体 (如杯子或螺丝刀) 的策略，仍然是瓶颈。

教机器人的标准方法涉及模仿学习 (Imitation Learning, IL) 。你需要遥操作 (远程控制) 机器人，记录数据，然后训练神经网络模仿这些动作。这很有效，但太慢、太贵，且难以扩展。你需要实体机器人、熟练的操作员，以及无休止的枯燥重复。

但试想一下: 人类本质上就是“生物人形机器人”。我们有双臂、一个头和双目视觉。我们能毫不费力地操作物体。如果我们能直接记录人类做任务的过程，并把数据直接喂给人形机器人呢？

这正是研究论文 “Humanoid Policy \(\sim\) Human Policy” 的前提。作者提出了一个统一框架，其中人类第一人称数据不仅仅作为参考，而是被视为另一种机器人“具身 (embodiment) ”的训练数据。通过收集大量人类执行任务的数据并将其与机器人数据对齐，他们得到的策略不仅训练成本更低，而且对环境变化的鲁棒性显著增强。

人-人形机器人学习系统概览，展示了数据源、统一的状态-动作空间以及机器人执行示例。

在这篇文章中，我们将拆解他们如何弥合人手与机器人夹爪之间的差距，他们数据收集背后的巧妙工程，以及为什么将人类视为机器人可能是实现通用人工智能的关键。

数据瓶颈与人类解决方案

为了理解这一贡献的重要性，我们需要先看看跨具身学习 (Cross-Embodiment Learning) 这个问题。

在机器人学中，“具身 (embodiment) ”指的是智能体的物理形态——它的尺寸、关节限制和传感器位置。通常，如果你想训练特定的机器人 (称为机器人 A) ，你需要机器人 A 上收集的数据。如果你尝试使用机器人 B 的数据，通常会失败，因为关节角度和相机视角对不上。

人类代表了“不同具身”的极端案例。我们的手是柔软的，有五根灵活的手指；机器人夹爪通常是刚性的，可能只有两三个接触点。我们的头会不自主地移动；机器人的头通常是固定或伺服控制的。

传统上，研究人员试图使用中间表示来弥合这一差距。他们可能会提取“可供性 (affordances) ” (在哪里抓取物体) 或物体关键点 (跟踪杯子而不是手) 。问题在于这些模块化步骤会引入误差。如果物体追踪器失败了，策略也就失败了。

本文采用了一种更大胆的方法: 端到端学习 (End-to-End Learning) 。他们假设，只要有足够的数据和正确的对齐，神经网络就可以学会将人类视觉输入和手部动作直接映射到机器人动作，将人类视为只是另一种类型的机器人。

介绍 PH²D: 物理人形机器人-人类数据

第一个障碍是数据本身。有很多关于人类做事情 (如做饭或跳舞) 的数据集，但它们不是机器人能理解的“任务导向型”数据。切洋葱的视频太高级了。机器人需要确切地知道手腕如何旋转以及手指去向何处。

研究人员推出了 PH²D , 这是一个大规模的第一人称、任务导向型数据集。

如何在没有数百万美元动作捕捉工作室的情况下收集高质量的 3D 手部姿态和第一人称视频？作者意识到，像 Apple Vision Pro 和 Meta Quest 3 这样的消费级虚拟现实 (VR) 头显已经为我们解决了这个问题。这些设备内置了令人难以置信的由内向外 (inside-out) 追踪摄像头和复杂的手部追踪算法。

突出了“相机/姿态追踪”的白色 VR 头显，展示了用于数据收集的低成本装置。

如上图所示，装置非常易于获取。通过让人类操作员戴上 VR 头显，研究人员可以记录:

视觉数据: 来自操作员视角的高分辨率视频 (模仿机器人的头部摄像头) 。
本体感知数据: 头部和手腕的精确 3D 位置和旋转，加上手指关节角度。

这种方法完全将机器人从数据收集循环中移除。一个人可以在厨房、实验室或办公室记录数百次“拾取和放置”演示，其时间仅为遥操作机器人做同样事情所需时间的一小部分。

核心方法: 人类动作 Transformer (HAT)

没有模型来处理，数据毫无用处。作者介绍了 人类动作 Transformer (HAT) 。这是一种策略架构，旨在摄取来自多种具身 (人类和机器人) 的数据，并输出人形机器人可以执行的动作。

1. 统一的状态-动作空间

HAT 最关键的洞察是统一的状态-动作空间 。

要在人类和机器人数据上训练同一个模型，输入和输出在数学上必须看起来一样。

视觉: 机器人有摄像头；人类有 VR 头显。图像看起来不同 (光照、房间、手臂外观) 。为了解决这个问题，作者使用了一个“冻结”的视觉编码器，名为 DinoV2 。 DinoV2 以忽略表面噪声 (如纹理或光照) 并专注于场景的语义结构而闻名。它本质上是在告诉网络，“这里有一个杯子”，而不管图像是来自 GoPro 还是机器人的网络摄像头。
本体感知 (身体感觉) : 机器人有关节编码器；人类有被追踪的 3D 姿态。作者通过将一切映射到 末端执行器 (End-Effector, EEF) 姿态 来统一这一点。他们不关心肘部角度，而是追踪手腕在哪里以及指尖在 3D 空间中的位置。

HAT 架构示意图，显示人类和机器人数据输入汇聚成由 Transformer 处理的统一分布。

如图 3 所示，该架构处理两个流:

人类遥操作员/机器人数据: 这是真实的机器人地面真值数据。
人类演示: 这是 VR 数据。

两者都输入到 HAT 模型中。输出预测手部 (手腕位置 + 旋转) 和夹爪/手指状态的未来轨迹。

2. 重定向与“降速”

人类和机器人之间存在物理上的“动态差距”。

速度: 人类很快。我们迅速抓取物体。人形机器人通常较慢且更小心，以避免损坏电机或环境。
身体移动: 人类伸手时会移动整个躯干；机器人可能只移动手臂。

如果你直接在原始人类速度上训练机器人，机器人会试图剧烈地甩动手臂，触发安全停止或造成损坏。

为了解决这个问题，研究人员应用了插值。他们计算出人类的速度大约是所用人形机器人安全运行速度的 4 倍 。在训练期间，他们对人类数据进行插值以“将其放慢”，有效地拉伸人类的时间线以匹配机器人的能力。

3. 目标函数

训练过程最小化预测动作与真实动作之间的差异。损失函数定义为:

\[ \begin{array} { r } { \mathcal { L } = \ell _ { 1 } ( \pi ( \boldsymbol { s } _ { i } ) , \boldsymbol { a } _ { i } ) + \lambda \cdot \ell _ { 1 } ( \pi ( \boldsymbol { s } _ { i } ) _ { \mathrm { E E F } } , \boldsymbol { a } _ { i , \mathrm { E E F } } ) , } \end{array} \]

让我们拆解这个方程:

\(\mathcal{L}\): 网络试图最小化的总损失 (误差) 。
\(\ell_1\): 标准的误差度量 (平均绝对误差) ，衡量预测与现实之间的距离。
第一项，\(\ell _ { 1 } ( \pi ( \boldsymbol { s } _ { i } ) , \boldsymbol { a } _ { i } )\)，衡量整个动作向量 (手指、手腕、头部) 的误差。
第二项专门关注末端执行器 (EEF)——手部位置。
\(\lambda\) (lambda): 加权因子 (本文中设为 2) 。

这为什么重要? 通过添加第二项并乘以 \(\lambda\)，研究人员实际上是在告诉 AI: “把手指关节弄对很好，但把手部位置弄对重要性是其两倍。” 在操作中，如果你的手放错了位置，不管你的手指在做什么都没用——你会抓空物体。

实验: 在真实硬件上有效吗？

研究人员在两个真实的人形机器人上测试了 HAT，标记为 Humanoid A (Unitree H1) 和 Humanoid B (Unitree H1-2)。这些机器人具有不同的手臂配置，非常适合测试跨具身泛化。

两个并排站立的人形机器人 A 和 B。Humanoid B 正拿着一个瓶子。

他们在四个核心任务上评估了系统: 递杯子、水平抓取、垂直抓取和倒水。

四个任务的示意图: 递杯子、水平抓取、垂直抓取和倒水，展示了不同的背景和物体。

结果 1: 人类数据提高鲁棒性 (分布外 O.O.D. 泛化)

最惊人的结果来自“分布外”(O.O.D.) 测试。

分布内 (I.D.): 在与机器人训练数据完全相同的实验室设置、光照和桌子布置下测试机器人。
分布外 (O.O.D.): 更换桌布，将物体移动到新位置，或使用不同颜色的物体。

当仅使用机器人数据训练时，策略 (ACT 基线) 在 O.O.D. 场景中表现挣扎。它死记硬背了实验室的具体样子。然而，当与海量、多样化的人类数据 (PH²D) 联合训练 时，机器人变得聪明多了。

比较成功率的表格。包含人类数据的 HAT 在 O.O.D. 任务中显示出比 ACT 近 100% 的提升。

观察上面的表 2，看看 O.O.D. 列。

ACT (仅机器人): 59/170 成功。
HAT (机器人 + 人类): 101/170 成功。

这是一个巨大的飞跃。因为人类数据包含 (来自不同 VR 会话的) 各种房间、光照条件和桌子纹理，视觉编码器学会了忽略背景，专注于任务 (手和物体) 。

结果 2: 物体放置的泛化

机器人学习中一种常见的失败模式是“空间过拟合”。如果你只训练机器人从桌子中心抓起杯子，当杯子向左移动 10 厘米时，它往往会失败。

研究人员使用“垂直抓取”任务的网格热图将其可视化。

显示抓取成功率的热图网格。右侧的‘混合数据’网格显示，与‘仅机器人’相比，整体成功率要高得多。

在上图中，红色虚线框指示了收集机器人数据的位置。

左侧 (仅机器人) : 机器人在虚线框内表现尚可，但在其他地方非常糟糕 (很多 0 和 1) 。
右侧 (混合数据) : 机器人几乎可以在整张桌子上抓取物体 (很多 7、8 和 9) 。

因为人类操作员自然地站在不同的位置并以不同的方式伸手拿东西，人类数据集填补了昂贵的机器人遥操作遗漏的空间空白。

结果 3: 向新机器人的少样本迁移

如果你买了一个新机器人 (Humanoid B) ，它的手臂与旧的 (Humanoid A) 略有不同怎么办？你需要从头开始吗？

研究人员表明，通过在 Humanoid A + 人类数据上进行预训练，他们可以通过很少的演示适应 Humanoid B。

显示性能与演示次数关系的图表。联合训练 (绿色) 始终优于独立训练 (橙色) 。

如图 5 所示，仅用 10 次演示 在新机器人上:

从头开始训练产生约 40% 的成功率。
结合人类先验知识的联合训练产生了约 80% 的成功率。

该模型从人类和 Humanoid A 那里学会了任务的“概念”，只需要一点点数据来调整以适应 Humanoid B 的特定电机运动学。

为什么这很重要: 效率方程

也许对未来研究最实际的启示是效率比较。我们都知道训练机器人很难，但这比记录人类要难多少呢？

比较数据收集时间的表格。人类演示每次任务耗时约 4 秒，而机器人遥操作耗时约 20-37 秒。

表 5 揭示了残酷的现实:

人类演示 (使用 VR) : 每个任务约 4 到 5 秒。
机器人遥操作: 每个任务约 20 到 37 秒。

遥操作不仅每次尝试慢 5 到 7 倍，而且还需要实体机器人在场、通电并维护。VR 数据收集可以分发给数百个在家中的人。

结论

论文 “Humanoid Policy \(\sim\) Human Policy” 挑战了机器人数据是机器人唯一重要数据的观点。通过将人类视为“不同类型的机器人”并通过统一状态-动作空间 (HAT) 和视觉编码器对齐数据，我们可以解锁巨大的规模。

给学生和研究人员的关键要点是:

不要忽视人类数据: 它是可用的最便宜、最多样化的操作数据来源。
视觉表示很重要: 使用强大的预训练编码器 (如 DinoV2) 对于弥合 VR 头显视图与机器人摄像头之间的视觉差距至关重要。
端到端是可行的: 你不一定需要复杂的物体检测器或可供性模型。有了足够的数据，Transformer 可以直接将像素映射到关节角度，即使跨越物种。

当我们展望通用家用机器人的未来时，像 HAT 这样的方法表明，教机器人如何在我们的世界中生活的最好方法，可能是先让它们观察我们在其中的生活。

数据瓶颈与人类解决方案#

介绍 PH²D: 物理人形机器人-人类数据#

核心方法: 人类动作 Transformer (HAT)#

1. 统一的状态-动作空间#

2. 重定向与“降速”#

3. 目标函数#

实验: 在真实硬件上有效吗？#

结果 1: 人类数据提高鲁棒性 (分布外 O.O.D. 泛化)#

结果 2: 物体放置的泛化#

结果 3: 向新机器人的少样本迁移#

为什么这很重要: 效率方程#

结论#