完全通过人类视频学习机器人技能：Point Policy 方法

通用机器人的梦想是创造一种机器，它能够观察人类做家务——比如叠毛巾或收拾盘子——然后立即复制这种行为。在计算机视觉 (CV) 和自然语言处理 (NLP) 领域，我们已经看到了由互联网规模数据驱动的能力的巨大飞跃。像 GPT-4 或 Sora 这样的模型是在从网络上抓取的浩瀚文本和视频海洋中训练出来的。

然而，机器人技术面临着一个顽固的瓶颈。与文本或图像不同，机器人数据通常需要物理交互。收集数据意味着驱动机器人，这通常通过繁琐的远程操作 (Teleoperation) 来完成，既耗时、耗钱又耗费人力。如果我们能够利用 YouTube 上现有的数百万个“操作指南”视频来教导机器人，我们将能开启机器人能力的革命。

但这里有一个陷阱: 形态差异 (Morphology Gap) 。人手的外观或移动方式与双指机器人夹爪并不完全相同。人类手臂的关节和约束条件也与机械臂不同。

在这篇文章中，我们将深入探讨 Point Policy , 这是一篇引人入胜的研究论文，它提出了解决这一问题的方案。研究人员介绍了一种框架，允许机器人完全从离线人类演示视频中学习策略——而无需任何一帧远程操作的机器人数据。

Point Policy 概览。

核心问题: 数据稀缺与形态差异

在理解解决方案之前，我们必须意识到问题的难度。机器人技术中传统的模仿学习依赖于“专家演示”。人类控制机器人 (通过 VR 头显或操纵杆) 执行任务，机器人学习将其视觉观察映射到该会话期间记录的运动指令。

虽然有效，但这不可扩展。你无法从互联网下载远程操作数据；你必须自己生产它。

替代方案是从人类视频中学习。然而，将人手的视频输入到机器人控制策略中通常会失败，因为手的视觉特征 (肉色、五根手指) 在统计上与金属夹爪截然不同。以前解决这个问题的尝试包括:

视觉域自适应 (Visual Domain Adaptation) : 试图让机器人的图像看起来像人类图像，反之亦然。
奖励学习 (Reward Learning) : 使用人类视频来定义“成功”分数，然后通过强化学习训练机器人 (这仍然需要在现实世界中进行昂贵的试错) 。

Point Policy 采取了不同的方法。它假设虽然代理 (Agent) 的外观不同，但任务的几何结构是相同的。人类和机器人占据同一个 3D 世界。如果我们能将任务抽象为 3D 关键点，我们就能跨越这道鸿沟。

背景概念

要理解 Point Policy 是如何工作的，我们需要简要回顾一下计算机视觉和模仿学习中的几个基本概念。

模仿学习与行为克隆

模仿学习 (IL) 的目标是学习一个模仿专家的策略 \(\pi\)。最简单的形式是行为克隆 (Behavior Cloning, BC) 。给定一个包含观察 \(o\) 和动作 \(a\) 的数据集，我们训练一个神经网络来最小化其预测动作与专家动作之间的差异。

行为克隆损失方程。

在 Point Policy 中，作者使用了一种名为 BAKU 的特定基于 Transformer 的架构进行行为克隆，该架构擅长处理多任务策略。

语义对应与点跟踪

我们如何在不同的图像中找到“同一个”点？

语义对应 (Semantic Correspondence) : 如果我给你看一张瓶子的照片，然后看另一张不同房间里不同瓶子的照片，“语义对应”是指能够识别出两张图片中的瓶盖的能力，即使它们看起来不同。作者为此使用了一个名为 DIFT (Diffusion Features) 的模型。
点跟踪 (Point Tracking) : 一旦我们要识别一个点 (比如盒子的角) ，我们就需要在视频中随着它的移动跟踪它。作者使用了 Co-Tracker , 这是一个最先进的模型，即使点被暂时遮挡也能进行跟踪。

Point Policy 框架

这篇论文的核心创新是将关键点 (Key Points) 视为人类和机器人之间的通用语言。策略不再处理原始像素 (包含背景噪声和外观变化) ，而是将世界感知为稀疏的、有意义的 3D 点云。

该框架分三个不同阶段运行，如下图所示:

Point Policy 框架概览。(a) 人到机器人的姿态转换。(b) 基于点轨迹的策略训练。(c) 通过回溯执行。

让我们一步步分解这些阶段。

1. 人到机器人的姿态转换 (Human-to-Robot Pose Transfer)

第一个挑战是将人手做任务的视频转换为“机器人兼容”的表示。

提取手部点: 系统使用现成的手部检测器 (MediaPipe) 在每一帧中找到人类的食指和拇指。

三角测量的力量: 仅使用一个摄像头只能提供丢失深度信息的 2D 点。使用深度相机 (RGB-D) 是一个选项，但传感器深度往往充满噪声且不可靠，特别是对于小物体或反光表面。作者使用的是立体三角测量 (Stereo Triangulation) 。通过从两个摄像机视角记录人类，他们可以通过数学方法高精度地三角测量出手部的确切 3D 坐标 (\(\mathcal{P}_h^t\))。

映射到机器人: 机器人的“位置”定义为人类食指和拇指之间的中点。但是方向呢？机器人需要知道如何转动它的手腕。

作者计算相对于第一帧的方向变化。如果人类将手旋转 90 度，机器人也应该将其末端执行器旋转 90 度。

方向计算方程。

这里，\(\mathcal{T}\) 表示第一帧中的手与当前帧之间的刚体变换。这个相对旋转被应用到机器人的起始方向上。

一旦确定了机器人的末端执行器姿态 (\(T_r^t\))，系统就会生成一组随夹爪刚性移动的“虚拟”机器人关键点 (\(\mathcal{P}_r^t\))。

机器人关键点生成方程。

这一步实际上是将机器人以“幽灵”般的方式叠加在人手上，创建了一个完全源自人类运动的机器人运动训练数据集。

2. 捕捉物体状态

机器人不只是移动手臂；它还要与世界互动。因此，策略需要“看”到物体 (例如瓶子、毛巾) 。

Point Policy 使用了一种极其省力的“人机回路 (human-in-the-loop) ”初始化方法:

标注: 人类标注者从一个演示视频中取一帧，并点击物体上的几个重要点 (例如杯子的把手) 。
传播: 使用 DIFT 语义对应模型，这些被点击的点会在所有其他演示视频的第一帧中被自动找到。
跟踪: 使用 Co-Tracker , 这些点会在每个视频的整个过程中被跟踪。

这产生了一组对应每个时间点的 3D 物体关键点 (\(\mathcal{P}_o\))。

对应模型结果。左: 人类标注。右: 跨不同视角和物体的自动检测。

如上图所示，由于系统依赖于语义对应，即原本标注的物体形状或颜色不同，它也能找到“瓶口”。这对于泛化至关重要。

3. 策略学习与动作预测

现在我们有了一个数据集，包含:

机器人关键点 (\(\mathcal{P}_r\)): 机器人应该在哪里 (源自人手) 。
物体关键点 (\(\mathcal{P}_o\)): 物体在哪里。

我们训练一个 Transformer 策略 (BAKU)，根据历史观察来预测机器人关键点的未来轨迹。

策略预测方程。

策略 \(\pi\) 接收历史观察 (\(t-H\) 到 \(t\)) ，并预测下一步的机器人点以及夹爪状态 (开/关) 。

4. 回溯动作 (Backtracking Actions)

神经网络输出一团机器人的预测点。然而，物理机器人需要一个 6-DoF (6自由度) 的姿态指令 (位置 + 方向) 。

作者使用刚体几何 (Rigid Body Geometry) 来逆转这个过程。由于机器人夹爪上的点排列是固定且已知的，他们可以通过数学方法解算出最佳位置 (\(\hat{\mathcal{R}}_{pos}\)) 和方向 (\(\hat{\mathcal{R}}_{ori}\))，使机器人与预测的点云对齐。

动作回溯方程。

计算出的动作随后以 6Hz 的频率发送给机器人控制器。

实验结果

研究人员在 Franka Emika 机器人上评估了 Point Policy，涵盖 8 个真实世界的任务，包括关抽屉、叠毛巾、扫地和把瓶子放在架子上。

他们将该方法与几个基线进行了比较:

BC (RGB): 使用原始图像的标准行为克隆。
BC (Depth): 使用深度图像的行为克隆。
MT-\(\pi\): 一个强基线，同样使用运动轨迹，但依赖于 2D 图像输入而不是显式的 3D 统一。
P3-PO: 另一种基于点的方法。

1. 已见物体的表现

第一个测试是“域内 (in-domain) ”测试——在人类视频中使用的相同物体上测试机器人。

域内任务展示。

结果令人震惊。基于图像的标准行为克隆几乎完全失败 (大多数任务成功率为 0%) 。这证实了来自人类视频的原始像素数据与机器人的视角差异太大，无法直接使用。

Point Policy 达到了 88% 的平均成功率 , 比最强的基线 (MT-\(\pi\)) 高出 75% 的绝对优势。

表 I: 域内表现结果。

2. 对新物体的泛化能力

机器人系统的真正考验是它能否处理以前从未见过的物体。如果机器人学会了“拿起绿瓶子”，它能“拿起蓝瓶子”吗？

物体展示。左: 训练物体。右: 新颖的测试物体。

因为 Point Policy 依赖于语义关键点而不是纹理或颜色，所以它的泛化能力非常好。视觉系统 (DIFT) 无论颜色如何都能识别出“瓶顶”，策略只需对该点的几何形状进行推理。

表 II: 新物体表现。

Point Policy 在新物体上达到了 74% 的成功率 , 而基于图像的基线则完全失败。

泛化能力对比。Point Policy (左) 与基线对比。

3. 对杂乱环境的鲁棒性

在现实世界中，桌子很少是空的。作者引入了“干扰物 (distractors) ”——散落在工作区周围的随机物体——以此观察机器人是否会感到困惑。

表 III: 对背景干扰物的鲁棒性。

表现保持稳定。这凸显了稀疏点表示的好处: 策略本质上“忽略”了杂乱，因为没有为不相关的背景物体生成关键点。

展示对杂乱环境鲁棒性的视觉演示。

为什么设计选择很重要

该论文包含了一项关于深度的引人入胜的消融研究。通常的假设是，现代深度相机 (如 Intel RealSense) 对机器人技术来说已经足够好了。

然而，作者发现三角测量 (使用两个标准相机计算深度) 至关重要。当他们用传感器深度替换三角测量点时，性能骤降至接近零。

传感器深度与三角测量深度之间的差异。

如上图所示 (论文中的图 9) ，与来自三角测量的清晰几何信号 (底行) 相比，传感器深度 (顶行) 充满噪声且不一致。这种噪声导致机器人动作抖动、不可靠。

表 V: 三角测量深度的影响。

结论与启示

Point Policy 代表了解决机器人数据瓶颈的重要一步。通过将世界抽象为 3D 关键点，作者创造了一种将技能从人类转移到机器人的方法，而无需:

远程操作数据收集。
复杂的奖励工程。
在线强化学习。

关键的启示是几何结构充当了通用桥梁 。虽然人手和机器人夹爪看起来不同，但在 3D 空间中将瓶子放在架子上所需的几何路径是相同的。

局限性: 该系统严重依赖底层视觉模型的质量。如果手部检测器失效或点跟踪器 (由于严重遮挡) 丢失了物体，策略就会失败。此外，使用稀疏点意味着机器人会丢失一些上下文信息——它可能看不到未分配关键点的障碍物。

然而，随着计算机视觉基础模型的不断改进，像 Point Policy 这样的框架可能会变得更加健壮，使我们更接近于能够仅通过观察我们就能学习的机器人。

核心问题: 数据稀缺与形态差异#

背景概念#

模仿学习与行为克隆#

语义对应与点跟踪#

Point Policy 框架#

1. 人到机器人的姿态转换 (Human-to-Robot Pose Transfer)#

2. 捕捉物体状态#

3. 策略学习与动作预测#

4. 回溯动作 (Backtracking Actions)#

实验结果#

1. 已见物体的表现#

2. 对新物体的泛化能力#

3. 对杂乱环境的鲁棒性#

为什么设计选择很重要#

结论与启示#