通用机器人的梦想是创造一种机器,它能够观察人类做家务——比如叠毛巾或收拾盘子——然后立即复制这种行为。在计算机视觉 (CV) 和自然语言处理 (NLP) 领域,我们已经看到了由互联网规模数据驱动的能力的巨大飞跃。像 GPT-4 或 Sora 这样的模型是在从网络上抓取的浩瀚文本和视频海洋中训练出来的。
然而,机器人技术面临着一个顽固的瓶颈。与文本或图像不同,机器人数据通常需要物理交互。收集数据意味着驱动机器人,这通常通过繁琐的远程操作 (Teleoperation) 来完成,既耗时、耗钱又耗费人力。如果我们能够利用 YouTube 上现有的数百万个“操作指南”视频来教导机器人,我们将能开启机器人能力的革命。
但这里有一个陷阱: 形态差异 (Morphology Gap) 。 人手的外观或移动方式与双指机器人夹爪并不完全相同。人类手臂的关节和约束条件也与机械臂不同。
在这篇文章中,我们将深入探讨 Point Policy , 这是一篇引人入胜的研究论文,它提出了解决这一问题的方案。研究人员介绍了一种框架,允许机器人完全从离线人类演示视频中学习策略——而无需任何一帧远程操作的机器人数据。

核心问题: 数据稀缺与形态差异
在理解解决方案之前,我们必须意识到问题的难度。机器人技术中传统的模仿学习依赖于“专家演示”。人类控制机器人 (通过 VR 头显或操纵杆) 执行任务,机器人学习将其视觉观察映射到该会话期间记录的运动指令。
虽然有效,但这不可扩展。你无法从互联网下载远程操作数据;你必须自己生产它。
替代方案是从人类视频中学习。然而,将人手的视频输入到机器人控制策略中通常会失败,因为手的视觉特征 (肉色、五根手指) 在统计上与金属夹爪截然不同。以前解决这个问题的尝试包括:
- 视觉域自适应 (Visual Domain Adaptation) : 试图让机器人的图像看起来像人类图像,反之亦然。
- 奖励学习 (Reward Learning) : 使用人类视频来定义“成功”分数,然后通过强化学习训练机器人 (这仍然需要在现实世界中进行昂贵的试错) 。
Point Policy 采取了不同的方法。它假设虽然代理 (Agent) 的外观不同,但任务的几何结构是相同的。人类和机器人占据同一个 3D 世界。如果我们能将任务抽象为 3D 关键点,我们就能跨越这道鸿沟。
背景概念
要理解 Point Policy 是如何工作的,我们需要简要回顾一下计算机视觉和模仿学习中的几个基本概念。
模仿学习与行为克隆
模仿学习 (IL) 的目标是学习一个模仿专家的策略 \(\pi\)。最简单的形式是行为克隆 (Behavior Cloning, BC) 。 给定一个包含观察 \(o\) 和动作 \(a\) 的数据集,我们训练一个神经网络来最小化其预测动作与专家动作之间的差异。

在 Point Policy 中,作者使用了一种名为 BAKU 的特定基于 Transformer 的架构进行行为克隆,该架构擅长处理多任务策略。
语义对应与点跟踪
我们如何在不同的图像中找到“同一个”点?
- 语义对应 (Semantic Correspondence) : 如果我给你看一张瓶子的照片,然后看另一张不同房间里不同瓶子的照片,“语义对应”是指能够识别出两张图片中的瓶盖的能力,即使它们看起来不同。作者为此使用了一个名为 DIFT (Diffusion Features) 的模型。
- 点跟踪 (Point Tracking) : 一旦我们要识别一个点 (比如盒子的角) ,我们就需要在视频中随着它的移动跟踪它。作者使用了 Co-Tracker , 这是一个最先进的模型,即使点被暂时遮挡也能进行跟踪。
Point Policy 框架
这篇论文的核心创新是将关键点 (Key Points) 视为人类和机器人之间的通用语言。策略不再处理原始像素 (包含背景噪声和外观变化) ,而是将世界感知为稀疏的、有意义的 3D 点云。
该框架分三个不同阶段运行,如下图所示:

让我们一步步分解这些阶段。
1. 人到机器人的姿态转换 (Human-to-Robot Pose Transfer)
第一个挑战是将人手做任务的视频转换为“机器人兼容”的表示。
提取手部点: 系统使用现成的手部检测器 (MediaPipe) 在每一帧中找到人类的食指和拇指。
三角测量的力量: 仅使用一个摄像头只能提供丢失深度信息的 2D 点。使用深度相机 (RGB-D) 是一个选项,但传感器深度往往充满噪声且不可靠,特别是对于小物体或反光表面。作者使用的是立体三角测量 (Stereo Triangulation) 。 通过从两个摄像机视角记录人类,他们可以通过数学方法高精度地三角测量出手部的确切 3D 坐标 (\(\mathcal{P}_h^t\))。
映射到机器人: 机器人的“位置”定义为人类食指和拇指之间的中点。但是方向呢?机器人需要知道如何转动它的手腕。
作者计算相对于第一帧的方向变化。如果人类将手旋转 90 度,机器人也应该将其末端执行器旋转 90 度。

这里,\(\mathcal{T}\) 表示第一帧中的手与当前帧之间的刚体变换。这个相对旋转被应用到机器人的起始方向上。
一旦确定了机器人的末端执行器姿态 (\(T_r^t\)),系统就会生成一组随夹爪刚性移动的“虚拟”机器人关键点 (\(\mathcal{P}_r^t\))。

这一步实际上是将机器人以“幽灵”般的方式叠加在人手上,创建了一个完全源自人类运动的机器人运动训练数据集。
2. 捕捉物体状态
机器人不只是移动手臂;它还要与世界互动。因此,策略需要“看”到物体 (例如瓶子、毛巾) 。
Point Policy 使用了一种极其省力的“人机回路 (human-in-the-loop) ”初始化方法:
- 标注: 人类标注者从一个演示视频中取一帧,并点击物体上的几个重要点 (例如杯子的把手) 。
- 传播: 使用 DIFT 语义对应模型,这些被点击的点会在所有其他演示视频的第一帧中被自动找到。
- 跟踪: 使用 Co-Tracker , 这些点会在每个视频的整个过程中被跟踪。
这产生了一组对应每个时间点的 3D 物体关键点 (\(\mathcal{P}_o\))。

如上图所示,由于系统依赖于语义对应,即原本标注的物体形状或颜色不同,它也能找到“瓶口”。这对于泛化至关重要。
3. 策略学习与动作预测
现在我们有了一个数据集,包含:
- 机器人关键点 (\(\mathcal{P}_r\)): 机器人应该在哪里 (源自人手) 。
- 物体关键点 (\(\mathcal{P}_o\)): 物体在哪里。
我们训练一个 Transformer 策略 (BAKU),根据历史观察来预测机器人关键点的未来轨迹。

策略 \(\pi\) 接收历史观察 (\(t-H\) 到 \(t\)) ,并预测下一步的机器人点以及夹爪状态 (开/关) 。
4. 回溯动作 (Backtracking Actions)
神经网络输出一团机器人的预测点。然而,物理机器人需要一个 6-DoF (6自由度) 的姿态指令 (位置 + 方向) 。
作者使用刚体几何 (Rigid Body Geometry) 来逆转这个过程。由于机器人夹爪上的点排列是固定且已知的,他们可以通过数学方法解算出最佳位置 (\(\hat{\mathcal{R}}_{pos}\)) 和方向 (\(\hat{\mathcal{R}}_{ori}\)),使机器人与预测的点云对齐。

计算出的动作随后以 6Hz 的频率发送给机器人控制器。
实验结果
研究人员在 Franka Emika 机器人上评估了 Point Policy,涵盖 8 个真实世界的任务,包括关抽屉、叠毛巾、扫地和把瓶子放在架子上。
他们将该方法与几个基线进行了比较:
- BC (RGB): 使用原始图像的标准行为克隆。
- BC (Depth): 使用深度图像的行为克隆。
- MT-\(\pi\): 一个强基线,同样使用运动轨迹,但依赖于 2D 图像输入而不是显式的 3D 统一。
- P3-PO: 另一种基于点的方法。
1. 已见物体的表现
第一个测试是“域内 (in-domain) ”测试——在人类视频中使用的相同物体上测试机器人。

结果令人震惊。基于图像的标准行为克隆几乎完全失败 (大多数任务成功率为 0%) 。这证实了来自人类视频的原始像素数据与机器人的视角差异太大,无法直接使用。
Point Policy 达到了 88% 的平均成功率 , 比最强的基线 (MT-\(\pi\)) 高出 75% 的绝对优势。

2. 对新物体的泛化能力
机器人系统的真正考验是它能否处理以前从未见过的物体。如果机器人学会了“拿起绿瓶子”,它能“拿起蓝瓶子”吗?

因为 Point Policy 依赖于语义关键点而不是纹理或颜色,所以它的泛化能力非常好。视觉系统 (DIFT) 无论颜色如何都能识别出“瓶顶”,策略只需对该点的几何形状进行推理。

Point Policy 在新物体上达到了 74% 的成功率 , 而基于图像的基线则完全失败。

3. 对杂乱环境的鲁棒性
在现实世界中,桌子很少是空的。作者引入了“干扰物 (distractors) ”——散落在工作区周围的随机物体——以此观察机器人是否会感到困惑。

表现保持稳定。这凸显了稀疏点表示的好处: 策略本质上“忽略”了杂乱,因为没有为不相关的背景物体生成关键点。

为什么设计选择很重要
该论文包含了一项关于深度的引人入胜的消融研究。通常的假设是,现代深度相机 (如 Intel RealSense) 对机器人技术来说已经足够好了。
然而,作者发现三角测量 (使用两个标准相机计算深度) 至关重要。当他们用传感器深度替换三角测量点时,性能骤降至接近零。

如上图所示 (论文中的图 9) ,与来自三角测量的清晰几何信号 (底行) 相比,传感器深度 (顶行) 充满噪声且不一致。这种噪声导致机器人动作抖动、不可靠。

结论与启示
Point Policy 代表了解决机器人数据瓶颈的重要一步。通过将世界抽象为 3D 关键点,作者创造了一种将技能从人类转移到机器人的方法,而无需:
- 远程操作数据收集。
- 复杂的奖励工程。
- 在线强化学习。
关键的启示是几何结构充当了通用桥梁 。 虽然人手和机器人夹爪看起来不同,但在 3D 空间中将瓶子放在架子上所需的几何路径是相同的。
局限性: 该系统严重依赖底层视觉模型的质量。如果手部检测器失效或点跟踪器 (由于严重遮挡) 丢失了物体,策略就会失败。此外,使用稀疏点意味着机器人会丢失一些上下文信息——它可能看不到未分配关键点的障碍物。
然而,随着计算机视觉基础模型的不断改进,像 Point Policy 这样的框架可能会变得更加健壮,使我们更接近于能够仅通过观察我们就能学习的机器人。
](https://deep-paper.org/en/paper/2502.20391/images/cover.png)