引言

想象一下,你教一个机器人拿起咖啡杯。你给它展示了成千上万个例子,最终,它完美地掌握了这项任务。但是,当你把摄像头向左移动两英寸,或者把机械臂换成稍微不同的型号时,机器人突然就彻底失败了。

这种“脆弱性”是机器人模仿学习 (IL) 中最持久的挑战之一。虽然我们已经非常擅长训练“专才”——即在固定环境中表现出色的智能体——但我们却难以训练出能够适应视点或机体 (机器人的物理结构) 变化的“通才”。

标准方法通常分为两大阵营: 基于 2D 视觉的方法,它们具有丰富的语义理解能力,但在空间几何方面表现挣扎;以及 3D 点云方法,它们理解几何结构,但往往缺乏区分复杂场景中物体的语义丰富度。

在这篇文章中,我们将深入探讨 Adapt3R , 这是一篇提出混合解决方案的新研究论文。Adapt3R 是专为域迁移设计的观测编码器。它结合了预训练 2D 基础模型的语义能力与 3D 点云的几何精度。其结果是一个允许机器人在一个机器人上学习任务并在另一个机器人上执行,或者在摄像头显著移动时仍能正确执行任务的系统——这在传统方法通常会发生灾难性失败的情况下尤为可贵。

图 1: (a) Adapt3R 促进了向新机体和视点的零样本迁移。(b) Adapt3R 可以作为编码器进行端到端训练,适用于多种模仿学习算法。(c) 在真实世界的多任务模仿学习基准测试中,Adapt3R 实现了向未见相机位姿的零样本迁移。

背景: 为什么泛化如此困难?

要理解 Adapt3R 的重要性,我们首先需要看看为什么当前的方法在处理 分布外 (OOD) 数据时会感到吃力。

2D 模仿学习的局限性

大多数现代机器人学习依赖于标准的 RGB 摄像头。卷积神经网络 (CNN) 或 Transformer 处理图像并输出机器人动作。这些模型容易过拟合训练数据中特定的背景、光照或相机角度。如果相机角度发生变化,像素模式会剧烈改变,策略就会失效。

现有 3D 表示的缺陷

为了解决 2D 的空间问题,研究人员转向了体素或点云等 3D 表示。理想情况下,3D 点云是“视点不变的”——无论相机放在哪里,一个杯子看起来都是一个 3D 的杯子。

然而,现有的 3D 方法存在局限性:

  1. 缺乏语义:DP3 (3D Diffusion Policy) 这样的方法使用无色点云。它们纯粹依赖几何结构。这使得区分几何相似但语义不同的物体 (例如红杯子与蓝杯子) 变得困难。
  2. 过拟合几何结构: 对场景中所有点进行复杂自注意力计算的方法 (如 3D Diffuser Actor )往往会过拟合训练场景的特定几何布局,导致当几何结构发生变化时变得脆弱 (例如,改变相机角度会改变点的密度) 。
  3. 计算成本: 处理高分辨率 3D 数据计算量大,往往会拖慢推理速度,无法用于实时控制 (例如 < 5Hz) 。

核心方法: Adapt3R

Adapt3R 背后的研究人员提出了一个巧妙的架构哲学: 将语义推理卸载到 2D 骨干网络,仅将 3D 用于定位。

Adapt3R 不试图从稀疏的点云中学习物体“是什么”,而是使用预训练的 2D 视觉模型 (CLIP) 来提取特征。然后,它将这些特征提升到 3D 空间,以理解它们相对于机器人的位置。

让我们一步步拆解这个架构。

图 2: Adapt3R 从 RGBD 输入中提取场景表示,用于各种模仿学习算法。它将预训练的基础模型特征提升为点云,仔细处理该点云,并使用注意力池化将其压缩为单个向量 z,作为端到端学习的条件。

1. 构建 3D 场景

过程始于来自一个或多个已标定摄像头的 RGBD (颜色 + 深度) 图像。

  • 特征提取: 系统将 RGB 图像通过一个冻结的、预训练的 CLIP ResNet 骨干网络。这提取了一个包含丰富语义信息的密集特征图 (理解“杯子”、“把手”、“桌子”) 。
  • 提升至 3D: 使用相机内参矩阵,像素被投影到 3D 空间形成点云。然而,与只有 \((x, y, z)\) 坐标和可能的 RGB 颜色的标准点云不同,这个云中的每个点都关联着一个来自 CLIP 的高维语义特征向量。

2. 末端执行器坐标系 (关键步骤)

大多数系统在“世界坐标系” (相对于机器人基座或房间) 中表示点云。Adapt3R 将点云转换到 末端执行器 (EE) 坐标系

这为什么重要? 想象一下你试图把钥匙插进锁里。锁在房间的哪个位置重要吗?不重要。重要的是锁 相对于你的手 在哪里。通过将世界转换为机器人以手为中心的视图,策略学习到了相对空间关系。这对于 跨机体迁移 至关重要。如果你从一个大的机械臂换到一个小的机械臂,手的“世界坐标系”坐标会完全改变,但随着夹爪接近物体,物体的“EE 坐标系”视图保持一致。

3. 智能下采样和裁剪

原始点云既嘈杂又沉重。Adapt3R 采用了特定的策略来清理数据:

  • 裁剪: 它裁剪场景以聚焦工作区 (桌子) 并移除末端执行器后方的点 (通常是机器人自己的手臂) ,这防止了机器人混淆自己的身体与环境。
  • 基于特征的下采样: 标准方法使用基于几何距离 (XYZ) 的最远点采样 (FPS)。这通常会选中许多空桌子上的点,因为它们在物理上相距较远。Adapt3R 使用基于 特征距离 的 FPS。这确保了下采样保留的是语义上不同的点 (物体) ,而不仅仅是几何上分散的点 (桌面) 。

图 13: 此图展示了文中讨论的各种下采样方案的可视化。(a) 场景的 RGB 图像供参考。(b) 裁剪后的原始点云。(c) 基于笛卡尔坐标下采样后的点云。(d) 基于图像特征 F 的下采样。

如上图 13 所示,请注意基于特征的 FPS (d) 与基于坐标的采样 (c) 相比,如何将点集中在感兴趣的物体上。

4. 注意力池化和条件调节

最后,系统需要将这个云压缩成一个向量 \(z\),以输入到模仿策略中。

  • 位置编码: 点被编码为傅里叶特征,以帮助网络感知高频空间细节 (这对于高精度任务至关重要) 。
  • 语言注入: 语言指令 (例如,“拿起那个蓝色的杯子”) 通过 CLIP 嵌入并拼接到点特征中。
  • 注意力池化: Adapt3R 没有使用简单的最大池化 (会丢失上下文) 或沉重的自注意力 (速度慢) ,而是学习了点上的注意力图。这允许模型动态地“决定”哪些点与当前任务相关,并将它们聚合为最终向量 \(z\)。

然后,这个向量 \(z\) 被传递给下游策略——例如 ACT (Action Chunking Transformer) 或 Diffusion Policy——以生成运动指令。

图 8: 此图比较了 Adapt3R 与其他几种同样使用点云进行模仿学习的近期方法。(a) 我们提供了 Adapt3R 的图解以供参考。(b) DP3 [25] 省略了任何语义信息,而是以无色点云为条件。(c) 3D Diffuser-Actor [27] 在带噪声的动作轨迹和场景 token 之间进行交叉注意力计算。(d) GenDP [29] 手动选择训练数据中的重要参考特征…

实验结果

研究人员在复杂的仿真基准( LIBERO-90, MimicGen )和真实机器人设置上评估了 Adapt3R。目的是测试三种能力: 多任务学习、跨机体迁移和新视点泛化。

1. 分布内性能

首先,它能学会任务吗? 在 LIBERO-90 基准测试 (90 个不同的操作任务) 中,Adapt3R 达到了 90.0% 的成功率,匹配或超过了最佳基准 (RGB ResNet 达到 90.9%,而 3D Diffuser Actor 达到 83.7%) 。

在高精度任务 (MimicGen) 中,Adapt3R 显著优于像 DP3 这样的纯几何方法。例如,在“穿孔”任务 (将杆插入孔中) 中,Adapt3R 达到了 44.0% 的成功率,而 DP3 几乎完全失败 (0.2%),这可能是因为 DP3 缺乏精确对齐物体所需的语义分辨率。

2. 零样本相机迁移

这是“压力测试”。模型在一个相机视角下训练。在测试时,相机围绕场景旋转。

图 4: 未见相机位姿。我们将场景相机绕通过末端执行器起始位置的垂直轴旋转 theta 弧度。LIBERO-90 结果使用 BAKU,MimicGen (MG) 结果使用 DP。

图 4 中的结果令人震惊。

  • Adapt3R (紫线) : 即使相机旋转幅度很大 (\(\theta = 2.0\) 弧度) ,仍能保持高性能 (在 LIBERO 上接近 80%) 。
  • 基准: RGB (蓝色) 和 RGBD (橙色) 方法立即崩溃。即使是使用点云的 3D Diffuser Actor (红色) 也显著下降。

为什么 3D Diffuser Actor 会失败?作者推测其繁重的自注意力机制过拟合了训练视图中点的特定几何分布。Adapt3R 的注意力池化更加鲁棒,有效地忽略了从新角度出现的“分布外”点。

3. 跨机体迁移

在 Franka Panda 机械臂上训练的策略能在 Kuka IIWA 或 UR5e 上工作吗? 作者对齐了动作空间 (使用 delta 位姿) ,并使用了 Adapt3R 的末端执行器坐标系点云。

图 3: 我们在 (a) 所示的 Franka Panda 和视点上进行训练。然后,我们在 UR5e、Kinova3 和 IIWA (b) 机体以及未见相机位姿 (c) 上进行零样本评估。

图 5: 跨机体。我们在三个未见机体上进行零样本评估。LIBERO-90 结果聚合了所有动作解码器,MimicGen (MG) 结果使用 DP。Adapt3R 和 3DDA 始终优于对比方法,表明语义对齐的点云有助于机体迁移。

如图 5 所示,Adapt3R (紫色) 始终优于 2D 方法 (RGB) 和纯几何方法 (DP3)。因为 Adapt3R 是相对于夹爪感知世界的,所以更换机器人主体 (大部分被裁剪或掩盖掉) 对策略理解物体交互的影响微乎其微。

4. 真实世界验证

仿真很有用,但现实世界是混乱的。深度相机有噪声,光线会变化。团队在执行抓取放置任务的物理 UR5 机器人上测试了 Adapt3R。

图 6: 真实机器人设置。(a) 硬件图示。(b) 用于训练所有策略的视点。(c) 用于我们零样本评估实验的视点。

真实世界的结果反映了仿真的情况。当相机移动到一个全新的角度时 (图 6c) :

  • RGB 基准: 性能下降了 44.4%
  • 3D Diffuser Actor: 性能下降了 55.6%
  • Adapt3R: 性能下降不到 6%

图 7: 真实基准结果。我们看到 Adapt3R 实现了很强的分布内性能,并在视点变化下保持了性能,而基准方法则没有。

这证实了该架构不仅仅是利用了仿真伪影——它真正学习到了任务的鲁棒表示。

为什么有效: 消融实验

作者剥离了模型的部分组件,看看什么最重要。

  • 移除图像特征: 如果你用仅有的 RGB 颜色替换 CLIP 特征,性能会崩溃 (特别是在相机迁移上) 。这证明了预训练的 2D 语义对于理解场景起着举足轻重的作用。
  • 移除 EE 坐标系: 如果不将点转换到末端执行器坐标系,泛化能力会下降。机器人失去了它的“自我中心”参考。
  • 移除位置编码: 如果没有傅里叶特征,精确操作任务会受损,因为网络无法分辨细微的空间差异。

结论与启示

Adapt3R 代表了我们思考 3D 机器人学习方式的一种转变。它不再试图构建从零开始学习一切的“点云网络”,而是利用 2D 计算机视觉 (CLIP) 的巨大进步,并严格地将 3D 几何用于它最擅长的领域: 空间定位。

主要收获:

  1. 混合更佳: 结合 2D 语义和 3D 几何比单独使用任何一种模态都能产生更好的泛化效果。
  2. 参考系很重要: 相对于机器人的手 (末端执行器坐标系) 来表示世界,对于在不同机器人之间迁移技能至关重要。
  3. 速度: Adapt3R 的运行频率约为 44Hz,使其足以进行实时控制,这与更重的基于 Transformer 的 3D 方法 (如运行频率为 2.6Hz 的 3DDA) 不同。

虽然局限性依然存在——特别是依赖高质量的深度相机和标定——但 Adapt3R 为“通用智能体”铺平了道路。如果我们能够训练出不需要在每次碰触摄像头或升级硬件后都要重新训练的机器人,我们就离在混乱、非结构化的现实世界中有效部署机器人更近了一步。