PicoPose：通过渐进式学习掌握零样本物体姿态估计

引言

想象一下，你让机器人从一张杂乱的桌子上拿起一把特定品牌的电钻。如果机器人在训练期间已经见过这把电钻一千次，那么这简直是小菜一碟。但如果是它从未见过的全新工具呢？这种场景被称为新颖物体姿态估计 (Novel Object Pose Estimation) , 是机器人视觉领域的“圣杯”级挑战之一。

为了与物理世界互动，机器人需要知道物体的6D 姿态——即相对于相机的它是位置 (3D 坐标) 和方向 (3D 旋转) 。传统上，精确的姿态估计需要昂贵的深度传感器 (RGB-D) 来理解场景的几何结构。虽然有效，但深度传感器增加了机器人系统的成本和复杂性。

仅仅使用标准的 RGB 相机来准确完成这项任务要困难得多，因为 3D 几何信息在 2D 图像中丢失了。现有的方法通常难以应对这一问题，产生的预测往往充满噪声且不准确，导致机器人抓取失败。

PicoPose 应运而生，这是在 CoRL 2025 上提出的一个新框架。PicoPose 解决这个问题的方法是不把姿态估计视为一次性的猜测，而是一个渐进式细化 (Progressive Refinement) 的过程。它从一个粗略的猜测开始，有条不紊地对其进行打磨，直到达到像素级的精度。

图 1: 我们提出的 PicoPose 概览，它包含一个用于 RGB 图像新颖物体姿态估计的三阶段像素到像素对应关系学习过程。通过渐进式地细化对应关系，PicoPose 显著提高了通过 PnP/RANSAC 计算出的物体姿态的准确性。凭借零样本能力，PicoPose 使得针对未见物体的各种机器人操作系统的快速部署成为可能。

在这篇文章中，我们将通过拆解 PicoPose 的三阶段架构: 粗略匹配、全局平滑和局部细化 , 来剖析它是如何实现最先进 (State-of-the-Art) 结果的。

核心问题: 泛化能力

PicoPose 解决的核心挑战是零样本泛化 (Zero-shot Generalization) 。在机器学习中，“零样本”意味着模型必须在从未训练过的数据类别上表现良好。

对于物体姿态估计，处理新颖物体的标准工作流程通常涉及模板匹配 。你获取新物体的 3D CAD 模型，从许多不同的角度 (模板) 对其进行渲染，并尝试将这些模板与机器人在现实世界中看到的 (RGB 观测图像) 进行匹配。

之前的方法 (如 GigaPose 或 FoundPose) 尝试直接在场景和模板之间匹配特征。然而，这些匹配通常充满“噪声”——光照差异、遮挡和背景杂波会产生错误的匹配 (离群点/Outliers) ，导致姿态估计不稳定。PicoPose 对此进行了改进，引入了一个结构化的多阶段流程，过滤掉噪声并逐步收紧对齐。

PicoPose 架构

PicoPose 建立在“像素到像素 (Pixel-to-Pixel) ”对应关系学习的理念之上。目标是找出 2D 图像上的哪个像素正好对应 3D 模型上的哪个点。一旦你拥有足够多的这种 2D-3D 配对，就可以通过数学方法解算出物体的 6D 姿态。

该框架分三个不同的阶段运行，如下图所示:

图 2: 我们提出的 PicoPose 的图解。

让我们分解一下输入和学习的三个阶段。

设置

系统接受两个输入:

RGB 图像 (观测) : 包含目标物体的杂乱场景。
物体模板: 从不同视点渲染的目标物体 CAD 模型图像。

在主流程开始之前，系统使用一种称为 CNOS (基于 CAD 的新颖物体分割) 的方法从场景中裁剪出目标物体。它还使用 DINOv2 (一种强大的视觉 Transformer) 从裁剪后的图像和模板中提取鲁棒的特征。

第一阶段: 用于粗略对应关系的特征匹配

第一步是找到“最佳匹配模板”——本质上是在问: “3D 模型的哪个角度看起来最像我们在照片中看到的？”

PicoPose 计算图像特征和模板特征之间的相似度得分。模板的匹配得分 \(c_i\) 是使用其特征的余弦相似度计算的:

匹配得分公式

在这里，系统查看图像的前景图块 (patches) ，并在模板中寻找最相似的图块。得分最高的模板被选为最佳匹配 。

此时，我们得到了一个粗略的对应关系 。我们大致知道哪个模板与图像匹配，并且根据特征相似度，我们对哪些像素相互链接有一个粗略的概念。然而，这些匹配是稀疏且充满噪声的。

第二阶段: 用于平滑对应关系的全局变换

这是 PicoPose 与许多朴素匹配方法的不同之处。来自第一阶段的原始特征匹配通常是分散的，或者在几何上是不可能的 (例如，物体左上角的像素匹配到了模板的右下角) 。

为了解决这个问题，第二阶段引入了几何约束。它假设观测图像和模板之间的关系可以通过一个 2D 仿射变换 (Affine Transformation) 来近似。这个变换包含:

旋转 (\(\alpha\)): 平面内旋转。
缩放 (\(s\)): 物体放大或缩小了多少。
平移 (\(t_u, t_v\)): 物体向左/右或上/下移动。

仿射变换矩阵 \(\mathcal{M}\) 定义为:

仿射变换矩阵 M 的公式

PicoPose 不是简单地猜测这个矩阵，而是去学习它。它利用第一阶段得到的充满噪声的特征相关性，将其输入到一个神经网络中，该网络回归 (预测) 旋转、缩放和平移的值。

通过将此全局变换应用于模板，系统将模板与观测图像的对齐程度显著提高。

图 3: RGB 观测图像上一点 (由黄色星号标记) 的特征与经过各种仿射变换的模板特征之间的对应关系图的可视化。

如上图 3 所示，“对应关系图 (Correspondence Map) ”就像一个热力图。即使物体发生了旋转或缩放，网络也能识别出正确的几何关系。这一步有效地“平滑”了嘈杂的对应关系，过滤掉了不符合物体全局形状的离群点。

第三阶段: 用于精细对应关系的局部细化

在第二阶段之后，模板和图像已经大致对齐，但并不完美。微小的局部变形或透视偏移可能仍然存在。第三阶段充当“微调”层。

这一阶段处理问题的方式类似于光流 (Optical Flow) ——一种用于跟踪帧间像素移动的计算机视觉技术。PicoPose 使用了一种类似于 RAFT (Recurrent All-Pairs Field Transforms) 架构的机制。

它计算偏移量 (Offsets) ——即每个像素的微小调整量 (\(\Delta P\)) ，以将模板特征轻推至与观测图像完美对齐。

该阶段的训练目标包括最小化预测偏移量与真实值之间的差异，以及预测每个像素的“确定性图” (置信度分数) :

精细对应关系损失公式

在这个公式中:

\(\mathcal{L}_{fine}\) 是我们想要最小化的损失函数。
\(\Delta \mathcal{P}\) 代表预测的像素偏移量。
\(\mathcal{C}\) 是确定性 (置信度) 图。

网络使用多个回归块迭代更新这些偏移量，每一步都变得更加精确。

最终姿态计算

一旦第三阶段完成，我们就拥有了一组高质量的图像 2D 像素坐标，它们对应于物体模型上的 3D 点。我们根据置信度图过滤这些点 (只保留确定性 > 50% 的点) 。

最后，将这些 2D-3D 配对输入到一个名为 带 RANSAC 的 PnP (Perspective-n-Point) 的经典算法中。该算法解决了几何难题，计算出物体最终的 6D 姿态 (3D 旋转和平移矩阵) 。

实验与结果

研究人员在合成数据集 (ShapeNet 和 Google Scanned Objects) 上训练了 PicoPose，并在 BOP 基准测试 (BOP Benchmark) 上进行了测试，这是一个针对物体姿态估计的严格标准，包含七个不同的数据集 (如 LM-O, T-LESS 和 YCB-V) 。

定量性能

结果令人印象深刻。PicoPose 在基于 RGB 的方法中取得了最先进的性能。

表 1: 不同方法在 BOP 数据集上的定量结果。

在上表中，请看“Mean” (平均值) 一列。

无细化 (Without Refinement) : PicoPose 得分为 47.5 , 显著高于 GigaPose (25.6) 和 FoundPose (42.6)。
有细化 (With Refinement) : 即使结合了外部细化器 (如 MegaPose) ，PicoPose 依然以 58.8 的得分领跑。

这表明，“渐进式”方法为姿态估计提供了比以前的一次性匹配技术高得多的起点质量。

可视化改进

视觉对比让差异一目了然。在下方的图 4 中，请注意 PicoPose 的绿色 3D 边界框包裹物体是多么紧密，而其他方法则不然。

图 4: 在 BOP 数据集上，未进行迭代细化的不同方法的定性结果。

PicoPose (最右列) 始终将 3D 模型 (绿色线框) 与照片中的实际物体对齐，而其他方法通常显示出明显的漂移或旋转误差。

为什么它有效？分阶段的力量

为了证明三阶段设计的必要性，作者将第一阶段与第二阶段的输出进行了可视化对比。

图 5: 第一阶段的粗略对应关系与第二阶段的平滑对应关系之间的可视化比较。

在第一阶段 (粗略) , 对应关系 (由彩色线条表示) 是混乱且纵横交错的。这表明像素被匹配到了模板的错误部分。在第二阶段 (平滑) , 线条变得平行且有序。这直观地展示了全局变换步骤是如何将混乱的数据“梳理”成连贯的几何结构的。

最后，我们可以看看第三阶段的输出。

图 8: 在 YCB-V 数据集上第三阶段精细对应关系的定性结果。

“Flow” (光流) 列显示了预测的像素位移，而“Certainty” (确定性) 列显示了模型的置信度。请注意，模型恰好在物体所在的位置高度自信 (白色像素) ，从而实现了精确的 2D-3D 配对。

现实应用: 机器人抓取

理论结果固然好，但在实践中有效吗？作者使用 PyBullet 在仿真机器人环境中部署了 PicoPose。

图 9: PicoPose 在仿真环境中的机器人抓取应用。

流程非常简单:

图像: 机器人拍摄一张杂乱料箱的照片。
预测: PicoPose 估计目标物体 (例如饼干盒) 的姿态。
抓取: 姿态被转换为机器人坐标，允许机械臂执行成功的抓取。

实验表明，PicoPose 具有足够的鲁棒性来处理“仿真到现实 (Sim-to-Real) ”的差距——即在合成数据上训练并在逼真的渲染中工作——证明了其在工业自动化和服务机器人领域的潜力。

结论

PicoPose 代表了在使机器人更加自主和灵活方面迈出的重要一步。通过摆脱昂贵的深度传感器，转而依赖对标准 RGB 图像的智能、渐进式分析，它降低了机器人操作的准入门槛。

关键的启示是结构化细化的力量。PicoPose 没有试图一次性解决复杂的几何问题，而是将其分解:

找到物体 (第一阶段) 。
修正全局几何结构 (第二阶段) 。
细化局部细节 (第三阶段) 。

这种“由粗到精”的策略使系统能够过滤掉通常困扰基于 RGB 方法的噪声，针对系统从未见过的物体实现了最先进的精度。随着像 DINOv2 这样的计算机视觉基础模型不断改进，像 PicoPose 这样的框架很可能会成为机器感知和与物理世界互动的标准。

引言#

核心问题: 泛化能力#

PicoPose 架构#

设置#

第一阶段: 用于粗略对应关系的特征匹配#

第二阶段: 用于平滑对应关系的全局变换#

第三阶段: 用于精细对应关系的局部细化#

最终姿态计算#

实验与结果#

定量性能#

可视化改进#

为什么它有效？分阶段的力量#

现实应用: 机器人抓取#

结论#

引言