引言
想象一下,你让机器人从一张杂乱的桌子上拿起一把特定品牌的电钻。如果机器人在训练期间已经见过这把电钻一千次,那么这简直是小菜一碟。但如果是它从未见过的全新工具呢?这种场景被称为新颖物体姿态估计 (Novel Object Pose Estimation) , 是机器人视觉领域的“圣杯”级挑战之一。
为了与物理世界互动,机器人需要知道物体的6D 姿态——即相对于相机的它是位置 (3D 坐标) 和方向 (3D 旋转) 。传统上,精确的姿态估计需要昂贵的深度传感器 (RGB-D) 来理解场景的几何结构。虽然有效,但深度传感器增加了机器人系统的成本和复杂性。
仅仅使用标准的 RGB 相机来准确完成这项任务要困难得多,因为 3D 几何信息在 2D 图像中丢失了。现有的方法通常难以应对这一问题,产生的预测往往充满噪声且不准确,导致机器人抓取失败。
PicoPose 应运而生,这是在 CoRL 2025 上提出的一个新框架。PicoPose 解决这个问题的方法是不把姿态估计视为一次性的猜测,而是一个渐进式细化 (Progressive Refinement) 的过程。它从一个粗略的猜测开始,有条不紊地对其进行打磨,直到达到像素级的精度。

在这篇文章中,我们将通过拆解 PicoPose 的三阶段架构: 粗略匹配、全局平滑和局部细化 , 来剖析它是如何实现最先进 (State-of-the-Art) 结果的。
核心问题: 泛化能力
PicoPose 解决的核心挑战是零样本泛化 (Zero-shot Generalization) 。 在机器学习中,“零样本”意味着模型必须在从未训练过的数据类别上表现良好。
对于物体姿态估计,处理新颖物体的标准工作流程通常涉及模板匹配 。 你获取新物体的 3D CAD 模型,从许多不同的角度 (模板) 对其进行渲染,并尝试将这些模板与机器人在现实世界中看到的 (RGB 观测图像) 进行匹配。
之前的方法 (如 GigaPose 或 FoundPose) 尝试直接在场景和模板之间匹配特征。然而,这些匹配通常充满“噪声”——光照差异、遮挡和背景杂波会产生错误的匹配 (离群点/Outliers) ,导致姿态估计不稳定。PicoPose 对此进行了改进,引入了一个结构化的多阶段流程,过滤掉噪声并逐步收紧对齐。
PicoPose 架构
PicoPose 建立在“像素到像素 (Pixel-to-Pixel) ”对应关系学习的理念之上。目标是找出 2D 图像上的哪个像素正好对应 3D 模型上的哪个点。一旦你拥有足够多的这种 2D-3D 配对,就可以通过数学方法解算出物体的 6D 姿态。
该框架分三个不同的阶段运行,如下图所示:

让我们分解一下输入和学习的三个阶段。
设置
系统接受两个输入:
- RGB 图像 (观测) : 包含目标物体的杂乱场景。
- 物体模板: 从不同视点渲染的目标物体 CAD 模型图像。
在主流程开始之前,系统使用一种称为 CNOS (基于 CAD 的新颖物体分割) 的方法从场景中裁剪出目标物体。它还使用 DINOv2 (一种强大的视觉 Transformer) 从裁剪后的图像和模板中提取鲁棒的特征。
第一阶段: 用于粗略对应关系的特征匹配
第一步是找到“最佳匹配模板”——本质上是在问: “3D 模型的哪个角度看起来最像我们在照片中看到的?”
PicoPose 计算图像特征和模板特征之间的相似度得分。模板的匹配得分 \(c_i\) 是使用其特征的余弦相似度计算的:

在这里,系统查看图像的前景图块 (patches) ,并在模板中寻找最相似的图块。得分最高的模板被选为最佳匹配 。
此时,我们得到了一个粗略的对应关系 。 我们大致知道哪个模板与图像匹配,并且根据特征相似度,我们对哪些像素相互链接有一个粗略的概念。然而,这些匹配是稀疏且充满噪声的。
第二阶段: 用于平滑对应关系的全局变换
这是 PicoPose 与许多朴素匹配方法的不同之处。来自第一阶段的原始特征匹配通常是分散的,或者在几何上是不可能的 (例如,物体左上角的像素匹配到了模板的右下角) 。
为了解决这个问题,第二阶段引入了几何约束。它假设观测图像和模板之间的关系可以通过一个 2D 仿射变换 (Affine Transformation) 来近似。这个变换包含:
- 旋转 (\(\alpha\)): 平面内旋转。
- 缩放 (\(s\)): 物体放大或缩小了多少。
- 平移 (\(t_u, t_v\)): 物体向左/右或上/下移动。
仿射变换矩阵 \(\mathcal{M}\) 定义为:

PicoPose 不是简单地猜测这个矩阵,而是去学习它。它利用第一阶段得到的充满噪声的特征相关性,将其输入到一个神经网络中,该网络回归 (预测) 旋转、缩放和平移的值。
通过将此全局变换应用于模板,系统将模板与观测图像的对齐程度显著提高。

如上图 3 所示,“对应关系图 (Correspondence Map) ”就像一个热力图。即使物体发生了旋转或缩放,网络也能识别出正确的几何关系。这一步有效地“平滑”了嘈杂的对应关系,过滤掉了不符合物体全局形状的离群点。
第三阶段: 用于精细对应关系的局部细化
在第二阶段之后,模板和图像已经大致对齐,但并不完美。微小的局部变形或透视偏移可能仍然存在。第三阶段充当“微调”层。
这一阶段处理问题的方式类似于光流 (Optical Flow) ——一种用于跟踪帧间像素移动的计算机视觉技术。PicoPose 使用了一种类似于 RAFT (Recurrent All-Pairs Field Transforms) 架构的机制。
它计算偏移量 (Offsets) ——即每个像素的微小调整量 (\(\Delta P\)) ,以将模板特征轻推至与观测图像完美对齐。
该阶段的训练目标包括最小化预测偏移量与真实值之间的差异,以及预测每个像素的“确定性图” (置信度分数) :

在这个公式中:
- \(\mathcal{L}_{fine}\) 是我们想要最小化的损失函数。
- \(\Delta \mathcal{P}\) 代表预测的像素偏移量。
- \(\mathcal{C}\) 是确定性 (置信度) 图。
网络使用多个回归块迭代更新这些偏移量,每一步都变得更加精确。
最终姿态计算
一旦第三阶段完成,我们就拥有了一组高质量的图像 2D 像素坐标,它们对应于物体模型上的 3D 点。我们根据置信度图过滤这些点 (只保留确定性 > 50% 的点) 。
最后,将这些 2D-3D 配对输入到一个名为 带 RANSAC 的 PnP (Perspective-n-Point) 的经典算法中。该算法解决了几何难题,计算出物体最终的 6D 姿态 (3D 旋转和平移矩阵) 。
实验与结果
研究人员在合成数据集 (ShapeNet 和 Google Scanned Objects) 上训练了 PicoPose,并在 BOP 基准测试 (BOP Benchmark) 上进行了测试,这是一个针对物体姿态估计的严格标准,包含七个不同的数据集 (如 LM-O, T-LESS 和 YCB-V) 。
定量性能
结果令人印象深刻。PicoPose 在基于 RGB 的方法中取得了最先进的性能。

在上表中,请看“Mean” (平均值) 一列。
- 无细化 (Without Refinement) : PicoPose 得分为 47.5 , 显著高于 GigaPose (25.6) 和 FoundPose (42.6)。
- 有细化 (With Refinement) : 即使结合了外部细化器 (如 MegaPose) ,PicoPose 依然以 58.8 的得分领跑。
这表明,“渐进式”方法为姿态估计提供了比以前的一次性匹配技术高得多的起点质量。
可视化改进
视觉对比让差异一目了然。在下方的图 4 中,请注意 PicoPose 的绿色 3D 边界框包裹物体是多么紧密,而其他方法则不然。

PicoPose (最右列) 始终将 3D 模型 (绿色线框) 与照片中的实际物体对齐,而其他方法通常显示出明显的漂移或旋转误差。
为什么它有效?分阶段的力量
为了证明三阶段设计的必要性,作者将第一阶段与第二阶段的输出进行了可视化对比。

在第一阶段 (粗略) , 对应关系 (由彩色线条表示) 是混乱且纵横交错的。这表明像素被匹配到了模板的错误部分。 在第二阶段 (平滑) , 线条变得平行且有序。这直观地展示了全局变换步骤是如何将混乱的数据“梳理”成连贯的几何结构的。
最后,我们可以看看第三阶段的输出。

“Flow” (光流) 列显示了预测的像素位移,而“Certainty” (确定性) 列显示了模型的置信度。请注意,模型恰好在物体所在的位置高度自信 (白色像素) ,从而实现了精确的 2D-3D 配对。
现实应用: 机器人抓取
理论结果固然好,但在实践中有效吗?作者使用 PyBullet 在仿真机器人环境中部署了 PicoPose。

流程非常简单:
- 图像: 机器人拍摄一张杂乱料箱的照片。
- 预测: PicoPose 估计目标物体 (例如饼干盒) 的姿态。
- 抓取: 姿态被转换为机器人坐标,允许机械臂执行成功的抓取。
实验表明,PicoPose 具有足够的鲁棒性来处理“仿真到现实 (Sim-to-Real) ”的差距——即在合成数据上训练并在逼真的渲染中工作——证明了其在工业自动化和服务机器人领域的潜力。
结论
PicoPose 代表了在使机器人更加自主和灵活方面迈出的重要一步。通过摆脱昂贵的深度传感器,转而依赖对标准 RGB 图像的智能、渐进式分析,它降低了机器人操作的准入门槛。
关键的启示是结构化细化的力量。PicoPose 没有试图一次性解决复杂的几何问题,而是将其分解:
- 找到物体 (第一阶段) 。
- 修正全局几何结构 (第二阶段) 。
- 细化局部细节 (第三阶段) 。
这种“由粗到精”的策略使系统能够过滤掉通常困扰基于 RGB 方法的噪声,针对系统从未见过的物体实现了最先进的精度。随着像 DINOv2 这样的计算机视觉基础模型不断改进,像 PicoPose 这样的框架很可能会成为机器感知和与物理世界互动的标准。
](https://deep-paper.org/en/paper/2504.02617/images/cover.png)