突破部件壁垒: CAP-Net 如何掌握关节物体感知

想象你是一个机器人，接到了一个看似简单的家务任务: 打开笔记本电脑。对人类来说，这轻而易举。你认出盖子，找到边缘，然后把它掀开。但对机器人来说，这是一个几何噩梦。笔记本电脑不是一个实心的砖块；它是一个关节物体 (articulated object) ——由关节连接的刚性部件组成的结构。盖子相对于底座移动，改变了物体的整体形状。

为了让机器人能够操作这类物体，它不仅需要了解物体在哪里，还需要知道每个运动部件的 6D 姿态 (位置和方向) 及尺寸。传统上，这一直是机器人感知领域的一大绊脚石。

在这篇深度文章中，我们将探讨一篇题为 “CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image” 的迷人论文。研究人员提出了一种新颖、统一的方法，通过将物体视为一个整体而不是孤立部件的总和，显著超越了现有方法。

CAP-Net 框架概览，展示了从输入到机器人操作的流程。

移动部件带来的问题

在剖析解决方案之前，我们需要理解为什么关节物体对计算机视觉系统来说如此困难。

刚性 vs. 关节

刚性物体姿态估计是一个研究得很透彻的领域。如果你想拿起一个咖啡杯，把手相对于杯身的位置总是固定的。然而，关节物体 (如剪刀、抽屉或冰箱) 有多个运动部件。一个抽屉可以是打开的、关闭的，或者半开的。

“先分割后姿态”的陷阱

大多数最新的先进方法 (如 GAPartNet) 使用多阶段流程来解决这个问题。首先，它们尝试分割点云以分离特定部件 (例如，只分离笔记本电脑的盖子) 。然后，它们在那个分离的片段上运行姿态估计算法。

这听起来很合逻辑，但它产生了一个致命缺陷: 全局上下文的缺失 (Loss of Global Context) 。

当算法孤立地观察一个分割后的部件时，它失去了物体其余部分提供的视觉线索。这会导致视觉歧义 。例如，如果机器人只看到一个平坦的长方形表面 (笔记本电脑盖子) ，它可能很难区分正面和背面。但是，如果它看到连接在上面的铰链和键盘底座，方向就变得显而易见了。

完整物体与基于部件的方法对比，突出了视觉歧义。

如上图 2 所示，依赖孤立部件通常会导致错误的姿态估计 (由红色 X 表示) ，而考虑整个物体则能解决这种歧义 (绿色对勾) 。

仿真到现实 (Sim-to-Real) 的差距

另一个主要障碍是数据。训练神经网络需要海量数据。在现实世界中标注关节部件的 6D 姿态既昂贵又缓慢。研究人员依赖合成数据，但通常，合成图像 (渲染图) 和深度图看起来不像真实世界。真实的深度传感器 (如 RealSense 相机) 是有噪声的；而合成深度通常是完美的。这种差异造成了“域差距 (domain gap) ”，导致在模拟数据上训练的模型部署到真实物理机器人时会失效。

CAP-Net 登场: 一种统一的方法

为了解决这些问题，作者推出了 CAP-Net (Categorical Articulated Parts Network，类别级关节部件网络) 。CAP-Net 不是将物体切成碎片分别处理，而是一个单阶段网络。它处理整个物体以估计:

语义标签 (Semantic Labels) : 这是什么类别的部件？ (例如，把手、按钮) 。
实例中心 (Instance Centers) : 它是哪个具体的部件？ (例如，上面的抽屉 vs. 下面的抽屉) 。
NPCS 映射 (NPCS Maps) : 它的姿态和方向是什么？ (归一化部件坐标空间) 。

架构: 融合 RGB 与几何信息

CAP-Net 最大的优势之一在于它如何处理输入数据。以前的许多方法几乎完全依赖几何数据 (点云) ，因为 RGB 图像被认为太难在仿真和现实之间进行桥接。然而，CAP-Net 极大地利用了 RGB 图像中丰富的语义信息。

CAP-Net 详细架构概览，展示了特征融合和多任务学习头。

如上面的架构图所示，该流程工作原理如下:

特征提取 (Feature Extraction) : 系统接收一张 RGB-D 图像。

视觉主干网络: RGB 图像由 SAM2 (Segment Anything Model 2) 和 FeatUp 处理。这些是强大的预训练视觉编码器。SAM2 提供密集的特征表示，而 FeatUp 提取高分辨率、类别无关的语义特征。
几何主干网络: 深度 (Depth) 图像被转换为点云。

逐点融合 (Point-wise Fusion) : 来自 RGB 编码器的丰富语义特征与几何点云数据进行拼接 (融合) 。
处理 (Processing) : 这个增强的点云通过 PointNet++ 传输，这是一个专为处理 3D 点集而设计的深度学习架构。

多任务学习

一旦提取了特征，网络就会分成三个并行的“头 (heads) ”或模块，每个模块负责特定的预测任务。这是一个端到端的过程，意味着网络同时学习所有这些任务。

1. 语义部件学习 (\(M_{sem}\))

该模块预测点云中每个点的类别标签。它回答了这个问题: “这个点属于把手、盖子还是按钮？”

这里使用的损失函数是焦点损失 (Focal Loss) ，它有助于模型关注难以分类的样本:

语义损失公式。

其中 \(\hat{c}_i\) 是预测标签，\(c_i\) 是真值。

2. 质心偏移学习 (\(M_{inst}\))

光有语义标签是不够的。一个柜子可能有三个相同的把手。为了区分它们，该模块预测每个点所属部件实例的中心。它通过预测从点到中心的偏移向量 (方向和距离) 来实现这一点。

实例偏移损失公式。

这鼓励属于同一个把手的点为同一个中心位置“投票”，从而允许系统稍后将它们聚类成不同的实例。

3. NPCS 学习 (\(M_{npcs}\))

这是姿态估计的核心。 NPCS (Normalized Part Coordinate Space，归一化部件坐标空间) 是一个规范的 3D 空间，在这个空间中，物体部件被标准化 (居中、缩放和对齐) 。

网络预测观测到的点云中每个点的 NPCS 坐标。本质上，它创建了一个映射，将现实世界中变形的物体链接回其完美、“理想”的版本。

NPCS 损失公式。

由于预测连续坐标很困难，作者将坐标离散化为若干个区间 (bins) ，并使用分类方法 (Soft-max 交叉熵) ，这种方法通常比直接回归更稳定。

从预测到 6D 姿态

在网络做出这些预测后，会进行一个后处理步骤:

聚类 (Clustering) : 基于预测的语义标签和实例中心，将点分组为实例 (使用 DBSCAN 算法) 。
对齐 (Alignment) : 对于每个识别出的部件，系统现在有两组点: 观测到的现实世界点和预测的 NPCS (规范) 点。
姿态拟合 (Pose Fitting) : 使用 Umeyama 算法 计算最佳对齐这两组点的变换矩阵 (旋转、平移和缩放) 。这个变换矩阵就是 6D 姿态和尺寸。

数据引擎: RGBD-Art 数据集

没有好的训练数据，复杂的模型也毫无用处。研究人员发现，现有的数据集不足以弥合仿真与现实的差距。它们要么缺乏逼真的光照 (渲染) ，要么拥有与真实传感器噪声数据不符的“完美”深度图。

为了解决这个问题，他们引入了 RGBD-Art 数据集 。

RGBD-Art 数据集与现有合成数据集的对比。

如上表 1 所示，RGBD-Art 通过提供照片级真实 RGB (P-RGB) 和逼真深度 (R-D) 使得自己脱颖而出。

它为何逼真？

光线追踪 (Ray-Tracing) : RGB 图像使用光线追踪技术渲染，以模拟逼真的光照、阴影和材质。
传感器噪声模拟 (Sensor Noise Simulation) : 深度图不是完美的真值。它们的生成包含了类似于主动立体深度相机 (如 RealSense D415) 的噪声模式，使得向真实硬件的迁移更加顺畅。

RGBD-Art 数据集示例，展示了照片级渲染和真值标注。

图 3 展示了该数据的质量。请注意咖啡机上复杂的光照和深度图中微妙的梯度。

实验结果

研究人员将 CAP-Net 与几种基线方法进行了比较，包括基于点的方法 (PointGroup, SoftGroup) 和最先进的 GAPartNet。

分割性能

最引人注目的结果之一在于实例分割 (识别哪些点属于哪个部件) 。

展示分割结果的表格。注意“我们 (Ours) ”与 GAPartNet 的巨大差异。

在表 2 中，请看“Seen” (已知) 物体的 “Avg. AP50” (平均精度) 列的差异。

GAPartNet: 11.35%
CAP-Net (Ours): 53.58%

这是一个巨大的性能飞跃。作者将其归功于从 RGB 图像中包含的密集语义特征 (通过 SAM2/FeatUp) 。虽然对于像按钮这样的小部件，几何特征 (点云) 可能充满噪声且模糊不清，但 RGB 纹理提供了清晰的边界。

姿态估计精度

但是，准确的分割是否转化为更好的姿态估计了呢？

展示姿态估计结果的表格。误差越低越好。

表 3 证实了这一点。

\(R_e\) (旋转误差): CAP-Net 达到了 10.39 度，显著低于 GAPartNet 的 83.3 度。
A10 (10度/10厘米内的准确率): CAP-Net 达到了 58.44%，而 GAPartNet 仅为 1.40%。

注: GAPartNet 极高的误差部分是因为它依赖于允许 180 度对称翻转的指标。当严格评估 (无对称性容忍度) 时，它的性能会下降，因为它很难区分部件的正面和背面——即前面讨论的“全局上下文”问题。

可视化成功案例

数字令人信服，但视觉效果是不可否认的。

CAP-Net 与 GAPartNet 在合成数据和真实数据上的定性结果对比。

在图 5 中，请看 “GAPartNet” 列与 “Ours” 列的对比。

第 1 行 (遥控器) : GAPartNet 未能检测到姿态 (No Detection) 。CAP-Net 准确地框定了遥控器。
第 2 行 (盒子) : GAPartNet 遭遇了“180 度误差”——它认为盒子的朝向是错的。CAP-Net 得到的方向是正确的，因为它看到了整个物体的上下文。
第 3 行 (桶) : CAP-Net 将边界框紧密地贴合在桶的把手上，这是仅凭深度传感器极难捕捉的细小部件。

真实世界机器人部署

任何机器人感知论文的终极测试是: 它能在物理机器人上工作吗?

团队将 CAP-Net 部署在配备 RealSense D435 相机的 Kinova Gen2 机械臂上。

包含 Kinova 机械臂和 RealSense 相机的机器人设置。

他们在涉及抽屉、铰链把手和盖子的任务上测试了机器人。结果令人印象深刻。

展示机器人操作任务成功率的表格。

如表 6 所示，CAP-Net 在所有任务中实现了 28/30 的总成功率，而基线 GAPartNet 则非常吃力 (可能是由于 Sim-to-Real 的差距和全局上下文的缺失) 。

结论与未来启示

CAP-Net 论文代表了机器人操作领域向前迈出的重要一步。通过摆脱“先分割后姿态”的范式并采用统一的单阶段网络，研究人员解决了上下文丢失的关键问题。

关键要点:

全局上下文至关重要: 处理整个物体可以防止方向错误 (部件 180 度翻转) 。
RGB 功能强大: 集成基础视觉模型 (SAM2/FeatUp) 提供了检测几何数据容易遗漏的小部件所需的语义细节。
数据的真实性: RGBD-Art 数据集证明，在具有模拟传感器噪声的照片级合成数据上进行训练，是弥合 Sim-to-Real 差距的关键。

对于机器人领域的学生和研究人员来说，CAP-Net 证明了有时观察“大局” (整个物体) 比过早关注细节 (孤立部件) 更有效。随着代码和数据集的公开，这项工作为机器人像人类一样轻松驾驭我们杂乱、多关节的世界铺平了道路。

突破部件壁垒: CAP-Net 如何掌握关节物体感知#

移动部件带来的问题#

刚性 vs. 关节#

“先分割后姿态”的陷阱#

仿真到现实 (Sim-to-Real) 的差距#

CAP-Net 登场: 一种统一的方法#

架构: 融合 RGB 与几何信息#

多任务学习#

1. 语义部件学习 (\(M_{sem}\))#

2. 质心偏移学习 (\(M_{inst}\))#

3. NPCS 学习 (\(M_{npcs}\))#

从预测到 6D 姿态#

数据引擎: RGBD-Art 数据集#

它为何逼真？#

实验结果#

分割性能#

姿态估计精度#

可视化成功案例#

真实世界机器人部署#

结论与未来启示#