想象一个机器人第一次进入一个新的厨房。对于人类来说，房间的功能显而易见: 冰箱把手可以拉开，抽屉可以滑出，橱柜门通过铰链摆动。我们凭直觉理解这些机械结构，甚至往往在接触物体之前就能预测它的运动方式。

然而，对于机器人来说，这是一场几何噩梦。橱柜不仅仅是一个静止的盒子；它是一个*关节物体 (articulated object) *——一个刚体，能够相对于另一部分进行特定的运动。如果机器人计算错了重型冰箱门的旋转轴，它可能会把把手扯下来，或者损坏自己的机械臂。

传统上，机器人在高度受控的环境中学习这些关节模型，使用固定的相机和隔离的物体。但现实世界是混乱的 (“野外/in-the-wild”) 。相机会抖动，手会遮挡视线，光线也变幻莫测。

在这篇文章中，我们将深入探讨 ArtiPoint , 这是论文 “Articulated Object Estimation in the Wild” 中提出的一个新颖框架。这项研究提出了一种方法，让机器人仅通过观看人类在动态、真实的视频中与物体交互，就能学会关节模型。我们将探索研究人员如何将深度点跟踪与因子图优化相结合，以解决这个复杂的 3D 感知问题。

ArtiPoint 概念的高级概览。它展示了系统如何接收原始视频输入并输出关节模型，并将其与依赖静态相机的先前基准进行了对比。

“野外”感知的问题

为什么估计门铰链这么难？在实验室里，你可以在门和门框上贴上基准标记 (比如二维码) 。跟踪这些标记，做一些数学运算，你就得到了铰链轴。

在现实世界中，你不能给所有东西都贴上标记。以前的计算机视觉方法试图通过观察物体在不同状态下 (例如打开与关闭) 的深度图像来解决这个问题。然而，这些方法通常存在明显的局限性:

静态相机: 它们假设相机不移动，从而简化背景扣除。
孤立物体: 它们假设物体是场景中唯一的东西，忽略了真实房间的杂乱。
对遮挡敏感: 当人类打开抽屉时，他们的手和身体会阻挡相机的视线。当物体被部分遮挡时，许多算法就会失效。

ArtiPoint 反其道而行之。它不再依赖静态快照，而是将交互视为一个动态的视频事件。它模仿人类的学习方式: 通过观察人手操作物体，系统推断出底层的机械约束。

ArtiPoint 流程

ArtiPoint 的核心逻辑优雅且计算稳健。它遵循一个四阶段的流程:

交互提取: 找到手与物体交互的时刻。
深度点跟踪: 使用神经网络跟踪物体表面的特定点。
3D 提升与过滤: 将 2D 视频轨迹转换为世界坐标系中平滑的 3D 轨迹。
关节估计: 使用概率优化来找出哪种类型的关节 (铰链或滑块) 能解释这些 3D 运动。

让我们详细分解每个阶段。

ArtiPoint 的完整四阶段流程: 交互提取、关键点识别、深度点跟踪和关节模型估计。

第一阶段: 交互提取

如果没有任何东西在移动，你就无法分析关节。第一步是识别交互何时发生。研究人员利用了一个先验知识，即人类是用手来操纵环境的。

系统使用手部分割模型分析视频流。它不仅仅是在寻找一只手；它在寻找持续的交互。通过计算手部可见性的移动平均值，系统过滤掉转瞬即逝的误报 (比如一只手在相机前挥过) ，并专注于稳定的交互片段。

此图说明了交互提取过程。原始检测 (蓝色) 充满噪点，但移动平均值 (绿色) 提供了一个清晰的信号来触发交互片段的开始和结束。

如上图所示，当平滑后的检测信号超过阈值时，系统会触发一个“片段”。这创建了一个时间窗口——一段特定的视频剪辑——系统知道在此时段内物体很可能正在被操纵。

第二阶段: 深度点跟踪

一旦隔离出交互片段，系统就需要跟踪物体。但“物体”到底是什么？系统还不知道它是在看冰箱还是微波炉。

为了解决这个问题，ArtiPoint 在检测到的手周围采样点，并使用 MobileSAM (一种轻量级的分割一切模型) 生成手附近物体的掩码。在这些物体掩码内，它识别出“易于跟踪的特征” (角点、高对比度区域) 。

神奇之处在于 CoTracker3 , 这是一个最先进的“任意点跟踪”模型。与传统的提供两帧之间稠密运动场的光流不同，CoTracker3 可以跨越长视频序列跟踪特定的稀疏点，甚至能估计出点何时被遮挡 (隐藏) 。

这一阶段的结果是一组 2D 轨迹: 屏幕上蜿蜒的线条，代表了物体上的特定像素在视频期间是如何移动的。

第三阶段: 3D 提升、过滤和平滑

2D 轨迹很有用，但机器人生活在 3D 世界中。要理解关节的机械原理，我们需要 3D 坐标。

提升到 3D

研究人员利用 RGB-D 相机的深度通道将 2D 像素“提升”到 3D 空间。然而，这产生了一个新问题: 相机本身在移动。一个点看起来在移动可能仅仅是因为相机向左平移了。

为了解决这个问题，ArtiPoint 假设可以获取相机里程计 (相机在世界中的位置) 。它将所有 3D 点从相机的局部坐标系转换到全局“世界”坐标系。

过滤噪声

现实世界的数据充满噪声。CoTracker3 跟踪的一些点实际上可能位于物体后面的静止墙壁上，或者位于移动物体的手上。

静态过滤: 系统计算每条轨迹在 3D 中的方差 (移动量) 。如果在世界坐标系中某点几乎不动，它就被视为静止点并被丢弃。
遮挡过滤: 被隐藏时间过长的点是不可靠的，会被移除。

轨迹平滑

深度传感器 (如 Kinect 或 RealSense 相机上的传感器) 通常存在高频“抖动”。如果你绘制一个点的原始 3D 路径，它看起来会是锯齿状的。这种锯齿状使得估计平滑的旋转轴变得困难。

为了解决这个问题，作者采用了一种基于优化的平滑技术。他们最小化一个代价函数 \(E(\mathbf{p})\)，该函数在保持原始数据保真度和由平滑约束之间取得平衡:

平滑代价函数。第一项保持点接近观测值。第二项和第三项分别惩罚速度和加速度 (急动度) 的突然变化。

数据项: 保持平滑点接近测量点 (\(\hat{\mathbf{p}}_t\))。
速度项 (\(\lambda_{vel}\)): 惩罚连续点之间的巨大间隙。
急动度项 (\(\lambda_{jerk}\)): 惩罚加速度的突然变化 (尖峰) 。

结果是一组清晰、平滑的 3D 曲线，代表了物体部件的运动。

旋转关节 (橱柜) 和移动关节 (滑块) 的平滑点轨迹的视觉对比。不同颜色代表不同的跟踪关键点。

第四阶段: 利用关节先验 (数学部分)

现在我们有了清晰的 3D 曲线。最后的挑战是找到解释这些曲线的数学模型。物体是绕着铰链旋转 (旋转关节/Revolute joint) ？还是沿着轨道滑动 (移动关节/Prismatic joint) ？

研究人员使用 因子图 (Factor Graph) 公式。他们将关节参数视为需要优化的变量。

变换模型

他们使用螺旋理论 (Screw Theory) 来表示运动，其中运动由“旋量 (twist) ” \(\xi \in \mathfrak{se}(3)\) 定义。这使他们能够在一个统一的数学框架中表示旋转和平移。

目标是找到一个共享的“基旋量” \(\hat{\xi}\) (铰链轴或滑轨轴) 以及最符合观测数据的一系列角度/位置 \(\theta\)。

首先，他们定义了一组源自点轨迹的相对位姿观测值:

定义不同时间观测到的点对集合的方程，用于创建位姿约束。

这些观测值使他们能够构建一个因子图。因子图是一种概率图模型，它将变量 (铰链轴、时间 \(t\) 时的门角度) 与因子 (预期位置与观测位置之间的误差) 连接起来。

系统通过最小化整个轨迹上的全局误差来求解关节参数:

最终的优化目标。它最小化观测点位置与估计的关节模型 (旋量和角度) 预测的位置之间的差异。

通过使用像 GTSAM 这样的库求解这个方程，ArtiPoint 输出:

关节的类型 (旋转 vs. 移动) 。
精确的 3D 旋转轴或平移轴。
物体部件的轨迹。

Arti4D: 现实世界的基准

这篇论文的主要贡献之一是 Arti4D 数据集 。现有的数据集过于无菌——它们没有捕捉到手持相机和混乱房间的无序本质。

Arti4D 包含 45 个 RGB-D 序列，涵盖了不同环境 (厨房、实验室) 中的 414 次交互。它包括:

动态相机运动: 操作员在录制时四处走动。
场景级上下文: 物体不是孤立的；它们是更大房间的一部分。
Ground Truth (真值) : 精确的相机位姿和标记的关节轴。

Arti4D 数据集中物体交互的可视化。注意杂乱的环境、不同的光照条件和多样化的物体 (抽屉、冰箱、工具箱) 。

该数据集不仅可以作为关节估计的测试，还可以作为 SLAM (同步定位与建图) 算法的严酷测试，因为移动的物体经常打破绘图软件所依赖的“静态世界”假设。

来自 Arti4D 数据集的重建场景。这些 3D 地图为关节交互提供了背景。

它的效果如何？实验结果

研究人员将 ArtiPoint 与几个基准进行了比较，包括:

ArtGS 和 Ditto: 基于高斯泼溅 (Gaussian Splatting) 和隐式函数的最新深度学习方法。
Sturm et al.: 一种经典的概率方法。

使用的指标是 角度误差 (\(\theta_{err}\))——预测的铰链轴与真实铰链轴之间的度数差异——以及轴位置的 位置误差 (\(d_{L2}\))。

比较 ArtiPoint 与基准方法的表格。ArtiPoint 实现了显著更低的角度误差 (移动关节 14.54 度，旋转关节 17.14 度) ，而 ArtGS 和 Ditto 均超过 50 度。

结果令人震惊。 如表 1 所示，ArtiPoint 实现了约 14-17 度的角度误差，而竞争的深度学习方法 (ArtGS, Ditto) 则徘徊在 50-60 度左右。

为什么会有这么大的差异？基准方法是为“半静态”的孤立视图设计的。当相机剧烈移动或物体被手部分遮挡时，它们就会陷入困境。ArtiPoint 对时间数据的依赖——随时间跟踪点——使其对这些干扰具有更强的鲁棒性。

定性成功

该系统在日常物体上表现出色。在下图中，你可以看到抽屉和存储箱的估计轴 (黄色箭头) 和轨迹 (坐标系) 。即使在真实厨房的视觉噪点下，系统也能正确识别抽屉的滑动运动和箱子的铰链。

展示抽屉和存储箱估计轴和轨迹的定性结果。尽管真实厨房中存在视觉噪点，系统仍正确识别了运动模型。

消融实验

团队还测试了流程中哪些部分最重要。

平滑: 关闭轨迹平滑会增加误差，证明原始深度数据噪点太多。
关键帧步长: 他们发现处理每隔一帧 (步长为 2) 在跟踪密度和计算速度之间提供了最佳平衡。

展示关键帧步长影响的消融研究图表。步长为 2 时，角度误差和位置误差最小。

结论与未来展望

ArtiPoint 代表了机器人感知领域向前迈出的重要一步。通过摆脱静态快照分析，拥抱视频的动态、无序本质，它使机器人能够在野外通过人类演示进行学习。

主要收获如下:

运动即信息: 即使相机在移动，跟踪点随时间的移动也能为关节提供稳健的信号。
先验很重要: 利用“手引起运动”这一先验知识可以过滤掉大量不相关的数据。
混合方法制胜: 将现代深度学习 (用于点跟踪) 与经典概率优化 (因子图) 相结合，比针对此特定任务依赖端到端的“黑盒”神经网络能产生更好的结果。

对于机器人领域的学生和研究人员来说，这就强调了“交互式感知”的重要性。机器人不应该只是看着这个世界；它们应该观察我们如何与世界交互，以理解我们日常生活中隐藏的机械原理。

Arti4D 数据集和代码已公开发布，使社区能够在此工作的基础上继续推进，拓展机器人感知的边界。

“野外”感知的问题#

ArtiPoint 流程#

第一阶段: 交互提取#

第二阶段: 深度点跟踪#

第三阶段: 3D 提升、过滤和平滑#

提升到 3D#

过滤噪声#

轨迹平滑#

第四阶段: 利用关节先验 (数学部分)#

变换模型#

Arti4D: 现实世界的基准#

它的效果如何？实验结果#

定性成功#

消融实验#

结论与未来展望#