想象一个机器人第一次进入一个新的厨房。对于人类来说,房间的功能显而易见: 冰箱把手可以拉开,抽屉可以滑出,橱柜门通过铰链摆动。我们凭直觉理解这些机械结构,甚至往往在接触物体之前就能预测它的运动方式。
然而,对于机器人来说,这是一场几何噩梦。橱柜不仅仅是一个静止的盒子;它是一个*关节物体 (articulated object) *——一个刚体,能够相对于另一部分进行特定的运动。如果机器人计算错了重型冰箱门的旋转轴,它可能会把把手扯下来,或者损坏自己的机械臂。
传统上,机器人在高度受控的环境中学习这些关节模型,使用固定的相机和隔离的物体。但现实世界是混乱的 (“野外/in-the-wild”) 。相机会抖动,手会遮挡视线,光线也变幻莫测。
在这篇文章中,我们将深入探讨 ArtiPoint , 这是论文 “Articulated Object Estimation in the Wild” 中提出的一个新颖框架。这项研究提出了一种方法,让机器人仅通过观看人类在动态、真实的视频中与物体交互,就能学会关节模型。我们将探索研究人员如何将深度点跟踪与因子图优化相结合,以解决这个复杂的 3D 感知问题。

“野外”感知的问题
为什么估计门铰链这么难?在实验室里,你可以在门和门框上贴上基准标记 (比如二维码) 。跟踪这些标记,做一些数学运算,你就得到了铰链轴。
在现实世界中,你不能给所有东西都贴上标记。以前的计算机视觉方法试图通过观察物体在不同状态下 (例如打开与关闭) 的深度图像来解决这个问题。然而,这些方法通常存在明显的局限性:
- 静态相机: 它们假设相机不移动,从而简化背景扣除。
- 孤立物体: 它们假设物体是场景中唯一的东西,忽略了真实房间的杂乱。
- 对遮挡敏感: 当人类打开抽屉时,他们的手和身体会阻挡相机的视线。当物体被部分遮挡时,许多算法就会失效。
ArtiPoint 反其道而行之。它不再依赖静态快照,而是将交互视为一个动态的视频事件。它模仿人类的学习方式: 通过观察人手操作物体,系统推断出底层的机械约束。
ArtiPoint 流程
ArtiPoint 的核心逻辑优雅且计算稳健。它遵循一个四阶段的流程:
- 交互提取: 找到手与物体交互的时刻。
- 深度点跟踪: 使用神经网络跟踪物体表面的特定点。
- 3D 提升与过滤: 将 2D 视频轨迹转换为世界坐标系中平滑的 3D 轨迹。
- 关节估计: 使用概率优化来找出哪种类型的关节 (铰链或滑块) 能解释这些 3D 运动。
让我们详细分解每个阶段。

第一阶段: 交互提取
如果没有任何东西在移动,你就无法分析关节。第一步是识别交互何时发生。研究人员利用了一个先验知识,即人类是用手来操纵环境的。
系统使用手部分割模型分析视频流。它不仅仅是在寻找一只手;它在寻找持续的交互。通过计算手部可见性的移动平均值,系统过滤掉转瞬即逝的误报 (比如一只手在相机前挥过) ,并专注于稳定的交互片段。

如上图所示,当平滑后的检测信号超过阈值时,系统会触发一个“片段”。这创建了一个时间窗口——一段特定的视频剪辑——系统知道在此时段内物体很可能正在被操纵。
第二阶段: 深度点跟踪
一旦隔离出交互片段,系统就需要跟踪物体。但“物体”到底是什么?系统还不知道它是在看冰箱还是微波炉。
为了解决这个问题,ArtiPoint 在检测到的手周围采样点,并使用 MobileSAM (一种轻量级的分割一切模型) 生成手附近物体的掩码。在这些物体掩码内,它识别出“易于跟踪的特征” (角点、高对比度区域) 。
神奇之处在于 CoTracker3 , 这是一个最先进的“任意点跟踪”模型。与传统的提供两帧之间稠密运动场的光流不同,CoTracker3 可以跨越长视频序列跟踪特定的稀疏点,甚至能估计出点何时被遮挡 (隐藏) 。
这一阶段的结果是一组 2D 轨迹: 屏幕上蜿蜒的线条,代表了物体上的特定像素在视频期间是如何移动的。
第三阶段: 3D 提升、过滤和平滑
2D 轨迹很有用,但机器人生活在 3D 世界中。要理解关节的机械原理,我们需要 3D 坐标。
提升到 3D
研究人员利用 RGB-D 相机的深度通道将 2D 像素“提升”到 3D 空间。然而,这产生了一个新问题: 相机本身在移动。一个点看起来在移动可能仅仅是因为相机向左平移了。
为了解决这个问题,ArtiPoint 假设可以获取相机里程计 (相机在世界中的位置) 。它将所有 3D 点从相机的局部坐标系转换到全局“世界”坐标系。
过滤噪声
现实世界的数据充满噪声。CoTracker3 跟踪的一些点实际上可能位于物体后面的静止墙壁上,或者位于移动物体的手上。
- 静态过滤: 系统计算每条轨迹在 3D 中的方差 (移动量) 。如果在世界坐标系中某点几乎不动,它就被视为静止点并被丢弃。
- 遮挡过滤: 被隐藏时间过长的点是不可靠的,会被移除。
轨迹平滑
深度传感器 (如 Kinect 或 RealSense 相机上的传感器) 通常存在高频“抖动”。如果你绘制一个点的原始 3D 路径,它看起来会是锯齿状的。这种锯齿状使得估计平滑的旋转轴变得困难。
为了解决这个问题,作者采用了一种基于优化的平滑技术。他们最小化一个代价函数 \(E(\mathbf{p})\),该函数在保持原始数据保真度和由平滑约束之间取得平衡:

- 数据项: 保持平滑点接近测量点 (\(\hat{\mathbf{p}}_t\))。
- 速度项 (\(\lambda_{vel}\)): 惩罚连续点之间的巨大间隙。
- 急动度项 (\(\lambda_{jerk}\)): 惩罚加速度的突然变化 (尖峰) 。
结果是一组清晰、平滑的 3D 曲线,代表了物体部件的运动。

第四阶段: 利用关节先验 (数学部分)
现在我们有了清晰的 3D 曲线。最后的挑战是找到解释这些曲线的数学模型。物体是绕着铰链旋转 (旋转关节/Revolute joint) ?还是沿着轨道滑动 (移动关节/Prismatic joint) ?
研究人员使用 因子图 (Factor Graph) 公式。他们将关节参数视为需要优化的变量。
变换模型
他们使用螺旋理论 (Screw Theory) 来表示运动,其中运动由“旋量 (twist) ” \(\xi \in \mathfrak{se}(3)\) 定义。这使他们能够在一个统一的数学框架中表示旋转和平移。
目标是找到一个共享的“基旋量” \(\hat{\xi}\) (铰链轴或滑轨轴) 以及最符合观测数据的一系列角度/位置 \(\theta\)。
首先,他们定义了一组源自点轨迹的相对位姿观测值:

这些观测值使他们能够构建一个因子图。因子图是一种概率图模型,它将变量 (铰链轴、时间 \(t\) 时的门角度) 与因子 (预期位置与观测位置之间的误差) 连接起来。
系统通过最小化整个轨迹上的全局误差来求解关节参数:

通过使用像 GTSAM 这样的库求解这个方程,ArtiPoint 输出:
- 关节的类型 (旋转 vs. 移动) 。
- 精确的 3D 旋转轴或平移轴。
- 物体部件的轨迹。
Arti4D: 现实世界的基准
这篇论文的主要贡献之一是 Arti4D 数据集 。 现有的数据集过于无菌——它们没有捕捉到手持相机和混乱房间的无序本质。
Arti4D 包含 45 个 RGB-D 序列,涵盖了不同环境 (厨房、实验室) 中的 414 次交互。它包括:
- 动态相机运动: 操作员在录制时四处走动。
- 场景级上下文: 物体不是孤立的;它们是更大房间的一部分。
- Ground Truth (真值) : 精确的相机位姿和标记的关节轴。

该数据集不仅可以作为关节估计的测试,还可以作为 SLAM (同步定位与建图) 算法的严酷测试,因为移动的物体经常打破绘图软件所依赖的“静态世界”假设。

它的效果如何?实验结果
研究人员将 ArtiPoint 与几个基准进行了比较,包括:
- ArtGS 和 Ditto: 基于高斯泼溅 (Gaussian Splatting) 和隐式函数的最新深度学习方法。
- Sturm et al.: 一种经典的概率方法。
使用的指标是 角度误差 (\(\theta_{err}\))——预测的铰链轴与真实铰链轴之间的度数差异——以及轴位置的 位置误差 (\(d_{L2}\))。

结果令人震惊。 如表 1 所示,ArtiPoint 实现了约 14-17 度的角度误差,而竞争的深度学习方法 (ArtGS, Ditto) 则徘徊在 50-60 度左右。
为什么会有这么大的差异? 基准方法是为“半静态”的孤立视图设计的。当相机剧烈移动或物体被手部分遮挡时,它们就会陷入困境。ArtiPoint 对时间数据的依赖——随时间跟踪点——使其对这些干扰具有更强的鲁棒性。
定性成功
该系统在日常物体上表现出色。在下图中,你可以看到抽屉和存储箱的估计轴 (黄色箭头) 和轨迹 (坐标系) 。即使在真实厨房的视觉噪点下,系统也能正确识别抽屉的滑动运动和箱子的铰链。

消融实验
团队还测试了流程中哪些部分最重要。
- 平滑: 关闭轨迹平滑会增加误差,证明原始深度数据噪点太多。
- 关键帧步长: 他们发现处理每隔一帧 (步长为 2) 在跟踪密度和计算速度之间提供了最佳平衡。

结论与未来展望
ArtiPoint 代表了机器人感知领域向前迈出的重要一步。通过摆脱静态快照分析,拥抱视频的动态、无序本质,它使机器人能够在野外通过人类演示进行学习。
主要收获如下:
- 运动即信息: 即使相机在移动,跟踪点随时间的移动也能为关节提供稳健的信号。
- 先验很重要: 利用“手引起运动”这一先验知识可以过滤掉大量不相关的数据。
- 混合方法制胜: 将现代深度学习 (用于点跟踪) 与经典概率优化 (因子图) 相结合,比针对此特定任务依赖端到端的“黑盒”神经网络能产生更好的结果。
对于机器人领域的学生和研究人员来说,这就强调了“交互式感知”的重要性。机器人不应该只是看着这个世界;它们应该观察我们如何与世界交互,以理解我们日常生活中隐藏的机械原理。
Arti4D 数据集和代码已公开发布,使社区能够在此工作的基础上继续推进,拓展机器人感知的边界。
](https://deep-paper.org/en/paper/2509.01708/images/cover.png)