想象一个机器人第一次进入一个新的厨房。对于人类来说,房间的功能显而易见: 冰箱把手可以拉开,抽屉可以滑出,橱柜门通过铰链摆动。我们凭直觉理解这些机械结构,甚至往往在接触物体之前就能预测它的运动方式。

然而,对于机器人来说,这是一场几何噩梦。橱柜不仅仅是一个静止的盒子;它是一个*关节物体 (articulated object) *——一个刚体,能够相对于另一部分进行特定的运动。如果机器人计算错了重型冰箱门的旋转轴,它可能会把把手扯下来,或者损坏自己的机械臂。

传统上,机器人在高度受控的环境中学习这些关节模型,使用固定的相机和隔离的物体。但现实世界是混乱的 (“野外/in-the-wild”) 。相机会抖动,手会遮挡视线,光线也变幻莫测。

在这篇文章中,我们将深入探讨 ArtiPoint , 这是论文 “Articulated Object Estimation in the Wild” 中提出的一个新颖框架。这项研究提出了一种方法,让机器人仅通过观看人类在动态、真实的视频中与物体交互,就能学会关节模型。我们将探索研究人员如何将深度点跟踪与因子图优化相结合,以解决这个复杂的 3D 感知问题。

ArtiPoint 概念的高级概览。它展示了系统如何接收原始视频输入并输出关节模型,并将其与依赖静态相机的先前基准进行了对比。

“野外”感知的问题

为什么估计门铰链这么难?在实验室里,你可以在门和门框上贴上基准标记 (比如二维码) 。跟踪这些标记,做一些数学运算,你就得到了铰链轴。

在现实世界中,你不能给所有东西都贴上标记。以前的计算机视觉方法试图通过观察物体在不同状态下 (例如打开与关闭) 的深度图像来解决这个问题。然而,这些方法通常存在明显的局限性:

  1. 静态相机: 它们假设相机不移动,从而简化背景扣除。
  2. 孤立物体: 它们假设物体是场景中唯一的东西,忽略了真实房间的杂乱。
  3. 对遮挡敏感: 当人类打开抽屉时,他们的手和身体会阻挡相机的视线。当物体被部分遮挡时,许多算法就会失效。

ArtiPoint 反其道而行之。它不再依赖静态快照,而是将交互视为一个动态的视频事件。它模仿人类的学习方式: 通过观察人手操作物体,系统推断出底层的机械约束。

ArtiPoint 流程

ArtiPoint 的核心逻辑优雅且计算稳健。它遵循一个四阶段的流程:

  1. 交互提取: 找到手与物体交互的时刻。
  2. 深度点跟踪: 使用神经网络跟踪物体表面的特定点。
  3. 3D 提升与过滤: 将 2D 视频轨迹转换为世界坐标系中平滑的 3D 轨迹。
  4. 关节估计: 使用概率优化来找出哪种类型的关节 (铰链或滑块) 能解释这些 3D 运动。

让我们详细分解每个阶段。

ArtiPoint 的完整四阶段流程: 交互提取、关键点识别、深度点跟踪和关节模型估计。

第一阶段: 交互提取

如果没有任何东西在移动,你就无法分析关节。第一步是识别交互何时发生。研究人员利用了一个先验知识,即人类是用手来操纵环境的。

系统使用手部分割模型分析视频流。它不仅仅是在寻找一只手;它在寻找持续的交互。通过计算手部可见性的移动平均值,系统过滤掉转瞬即逝的误报 (比如一只手在相机前挥过) ,并专注于稳定的交互片段。

此图说明了交互提取过程。原始检测 (蓝色) 充满噪点,但移动平均值 (绿色) 提供了一个清晰的信号来触发交互片段的开始和结束。

如上图所示,当平滑后的检测信号超过阈值时,系统会触发一个“片段”。这创建了一个时间窗口——一段特定的视频剪辑——系统知道在此时段内物体很可能正在被操纵。

第二阶段: 深度点跟踪

一旦隔离出交互片段,系统就需要跟踪物体。但“物体”到底是什么?系统还不知道它是在看冰箱还是微波炉。

为了解决这个问题,ArtiPoint 在检测到的手周围采样点,并使用 MobileSAM (一种轻量级的分割一切模型) 生成手附近物体的掩码。在这些物体掩码内,它识别出“易于跟踪的特征” (角点、高对比度区域) 。

神奇之处在于 CoTracker3 , 这是一个最先进的“任意点跟踪”模型。与传统的提供两帧之间稠密运动场的光流不同,CoTracker3 可以跨越长视频序列跟踪特定的稀疏点,甚至能估计出点何时被遮挡 (隐藏) 。

这一阶段的结果是一组 2D 轨迹: 屏幕上蜿蜒的线条,代表了物体上的特定像素在视频期间是如何移动的。

第三阶段: 3D 提升、过滤和平滑

2D 轨迹很有用,但机器人生活在 3D 世界中。要理解关节的机械原理,我们需要 3D 坐标。

提升到 3D

研究人员利用 RGB-D 相机的深度通道将 2D 像素“提升”到 3D 空间。然而,这产生了一个新问题: 相机本身在移动。一个点看起来在移动可能仅仅是因为相机向左平移了。

为了解决这个问题,ArtiPoint 假设可以获取相机里程计 (相机在世界中的位置) 。它将所有 3D 点从相机的局部坐标系转换到全局“世界”坐标系。

过滤噪声

现实世界的数据充满噪声。CoTracker3 跟踪的一些点实际上可能位于物体后面的静止墙壁上,或者位于移动物体的手上。

  • 静态过滤: 系统计算每条轨迹在 3D 中的方差 (移动量) 。如果在世界坐标系中某点几乎不动,它就被视为静止点并被丢弃。
  • 遮挡过滤: 被隐藏时间过长的点是不可靠的,会被移除。

轨迹平滑

深度传感器 (如 Kinect 或 RealSense 相机上的传感器) 通常存在高频“抖动”。如果你绘制一个点的原始 3D 路径,它看起来会是锯齿状的。这种锯齿状使得估计平滑的旋转轴变得困难。

为了解决这个问题,作者采用了一种基于优化的平滑技术。他们最小化一个代价函数 \(E(\mathbf{p})\),该函数在保持原始数据保真度和由平滑约束之间取得平衡:

平滑代价函数。第一项保持点接近观测值。第二项和第三项分别惩罚速度和加速度 (急动度) 的突然变化。

  • 数据项: 保持平滑点接近测量点 (\(\hat{\mathbf{p}}_t\))。
  • 速度项 (\(\lambda_{vel}\)): 惩罚连续点之间的巨大间隙。
  • 急动度项 (\(\lambda_{jerk}\)): 惩罚加速度的突然变化 (尖峰) 。

结果是一组清晰、平滑的 3D 曲线,代表了物体部件的运动。

旋转关节 (橱柜) 和移动关节 (滑块) 的平滑点轨迹的视觉对比。不同颜色代表不同的跟踪关键点。

第四阶段: 利用关节先验 (数学部分)

现在我们有了清晰的 3D 曲线。最后的挑战是找到解释这些曲线的数学模型。物体是绕着铰链旋转 (旋转关节/Revolute joint) ?还是沿着轨道滑动 (移动关节/Prismatic joint) ?

研究人员使用 因子图 (Factor Graph) 公式。他们将关节参数视为需要优化的变量。

变换模型

他们使用螺旋理论 (Screw Theory) 来表示运动,其中运动由“旋量 (twist) ” \(\xi \in \mathfrak{se}(3)\) 定义。这使他们能够在一个统一的数学框架中表示旋转和平移。

目标是找到一个共享的“基旋量” \(\hat{\xi}\) (铰链轴或滑轨轴) 以及最符合观测数据的一系列角度/位置 \(\theta\)。

首先,他们定义了一组源自点轨迹的相对位姿观测值:

定义不同时间观测到的点对集合的方程,用于创建位姿约束。

这些观测值使他们能够构建一个因子图。因子图是一种概率图模型,它将变量 (铰链轴、时间 \(t\) 时的门角度) 与因子 (预期位置与观测位置之间的误差) 连接起来。

系统通过最小化整个轨迹上的全局误差来求解关节参数:

最终的优化目标。它最小化观测点位置与估计的关节模型 (旋量和角度) 预测的位置之间的差异。

通过使用像 GTSAM 这样的库求解这个方程,ArtiPoint 输出:

  1. 关节的类型 (旋转 vs. 移动) 。
  2. 精确的 3D 旋转轴或平移轴。
  3. 物体部件的轨迹。

Arti4D: 现实世界的基准

这篇论文的主要贡献之一是 Arti4D 数据集 。 现有的数据集过于无菌——它们没有捕捉到手持相机和混乱房间的无序本质。

Arti4D 包含 45 个 RGB-D 序列,涵盖了不同环境 (厨房、实验室) 中的 414 次交互。它包括:

  • 动态相机运动: 操作员在录制时四处走动。
  • 场景级上下文: 物体不是孤立的;它们是更大房间的一部分。
  • Ground Truth (真值) : 精确的相机位姿和标记的关节轴。

Arti4D 数据集中物体交互的可视化。注意杂乱的环境、不同的光照条件和多样化的物体 (抽屉、冰箱、工具箱) 。

该数据集不仅可以作为关节估计的测试,还可以作为 SLAM (同步定位与建图) 算法的严酷测试,因为移动的物体经常打破绘图软件所依赖的“静态世界”假设。

来自 Arti4D 数据集的重建场景。这些 3D 地图为关节交互提供了背景。

它的效果如何?实验结果

研究人员将 ArtiPoint 与几个基准进行了比较,包括:

  • ArtGS 和 Ditto: 基于高斯泼溅 (Gaussian Splatting) 和隐式函数的最新深度学习方法。
  • Sturm et al.: 一种经典的概率方法。

使用的指标是 角度误差 (\(\theta_{err}\))——预测的铰链轴与真实铰链轴之间的度数差异——以及轴位置的 位置误差 (\(d_{L2}\))。

比较 ArtiPoint 与基准方法的表格。ArtiPoint 实现了显著更低的角度误差 (移动关节 14.54 度,旋转关节 17.14 度) ,而 ArtGS 和 Ditto 均超过 50 度。

结果令人震惊。 如表 1 所示,ArtiPoint 实现了约 14-17 度的角度误差,而竞争的深度学习方法 (ArtGS, Ditto) 则徘徊在 50-60 度左右。

为什么会有这么大的差异? 基准方法是为“半静态”的孤立视图设计的。当相机剧烈移动或物体被手部分遮挡时,它们就会陷入困境。ArtiPoint 对时间数据的依赖——随时间跟踪点——使其对这些干扰具有更强的鲁棒性。

定性成功

该系统在日常物体上表现出色。在下图中,你可以看到抽屉和存储箱的估计轴 (黄色箭头) 和轨迹 (坐标系) 。即使在真实厨房的视觉噪点下,系统也能正确识别抽屉的滑动运动和箱子的铰链。

展示抽屉和存储箱估计轴和轨迹的定性结果。尽管真实厨房中存在视觉噪点,系统仍正确识别了运动模型。

消融实验

团队还测试了流程中哪些部分最重要。

  • 平滑: 关闭轨迹平滑会增加误差,证明原始深度数据噪点太多。
  • 关键帧步长: 他们发现处理每隔一帧 (步长为 2) 在跟踪密度和计算速度之间提供了最佳平衡。

展示关键帧步长影响的消融研究图表。步长为 2 时,角度误差和位置误差最小。

结论与未来展望

ArtiPoint 代表了机器人感知领域向前迈出的重要一步。通过摆脱静态快照分析,拥抱视频的动态、无序本质,它使机器人能够在野外通过人类演示进行学习。

主要收获如下:

  1. 运动即信息: 即使相机在移动,跟踪点随时间的移动也能为关节提供稳健的信号。
  2. 先验很重要: 利用“手引起运动”这一先验知识可以过滤掉大量不相关的数据。
  3. 混合方法制胜: 将现代深度学习 (用于点跟踪) 与经典概率优化 (因子图) 相结合,比针对此特定任务依赖端到端的“黑盒”神经网络能产生更好的结果。

对于机器人领域的学生和研究人员来说,这就强调了“交互式感知”的重要性。机器人不应该只是看着这个世界;它们应该观察我们如何与世界交互,以理解我们日常生活中隐藏的机械原理。

Arti4D 数据集和代码已公开发布,使社区能够在此工作的基础上继续推进,拓展机器人感知的边界。