简介
想象一个机器人走进厨房。为了发挥作用,它不能仅仅“看”着场景;它需要与场景进行交互。它需要知道冰箱门是旋开的 (旋转关节) ,抽屉是滑出的 (移动关节) ,桌子上的笔记本电脑是可以翻开的。这就是关节物体识别 (Articulated Object Recognition) 的挑战。
传统上,教机器人理解这些可移动部件一直很麻烦。以前的方法通常依赖于深度相机 (由于玻璃柜门等透明或反光表面,深度相机往往表现不佳) ,需要人工手动指定物体有多少个关节,或者使用复杂的、多阶段的处理流程,而这些流程在任何一步都可能出错。
在这篇文章中,我们将深入探讨 ScrewSplat , 这是一篇提出令人耳目一新的端到端解决方案的新研究论文。通过结合高斯泼溅 (Gaussian Splatting) 的几何灵活性与旋量理论 (Screw Theory) 的运动学精度,ScrewSplat 允许机器人仅使用标准的 RGB 图像就能计算出物体的 3D 形状和运动方式。

如上图 1 所示,该系统拍摄物体在不同位置的简单 RGB 图像,并自动逆向工程其“运动学结构”——即弄清楚哪些部分是刚性的,哪些部分是移动的,以及它们究竟是如何移动的。
背景: 构建基石
要理解 ScrewSplat 的工作原理,我们需要了解它所依赖的两大支柱: 旋量理论和 3D 高斯泼溅。
旋量理论: 运动的数学描述
我们要如何在数学上描述运动?在机器人学中,我们经常处理两种特定类型的关节:
- 旋转关节 (Revolute joints) : 会旋转的物体 (如门铰链或笔记本电脑盖子) 。
- 移动关节 (Prismatic joints) : 会滑动的物体 (如抽屉或窗户) 。
旋量理论 (Screw Theory) 提供了一种统一的方式来描述这两者。它使用“旋量轴 (screw axis) ”来表示运动。一个旋量轴 \(\mathcal{S}\) 是一个 6 维向量,包含旋转信息 (\(\omega\)) 和平移信息 (\(v\))。

如果存在旋转分量 \(\omega\),它的行为就像一个旋转关节。如果没有旋转 (\(\omega = 0\)) ,它的行为就像一个移动关节。

如图 2 所示,无论物体是旋转还是滑动,它从一个状态 (\(T\)) 到另一个状态 (\(T'\)) 的变换都可以使用旋量轴的矩阵指数乘以运动的角度或距离 (\(\theta\)) 来计算。

这种数学上的优雅使得研究人员能够在学习过程中统一处理不同类型的关节。
3D 高斯泼溅
第二个支柱是 3D 高斯泼溅 (3D Gaussian Splatting) 。 这是一种用于渲染 3D 场景的现代技术。它不使用三角形 (网格) 或体素,而是将场景表示为一团 3D 高斯分布 (椭球体) 。
每个高斯分布都有位置、方向、缩放、颜色和不透明度。为了渲染图像,这些 3D 高斯分布被投影 (“泼溅”) 到 2D 平面上。每个高斯分布对像素的贡献取决于它的不透明度以及它距离该像素的远近。

像素的最终颜色是通过从前向后混合这些重叠的高斯分布来计算的。

高斯泼溅之所以流行,是因为它速度快、可微 (我们可以对其进行训练) ,并且能生成高质量的视觉效果。
核心方法: ScrewSplat
ScrewSplat 的天才之处在于它如何融合这两个概念。其目标是执行联合优化 : 同时计算出物体的 3D 几何形状和其机械关节。
挑战
这是一个“鸡生蛋,蛋生鸡”的问题。要知道移动部件的几何形状,你需要知道它是如何移动的 (以便对齐来自不同帧的观测数据) 。但要知道它是如何移动的,你需要知道哪些几何部分属于该移动部件。
ScrewSplat 通过概率性地分配部件而不是硬编码来解决这个问题。
部件感知高斯与旋量基元
该方法引入了两个关键组件:
- 旋量基元 (Screw Primitives, \(A_j\)) : 系统初始化一组随机的潜在旋量轴。每个轴都有一个系统需要学习的“置信度分数” (\(\gamma\)) 。如果一个旋量轴能有效地解释运动,其置信度就会上升。
- 部件感知高斯 (Part-Aware Gaussians, \(H_i\)) : 对标准高斯分布进行了升级。除了位置和颜色外,每个高斯分布还携带一个概率向量 (\(m_i\)) 。 该向量告诉我们将这个特定高斯分布归属于静态基座或与旋量基元相关联的某个移动部件的可能性有多大。

“复制”渲染过程
如果我们不确定一个高斯分布属于哪个部件,我们要如何渲染图像呢?作者使用了一种复制策略 , 如上图 3 右半部分所示。
对于系统中的每一个“部件感知高斯”,渲染器都会创建多个副本 (复制) :
- 一个副本停留在静态基座上。
- 其他副本根据不同的旋量基元进行变换 (移动) 。
这些副本的不透明度由概率向量 \(m_i\) 进行缩放。如果一个高斯分布有 99% 的可能性位于笔记本电脑盖子 (移动部件) 上,那么附着在盖子旋量轴上的副本将非常清晰可见,而位于静态基座上的副本将不可见。
在数学上,复制的高斯分布定义如下:

这种公式化使得整个过程是可微的。系统现在只需将渲染出的图像与真实的 RGB 照片进行比较并计算误差。
优化与损失函数
训练过程会同时调整高斯分布 (形状、颜色) 、旋量轴 (方向、位置) 和概率分配。
损失函数主要有两部分:
- 渲染损失 (Rendering Loss) : 生成的图像看起来像照片吗?
- 简约损失 (Parsimony Loss) : 我们想要最简单的解释。一个物体通常有 1 或 2 个关节,而不是 20 个。该项通过惩罚置信度分数的总和,鼓励模型使用尽可能少的旋量轴。

通过最小化这个损失,ScrewSplat 能够自动“发现”正确的关节。概率向量会收敛,在没有任何人工标注的情况下有效地将物体分割成刚性部件 (如基座和门) 。
超越识别: 控制物体
一旦 ScrewSplat 学习了物体模型,它就充当了一个可微渲染器 。 这意味着我们可以问: “什么样的关节角度 \(\theta\) 会让物体看起来像 X?”
作者通过集成 CLIP (一种视觉-语言模型) 更进一步。这使得文本引导的操控成为可能。你不需要给机器人一个目标角度;你只需要给它一个文本提示,比如“打开笔记本电脑”。

如图 4 所示,该系统:
- 获取物体当前的图像。
- 使用 CLIP 计算当前状态与文本提示 (例如“打开笔记本电脑”) 之间的差异。
- 优化关节角度参数,直到渲染的图像与文本描述相匹配。
- 计算机械臂物理实现该状态的轨迹。
优化过程使用了方向性 CLIP 损失 (Directional CLIP Loss) , 它关注语义空间中变化的方向,确保运动符合用户的意图。

实验与结果
研究人员将 ScrewSplat 与最先进的基准方法 (如 PARIS 和 DTA )进行了比较。重要的是,ScrewSplat 仅使用 RGB 图像,而 DTA 和 PARIS* (增强版) 还获得了深度信息。
单关节物体
在折叠椅、笔记本电脑和柜子等物体的测试中,ScrewSplat 显示出卓越的重建效果。

观察图 5,你可以看到基准方法 (PARIS, DTA) 经常在几何形状上出现问题 (灰色伪影) 或错误对齐旋转轴 (红色箭头) 。ScrewSplat (底行) 生成了干净的几何形状和精确的轴。
定量数据也支持了这一点。在下表 1 中,ScrewSplat 实现了最低的倒角距离 (CD——一种几何误差的度量) 和角度误差。

多关节物体
该方法还可以扩展到具有多个移动部件的更复杂物体,例如有两个门的柜子,或者有一个抽屉和一个门的柜子。

图 6 显示 DTA (左) 难以清晰地分离多个移动部件,通常会模糊它们或遗漏第二个轴。ScrewSplat (右) 正确地识别并分割了多个独立的关节。

真实世界应用
终极测试是在真实世界中进行的。作者搭建了一个流程,机器人观察物体,构建 ScrewSplat 模型,然后根据文本命令对其进行操作。

该系统成功处理了半透明存储抽屉等物体——这对于深度相机来说是一场噩梦——完全依靠 RGB 线索和稳健的高斯表示。

结论与未来方向
ScrewSplat 代表了机器人感知领域迈出的重要一步。通过融合旋量理论和高斯泼溅 , 作者创建了一个系统,它具有以下特点:
- 端到端: 无需复杂的预处理或多阶段流程。
- 数据高效: 适用于标准 RGB 相机;无需昂贵的深度传感器。
- 通用性: 处理旋转和移动关节,无需预先知道部件的数量。
局限性
然而,没有任何方法是完美的。作者指出了图 9 中可视化的一些局限性:

- 高自由度 (High-DoF) 物体: 对于具有许多关节的物体 (如左图所示的 6 关节物体) ,优化过程可能难以找到稳定的解。
- 阴影: 移动部件会投下变化的阴影 (中图) 。由于高斯泼溅主要假设光照是静态的,这些移动的阴影有时会被误认为是几何形状的变化。
- 运动链: 目前,该方法假设部件相对于静态基座移动。它尚不能处理“链式结构”,即一个移动部件连接到另一个移动部件 (如机械臂) 。
尽管存在这些局限性,ScrewSplat 为机器人“看”懂和“理解”周围世界的力学原理提供了一种强大的新方法,为更智能、更全能的自主代理铺平了道路。
](https://deep-paper.org/en/paper/2508.02146/images/cover.png)