引言

在具身智能 (Embodied AI) 和机器人技术飞速发展的世界里,数据就是氧气。为了教机器人如何在厨房中导航或整理车间,我们严重依赖模拟环境。在虚拟环境中坠毁一千次无人机,比摔坏一架真机更安全、更快捷,也更便宜。然而,当前的模拟环境存在一个显著瓶颈: 缺乏多样化的交互式物体。

虽然我们见证了生成式 AI 的革命,它能通过简单的文本提示生成令人惊叹的静态 3D 网格,但这些物体就像冰冻的雕像。生成的微波炉看起来很逼真,但门打不开。生成的汽车有轮子,但转不动。对于学习操作技能的机器人来说,静态物体毫无用处。

这就引出了一个具有挑战性的问题: 我们要如何自动将任何静态 3D 网格转化为具有可移动部件的功能性关节物体?

现有的方法一直在与此抗争。它们要么依赖于局限于枯燥类别 (如橱柜和抽屉) 的手工数据集,要么需要生成资产所不具备的密集观测数据。这限制了机器人只能在“封闭词汇”的物体上进行训练,制约了它们泛化到现实世界中各种复杂情况的能力。

这就是 ARTICULATE ANYMESH 登场的时候了。

ARTICULATE ANYMESH 将 3D 网格转化为关节物体。

如上图 1 所示,这个新框架提出了一个自动化流水线,可以接收各种输入——从 Objaverse 网格到虚构的生成物体——并为它们装配功能性关节。无论是直升机、科幻飞船还是垃圾桶,系统都能识别出部件并弄清楚它们应该如何移动。

在这篇文章中,我们将拆解 Articulate AnyMesh 这篇论文。我们将探索它如何利用大型视觉语言模型 (VLM) 来“观察”和“推理”几何结构,使其能够处理它从未见过的物体。

背景: 机器人领域的数据饥渴

要理解这篇论文的重要性,我们需要看看 3D 生成领域的现状。

  1. 静态 3D 生成: 像 DreamFusion 或 Magic3D 这样的方法可以将文本转化为 3D 形状。然而,它们输出的是单一的表面网格。物体是一个实心块;这样生成的衣柜只是一座衣柜雕像。
  2. 部件感知生成: 一些较新的方法可以生成具有不同部件的物体 (例如,将轮胎与车身分离) 。然而,仅仅分离部件是不够的。系统需要知道这些部件是如何连接的。门是滑动还是摆动?铰链轴在哪里?
  3. 关节物体建模: 先前的工作如 URDFormer 或 RPM-Net 试图预测这些关节参数。然而,它们是在特定数据集 (如 PartNet-Mobility) 上训练的监督学习模型。如果你在一个训练过橱柜的模型上测试机械臂或剪刀,它会失败。它缺乏“开放词汇”的理解能力。

Articulate AnyMesh 背后的研究人员采取了不同的方法。他们没有训练特定的网络来回归关节数值 (这会限制泛化能力) ,而是构建了一个流水线,利用现代基础模型 (如 GPT-4) 的“常识”推理能力,并结合几何分析。

Articulate AnyMesh 流水线

核心方法是一个分为三个不同阶段的自动化框架。输入是一个刚性 3D 网格 (可能来自 3D 扫描仪、生成模型或艺术家) ,输出是一个具有纹理和完整几何形状的完全关节化的 URDF (通用机器人描述格式) 文件。

三阶段流水线: 分割、关节估计和后处理。

让我们分解图 2 中展示的每个阶段。

阶段 A: 可移动部件分割

第一个挑战是识别物体的哪些部分应该移动。由于目标是“开放词汇” (处理任何类型的物体) ,我们不能依赖固定的类别标签列表。

作者利用了一个 视觉语言模型 (VLM) 助手。过程如下:

  1. VLM 查询: 系统获取网格的图像,并询问 VLM (如 GPT-4o) 列出潜在的可移动部件。对于微波炉,VLM 可能会建议“门”和“按钮”。
  2. 视觉定位 (Visual Grounding) : 他们采用了一种名为 PartSlip++ 的工具。该方法将 3D 物体从多个角度渲染成 2D 图像。它使用开放词汇 2D 分割模型 (定位模型) 在像素空间中找到 VLM 建议的部件。
  3. 提升至 3D: 这些 2D 分割结果被“提升”回 3D 网格,将网格顶点分组为不同的语义部件 (例如,红色顶点属于“螺旋桨”) 。

这有效地根据功能将单个刚性网格切分为独立的组件。

阶段 B: 关节估计 (核心创新)

一旦部件被分离,系统必须弄清楚它们如何移动。这正是论文引入一个新颖概念的地方: 几何感知视觉提示 (Geometry-aware Visual Prompting)

以前的方法试图使用神经网络直接从点云预测关节轴。作者认为这太难泛化了。相反,他们观察到关节物理上位于两个部件相交的地方。他们将其定义为 连接区域 (Connecting Area)

逻辑很简单: 如果门连接到框架,铰链必须位于门与框架啮合的区域。系统分析该连接区域的几何形状以确定关节类型: 旋转关节 (Revolute) (铰链) 或 棱柱关节 (Prismatic) (滑块) 。

1. 旋转关节 (铰链)

对于旋转部件 (如笔记本电脑屏幕或门) ,系统需要找到旋转轴。

  • 聚类与投影: 系统从“连接区域”获取点并进行聚类。它将这些聚类中心投影到物体的 2D 图像上。
  • 视觉提示: 这是一个巧妙的部分。他们在 2D 图像的这些点上覆盖数字标签。然后,他们向 GPT-4o 展示这张带有标签的图像,并提问: “这些点中哪一个定义了铰链轴?”
  • 推理: VLM 利用其视觉常识。它看到笔记本电脑,识别出屏幕和键盘之间的接缝,并选择位于该接缝上的点。这定义了旋转轴。

2. 棱柱关节 (滑块)

对于滑动部件 (如抽屉) ,轴是一个方向向量。作者将它们分为两类:

  • 向内/向外: 像抽屉或按钮这样的物体通常垂直于物体表面移动。系统将平面拟合到连接区域,并使用法向量作为滑动方向。
  • 表面滑动: 像滑动窗这样的物体沿着表面移动。系统在 2D 渲染图上绘制箭头,并要求 VLM 选择正确的运动方向。

通过将“推理”工作卸载给 VLM,系统避免了训练数据的偏差。它可以像处理标准橱柜一样轻松地找出科幻宝箱的铰链。

阶段 C: 几何与纹理后处理

切割静态网格有一个陷阱。如果你有一个关闭的微波炉的 3D 扫描,并且切掉了门,门的后面什么都没有。几何体是中空的;微波炉没有“内部”,门的背面也是不可见的。

为了解决这个问题,流水线包含了一个生成式后处理步骤。

展示形状补全和纹理处理的后处理结果。

如图 3 所示,该阶段执行两项任务:

  1. 形状补全: 使用名为 HoloPart 的模型,系统“幻构”出缺失的几何形状。它填补了门留下的空洞,并为门本身创建了背面。
  2. 纹理生成: 使用名为 Meshy 的工具,它将逼真的纹理应用于新创建的几何体,确保木纹或金属饰面在整个物体上看起来一致。

实验与分析

研究人员通过定量比较和实际的机器人应用验证了 Articulate AnyMesh。

定量准确性

这些 VLM 预测的关节有多准确?作者使用 PartNet-Mobility 数据集,将他们的方法与 URDFormerReal2Code 等监督基线进行了比较。他们在“域内 (In-Domain) ”物体 (基线训练过的类别) 和“域外 (Out-of-Domain) ”物体 (未见过的类别) 上进行了测试。

结果说明了一切。虽然基线方法在它们熟悉的类别上表现尚可,但在域外物体上表现崩塌。然而,Articulate AnyMesh 在两者上都保持了高准确度。

注: 在他们的实验中,Articulate AnyMesh 在域外类别上的角度误差显著低于 URDFormer (6.2 度 vs 33.8 度) ,证明了基于 VLM 方法的鲁棒性。

应用: 模拟中的策略学习

对这些生成资产的终极测试是它们是否有助于训练机器人。作者建立了一个“真实-模拟-真实 (Real-to-Sim-to-Real) ”流水线和一个策略学习实验。

他们用 Articulate AnyMesh 生成的物体增强了标准训练数据集 (来自 DexArt) 。他们测试了在这个更大的生成数据集上训练的机器人是否能更好地执行任务。

图 6: 原始 DexArt 训练用水桶 (上) 与 Articulate AnyMesh 生成的水桶 (下) 。 图 6: 原始 DexArt 训练用水桶 (上) 与 Articulate AnyMesh 生成的水桶 (下) 。

图 7: 原始 DexArt 训练用笔记本电脑 (上) 与 Articulate AnyMesh 生成的笔记本电脑 (下) 。 图 7: 原始 DexArt 训练用笔记本电脑 (上) 与 Articulate AnyMesh 生成的笔记本电脑 (下) 。

如上图所示,生成的数据集 (下排) 比有限的原始数据集提供了丰富得多的视觉和结构多样性。

操作策略的成功率。

表 2 (上) 强调了结果。对于打开笔记本电脑或提起水桶等任务,使用 增强 数据集 (原始 + 生成) 训练的策略比仅使用原始数据训练的策略取得了更高的成功率。这证实了 Articulate AnyMesh 能够生产高质量、即用于物理模拟的资产,切实帮助机器人学习。

真实-模拟-真实迁移

最后,作者展示了一个“数字孪生”工作流。

  1. 他们扫描了现实世界的物体 (电钻、微波炉、轮子) 。
  2. 他们通过 Articulate AnyMesh 处理这些物体,以创建关节化模拟。
  3. 他们在模拟中规划机器人动作。
  4. 他们在真实的机器人上执行这些动作。

真实-模拟-真实执行过程。

图 5 展示了机器人基于生成的关节模型成功操作真实物体。这有效地弥合了静态 3D 扫描与功能性机器人交互之间的鸿沟。

结论与启示

Articulate AnyMesh 代表了我们在为 AI 创建 3D 内容时的思维转变。作者向我们展示了,与其手动绑定资产或训练狭窄的专用网络,不如利用大型基础模型的通用推理能力来解决几何问题。

通过将关节估计视为一种“视觉提示”任务,该流水线实现了真正的开放词汇能力。它允许研究人员在模拟环境中填充无限多样的功能性物体——从标准工具到生成的奇幻载具。

关键要点

  • 通用性: 该方法适用于扫描、手工制作和 AI 生成的网格,没有类别限制。
  • VLM 集成: 使用 GPT-4o 进行几何推理 (寻找铰链) 在处理未见过的物体时优于训练特定的回归网络。
  • 完整性: 包含形状补全和纹理生成确保了最终资产不仅仅是骨架,而是完全实现的 3D 物体,可随时进行渲染和物理模拟。

对于对计算机视觉、图形学和机器人技术交叉领域感兴趣的学生来说,这篇论文是一个很好的例子,展示了如何将不同的 AI 模态 (语言、2D 视觉、3D 几何) 串联起来解决复杂的物理推理任务。