想象一下走进一家图书馆,所有的书都被随意地扔在地板上堆成一堆。想要找到《白鲸记》简直是场噩梦。现在,再想象一家图书馆,所有的书都整齐地放在书架上,书脊朝外,直立摆放,并分门别类。这本质上就是3D 对象规范化 (3D Object Canonicalization) 要解决的问题。

在计算机视觉和 3D 生成领域,我们经常要处理“混乱的图书馆”。我们从互联网上抓取 3D 模型,但它们的方向是任意的——有的底朝天,有的朝左,有的朝右。为了让这些数据对 AI 有用,我们需要对其进行“规范化”: 将每个对象对齐到一个标准坐标系 (例如,所有汽车都朝向正 X 轴,所有椅子都沿 Y 轴直立) 。

传统上,解决这个问题需要海量的数据集来“教”算法一把标准的椅子长什么样。但是,如果你有一个稀有的对象怎么办?或者如果你没有成千上万个样本怎么办?

在这篇文章中,我们将深入探讨一篇引人入胜的论文: “One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency” (基于几何和语义一致性的单样本 3D 对象规范化) 。 该论文提出了一种仅需每个类别一个参考示例 (“先验模型”) 即可对齐 3D 对象的方法。通过将数学的几何精度与大语言模型 (LLM) 的语义理解相结合,作者构建了一个能够高效整理混乱 3D 数据世界的框架。

图1. 3D 对象规范化的单样本方法,展示了长尾分布问题及其解决方案。

问题所在: 3D 数据的长尾效应

图 1 所示,现实世界的数据遵循“长尾分布”。少数类别 (如桌子和椅子) 有成千上万个示例,但绝大多数类别 (如某种特定的乌龟或小众工具) 只有极少的样本。

现有的基于学习的方法依赖于从大量训练样本中学习到的“先验 (priors) ”。如果你想训练一个网络来规范化“烤面包机”,你需要给它看成千上万个烤面包机。对于数据稀缺的长尾稀有对象,这种方法彻底失效了。

这篇论文的作者提出了一个大胆的问题: 我们能不能仅用一个参考模型来规范化一个对象?

如果我们只有一个完美对齐的“先验模型” (例如,一匹标准的马) ,我们能否将任何其他的随机马模型——无论其形状或姿态如何——都对齐到这个先验模型上?

解决方案: 单样本框架

研究人员提出了一个无需在成千上万个对象上进行训练的框架。相反,它利用了现代 AI 基础模型 (如 ChatGPT 和 GLIP) 的“零样本 (zero-shot) ”能力,并结合了经典的几何对齐。

该工作流程如图 2 所示,分三个不同阶段运行:

  1. 零样本 3D 语义感知: 使用大语言模型 (LLM) 和视觉语言模型 (VLM) 来理解对象是什么以及其各部分在哪里。
  2. 规范化假设生成: 使用一种新颖的能量函数创建几个可能的对齐“猜测” (假设) 。
  3. 规范化姿态选择: 基于语义一致性选择最佳对齐。

图2. 方法概览,展示了从语义感知到姿态选择的流程。

让我们逐一分解这些阶段。

第一阶段: 零样本 3D 语义感知

要将一个测试对象 (比如说,一个随机的恐龙网格) 对齐到一个先验模型 (一个参考恐龙) ,我们首先需要知道哪些部分是相互对应的。我们需要知道测试网格的“头”应该与参考网格的“头”对齐。

然而,由于我们要对任意类别进行“单样本”处理,我们不能训练一个专门的“恐龙头部检测器”。相反,作者使用了一个包含 ChatGPT 和 GLIP 的巧妙流程。

图3. 使用 ChatGPT 和 GLIP 的零样本 3D 语义感知流程。

图 3 所示,该过程如下:

  1. 渲染: 将 3D 对象从多个视角渲染成 2D 图像。
  2. LLM 查询: 系统向 ChatGPT 提问,例如: “哪些语义部分决定了这个对象的方向?”ChatGPT 可能会回答 [“头”, “尾”, “腿”]。
  3. VLM 检测: 这些文本标签被输入到 GLIP (一种视觉语言模型) 中,GLIP 会查看 2D 渲染图并在这些部分周围画出边界框。
  4. 投影: 这些 2D 检测结果被投影回 3D 网格顶点上。

这就为网格上的每个顶点生成了一个概率分布,告诉我们某个特定点属于“头”或“腿”的可能性有多大。

在数学上,对于具有顶点 \(\mathbf{x}_l\) 的模型,我们定义一个语义置信度向量 \(\mathbf{c}_l\),其中包含每个语义标签的概率:

公式 1: 语义置信度向量定义。

“先有鸡还是先有蛋”的初始化问题

这里有个陷阱。像 GLIP 这样的视觉语言模型是在标准照片上训练的,通常由人类拍摄。当椅子直立时,它们能很好地识别出来,但如果 3D 模型旋转了 90 度或底朝天,VLM 往往无法识别这些部分。

图4. 2D 视觉语言模型的特性,展示了在旋转视图下的失败案例。

图 4 说明了这个局限性。当椅子直立时,GLIP 完美地找到了“靠背”和“腿”。当椅子倾斜时,检测失败了。

这就产生了一个悖论: 我们需要对象大致对齐才能获得好的语义标签,但我们需要好的语义标签来对齐对象。

为了解决这个问题,作者引入了支撑平面策略 (Support-Plane Strategy)

图5. 支撑平面策略,展示了凸包和稳定姿态计算。

现实世界中的大多数物体由于重力作用,都有一个“首选”的放置方式。通过计算对象的“凸包 (convex hull) ” (包裹形状的简化外壳) 并分析其质心,系统可以计算出稳定的“支撑平面”( 图 5 )。

系统不需要搜索每一个可能的旋转,只需要考虑物体在表面上稳定放置的几种姿态。这生成了一组“初始测试模型” (\(\mathcal{X}_{\mathrm{init}}\)) ,大大缩小了搜索空间,并确保 VLM 在“自然”的方向上看到对象。

公式 2: 基于支撑平面的初始点云集合。

第二阶段: 规范化假设生成

现在我们有了语义标签 (即使它们有点嘈杂) 和一组稳定的初始姿态,我们需要执行实际的对齐。

目标是找到一个旋转,将测试模型对齐到先验模型 。 作者发现,仅依赖一种信号是不够的。

仅依赖几何学的失败

如果你只看几何形状 (使用像倒角距离这样的度量) ,算法可能会完美地对齐形状,但方向却是错的。例如,相机看起来有点像一个盒子。几何算法可能会将相机倒置或向后对齐,因为“盒子”形状重叠得很好,却忽略了镜头的位置。

图6. 几何规范化导致方向不一致。

图 6 展示了这种几何上的失败。形状匹配了,但相机指向了与先验模型错误的方向。

仅依赖语义的失败

相反,如果你只依赖语义标签 (将“镜头”点云对齐到“镜头”点云) ,你会得到正确的大致方向,但精度非常糟糕。来自零样本模型的语义预测是嘈杂且“模糊成团”的。

图7. 语义规范化导致几何上的不准确。

图 7 展示了语义上的失败。相机指向了正确的方向,但它是倾斜的,并没有完美重叠,因为语义“团块”不够精确,无法进行精细对齐。

联合能量函数

为了两全其美,作者提出了一个联合能量函数 (Joint Energy Function) 。 这个函数结合了:

  1. 几何约束 (\(\mathcal{D}_g\)) : 确保物理形状紧密重叠。
  2. 语义约束 (\(\mathcal{D}_s\)) : 确保功能部件 (头、腿、轮子) 处于相似的位置。

几何距离使用倒角距离 (Chamfer distance) 计算,它测量两个点云中最近点之间的距离:

公式 4: 使用倒角距离的几何相似度。

语义相似度通过将语义点建模为高斯分布并测量其重叠程度来建模:

公式 5: 语义相似度度量。

最终的联合能量函数 (\(E\)) 是这两者的复杂融合。它不仅仅是将它们相加;它使用语义得分来加权几何对齐。它实际上是在说: “找到能产生最紧密几何拟合的旋转,但如果语义部分不对齐,就对其进行严厉惩罚。”

公式 6: 结合语义和几何线索的联合能量函数。

这个能量函数是不可微的,因此使用 Levenberg-Marquardt 算法进行优化,以找到最佳旋转 \(\hat{\omega}\)。

公式 7: 能量函数的优化。

第三阶段: 规范化姿态选择

因为系统是从多个“支撑平面”初始化开始的 (第 1.5 阶段) ,优化过程会产生几个不同的候选姿态 (假设) 。

公式 8: 规范化假设集。

我们需要选出唯一最好的一个。为此,作者利用了语义关系图 (Semantic Relationship Map)

他们将规范空间划分为 3D 块网格。对于先验模型 , 他们计算每个块中哪个语义标签占主导地位 (例如,“左上前方的块包含头部”) 。

公式 9: 块的语义权重计算。

他们对每个测试假设也做同样的事情。然后,他们比较语义的空间分布。如果一个假设声称“头部”位于“右下后方”的块中,这与先验模型的图不一致,很可能是错误的。与先验模型语义相关性最高的假设被选为获胜者。

实验与结果

作者将他们的“单样本”方法与最先进的基于学习的方法 (如 ConDorCaCaShapeMatcher )进行了测试。至关重要的是,这些竞争方法被允许在 10 个先验上进行训练,而本方法只使用了一个

在 ShapeNet 上的表现

在 ShapeNet 数据集 (模拟数据) 上,结果非常显著。

表 1. ShapeNet 数据集上的少样本 3D 对象规范化。

表 1 所示,与竞争对手相比,所提出的方法实现了显著更低的误差 (IC 和 GEC 指标) 。例如,在“汽车 (Car) ”类别中,误差从约 1.5 (CaCa) 和约 0.87 (ConDor) 降到了仅 0.077

视觉对比

图 8 中的视觉结果突出了差异。看看第一行的“椅子”示例。竞争方法 (“ConDor”,左列) 经常无法正确对齐旋转,导致椅子倾斜。“Ours” (右列) 则展示了精确的对齐。

图8. ShapeNet、DREDS 和 NOCS 数据集上的视觉结果对比。

真实世界数据集

该方法在像 NOCS (嘈杂、无纹理) 和 DREDS (高质量) 这样的真实世界扫描数据集上也证明了其鲁棒性。尽管真实扫描中存在噪声和伪影,语义-几何的组合依然有效。

表 2. NOCS 数据集上的少样本 3D 对象规范化。

表 3. DREDS 数据集上的少样本 3D 对象规范化。

消融实验: 我们真的需要两种约束吗?

作者进行了消融实验,以证明他们复杂的能量函数是必要的。

表 4. 消融研究结果,展示了联合约束的必要性。

  • 仅几何: 高误差 (0.696 IC) ——陷入局部极小值。
  • 仅语义: 高误差 (2.213 IC) ——太模糊/成团。
  • 完整能量函数 + 多假设: 最低误差 (0.194 IC) 。

这证实了几何学提供了精度,语义学提供了方向,而支撑平面策略提供了鲁棒性

Canonical Objaverse Dataset (COD)

这篇论文最具影响力的贡献可能在于将该框架应用于庞大的 Objaverse-LVIS 数据集。由于该方法不需要训练,作者能够大规模处理野外、未对齐的数据。

他们创建了 Canonical Objaverse Dataset (COD) , 包含 1,054 个类别的 32,000 个形状 。 这是目前所有规范 3D 数据集中类别数量最多的数据集。

图9. 来自 OmniObject3D 和 Objaverse-LVIS 的野外数据规范化视觉结果。

图 9 展示了该方法在“自然场景下”的工作情况。无论是复杂的雕像还是简单的家居用品,该框架都能正确对齐,而无需在该特定类别上进行过训练。

结论

“单样本 3D 对象规范化”框架代表了我们处理 3D 数据方式的重大转变。通过摆脱使用成千上万个示例进行暴力训练,转而利用 LLM 和 VLM 的“常识”推理,我们可以处理 3D 世界的长尾数据。

关键要点是:

  1. 语义 + 几何为王: 单独任何一个都不够。你需要语义来知道什么东西放在哪里,需要几何来知道它贴合得有多紧密
  2. 先验允许扩展: 如果你只需要一个好的例子就能组织整个类别,那么整理数据集的速度要比需要数千个例子快得多。
  3. 初始化很关键: 简单的基于物理的启发式方法 (如支撑平面) 往往是使 AI 模型对旋转具有鲁棒性的缺失环节。

这项工作为更大、更干净、更多样化的 3D 数据集铺平了道路,而这些数据集正是下一代 3D 生成式 AI 的燃料。