想象一下，你让机器人“把笔记本电脑旁边的红色马克杯拿起来”。对我们来说，这是一个微不足道的请求。但对 AI 来说，这是一个几何与语义的噩梦。AI 必须在 3D 空间中识别物体，理解“红色”和“马克杯”长什么样，并弄清楚“旁边”这种空间关系。

尽管大型语言模型 (LLM) 已经掌握了文本，视觉语言模型 (VLM) 也征服了 2D 图像，但 3D 场景理解 仍然是一个充满挑战的前沿领域。大多数当前的方法笨拙地将 2D 图像数据和 3D 点云拼凑在一起，往往丢失了使场景连贯的细粒度细节。它们难以理解物体在物理空间中如何相互关联，并且计算成本也是出了名的高。

在这篇文章中，我们将深入探讨 Inst3D-LMM , 这是由浙江大学及其合作者提出的一个新框架。该模型引入了一种“实例感知”的方法，将 3D 几何、2D 视觉语义和空间推理统一到一个单一、高效且强大的通才模型中。

问题所在: 2D 与 3D 的断层

要理解一个 3D 场景，AI 需要两类信息:

3D 几何 (3D Geometry) : 物体的形状和位置 (通常来自点云) 。
2D 语义 (2D Semantics) : 纹理、颜色和视觉上下文 (来自 RGB 图像) 。

传统方法通常分别编码这些特征。它们可能会查看点云以找到一个“椅子形状的团块”，并查看图像以找到“看起来像木头的像素”。然后，它们将这些特征松散地拼接在一起。

这种方法有两个问题:

交互缺失 (Loss of Interaction) : 它忽略了 2D 视觉细节与 3D 结构之间细粒度的交互。
空间盲区 (Spatial Blindness) : 仅仅知道什么物体存在，并不能告诉模型它们相对于彼此在哪里 (空间关系) 。

此外，以前的模型通常需要特定任务微调 (task-specific fine-tuning) 。你需要一个模型来做 3D 问答 (3D-QA) ，并需要一个完全不同的模型来做 3D 视觉定位 (寻找物体) 。

解决方案: Inst3D-LMM

Inst3D-LMM (实例感知 3D 大型多模态模型) 提出了一种能够同时处理多项任务的统一架构。如图 1 所示，不同于以往的方法 (a) 使用分离的输入和特定任务的微调，Inst3D-LMM (b) 在实例级 (对象级) 融合模态，并显式地对空间关系进行建模。

以前的 3D LMM 与我们提出的 Inst3D-LMM 的比较。

结果如何？该模型不仅更准确，而且在内存和速度方面也明显更高效 (c) 。

架构概览

Inst3D-LMM 的核心理念是，世界是由实例组成的——即独特的物体，如椅子、桌子或灯。模型不是将场景处理为一锅点云大杂烩，而是将场景分解为这些实例并进行处理。

架构流程如图 2 所示，主要遵循以下步骤:

实例提取: 使用预训练模型在 3D (点云) 和 2D (图像) 中识别候选对象。
MCMF 模块: 一种融合机制，将 2D 图像细节注入到 3D 几何特征中。
3D-ISR 模块: 一个空间推理引擎，用于计算物体之间的相互关系 (距离、角度) 。
LLM 处理: 将这些丰富的“视觉 Token”输入大型语言模型进行指令微调。

我们提出的 Inst3D-LMM 架构概览。

让我们详细拆解这两个主要创新点: MCMF 和 3D-ISR 模块。

核心方法

1. 多视角跨模态融合 (MCMF)

点云是稀疏的。如果你看一张光滑白色桌子的 3D 扫描图，它可能看起来只是一个由点组成的平面。它缺乏 2D 图像中的纹理和光照信息。反之，2D 图像缺乏深度。

MCMF 模块旨在结合两者的优点。它获取物体实例的粗糙 3D 几何形状，并从该物体的多个 2D 视角中“注入”丰富的语义信息。

流程

3D 特征: 模型使用 3D 编码器 (如 Uni3D) 来获取对象实例的几何表示，记为 \(O^{3D}\)。
2D 多视角特征: 模型将 3D 对象投影到 2D 帧上，选择最佳视角，并使用 CLIP (一种强大的视觉模型) 提取特征，记为 \(O^{2D}\)。

挑战在于如何结合它们。简单地拼接它们会产生一个巨大的特征向量，从而混淆模型。相反，作者使用了跨模态注入块 (Cross-Modal Injection Block) 。

提出的多视角跨模态融合 (MCMF) 模块架构。

如图 3 所示，融合过程以“由粗到细”的方式进行:

视角聚合: 对于 2D 特征，使用一个可学习的 [CLS] token 来聚合来自该物体不同视角的特征信息。
交叉注意力 (Cross-Attention) : 3D 特征充当“查询 (Query) ”，而丰富的 2D 特征充当“键 (Keys) ”和“值 (Values) ”。

这迫使 3D 表示去“观察”2D 细节，并将相关的视觉语义 (如颜色和纹理) 吸收到几何结构中。

这种注入在数学上表示为:

\[ { \cal O } _ { f } ^ { 3 D } = \mathrm { C r o s s } { \cal A } { \mathrm { t t } } \mathrm { n } ( { \cal O } ^ { 3 D ^ { \prime } } , { \cal O } ^ { 2 D ^ { \prime } } ) . \]

这里，生成的特征 \(O_f^{3D}\) 是一个经过 2D 视觉知识“大幅增强”的 3D Token。

2. 3D 实例空间关系 (3D-ISR)

知道物体长什么样只成功了一半。要回答像*“找到桌子和窗户之间的椅子”*这样的查询，模型需要空间感知能力 。

3D-ISR 模块在不显式构建复杂场景图的情况下，创建了对场景的图状理解。它计算场景中每两个物体之间的成对空间关系。

3D 实例空间关系 (3D-ISR) 模块的示意图。

构建空间特征

对于每一对物体 (实例 \(i\) 和实例 \(j\)) ，模型根据以下因素计算空间特征向量 \(s_{ij}\):

欧几里得距离 (\(d_{ij}\)): 它们相距多远？
水平角度 (\(\theta_h\)): 一个在另一个的左边还是右边？
垂直角度 (\(\theta_v\)): 一个在另一个的上面还是下面？

该特征向量的公式为:

\[ s _ { i j } = [ \sin ( \theta _ { h } ) , \cos ( \theta _ { h } ) , \sin ( \theta _ { v } ) , \cos ( \theta _ { v } ) , d _ { i j } ] . \]

空间条件自注意力 (Spatial-Conditioned Self-Attention)

这里的创新在于如何使用这些特征。作者引入了空间条件注意力图 。

通常，注意力机制关注的是两个特征有多相似。在这里，注意力受到物体位置的调节。模型根据位置嵌入 (\(P\)) 和实例 Token (\(O^{3D}\)) 计算注意力权重。

\[ l _ { i } = { W } _ { P } ^ { \top } ( \mathcal { P } _ { i } + O _ { I i } ^ { 3 D } ) , \]

最终的场景级表示聚合了这些关系，使 LLM 能够理解房间的全局布局。

多任务指令微调

一旦生成了 实例 Token (来自 MCMF) 和 场景 Token (来自 3D-ISR) ，它们就会被输入到一个大型语言模型中 (具体使用的是 Vicuna-1.5-7B) 。

至关重要的是，作者执行了端到端的多任务指令微调 。他们没有为不同的工作训练单独的权重，而是同时在以下任务上训练模型:

3D 视觉定位 (3D Visual Grounding): “棕色的椅子在哪里？”
3D 问答 (3D Question Answering): “桌子上有什么？”
3D 密集描述 (3D Dense Captioning): “描述角落里的物体。”

这种“通才”方法确保模型学习到稳健的表示，这些表示对于任何涉及 3D 场景的任务都是有用的。

实验与结果

研究人员在 ScanNet、ScanRefer 和 ScanQA 等标准基准上测试了 Inst3D-LMM。结果令人印象深刻，始终优于最先进的方法。

视觉定位性能

在 3D 视觉定位中，目标是定位文本描述的物体。如下面的表 1 所示，Inst3D-LMM 达到了顶级的性能 ([email protected] 为 51.6%) ，击败了专家模型和其他像 Chat-Scene 这样的通才 LLM。

3D 视觉定位的定量结果。

从定性上看，改进是显而易见的。在图 5 中，我们可以看到该模型 (绿框) 准确地定位了“水槽下的厨柜”，而其他领先的模型 (红框) 未能捕捉到物体的全部范围，或者完全识别错了柜子。

3D 视觉定位中的视觉对比。

为什么它效果更好？

消融实验揭示了新模块的具体贡献。

MCMF 的影响: 移除多视角 2D 融合会导致准确率显著下降。这证明仅靠 3D 几何是不够的；来自图像的纹理细节至关重要。
3D-ISR 的影响: 移除空间关系模块会特别损害涉及关系查询 (例如，“旁边”、“最近”) 的性能。

一个引人入胜的可视化 (图 6) 比较了 Inst3D-LMM 与以前的方法如何“看待”一个查询。

文本查询与分割后的 3D 候选对象之间相似性得分的可视化。

在上图中:

句子 Token (Sentence Token) 热力图显示模型找到了语义上与“recliner (躺椅) ”匹配的物体。
位置嵌入 (Position Embedding) 热力图显示模型隔离了句子中关系所定义的特定位置。
结合这两者可以实现精确的定位。

效率

Inst3D-LMM 最实际的好处之一是它的速度。因为它在实例 (每个房间几十个物体) 上运行，而不是在原始视觉 Patch (成千上万个像素/点) 上运行，它大大减少了 LLM 需要处理的 Token 数量。

查看下面的对比表 (论文中的表 9) ，我们可以看到与使用分离编码的方法相比，Inst3D-LMM 使用的显存 (VRAM) 显著减少，并且推理时间快了近 10 倍 。

效率比较: Token 数、显存和时间。

(注: 上表突出显示，从“分离编码 (Separate Encoding) ”转变为“MCMF+3D-ISR”将推理时间从约 4.80 秒减少到了约 0.52 秒。) *

结论与启示

Inst3D-LMM 代表了 3D 场景理解向前迈出的重要一步。通过将世界视为实例的集合而不是点云，并显式地对它们之间的空间关系进行建模，作者创建了一个更智能、更快速的模型。

主要要点是:

融合至关重要: 你不能仅依赖 3D 或 2D。MCMF 中使用的“注入”方法是结合这些模态的更优方式。
上下文为王: 3D-ISR 模块证明，理解物体之间的空间与识别物体本身一样重要。
基于实例的效率: 在对象级别进行处理是使 3D LLM 在现实世界应用中变得实用的关键。

虽然该模型目前依赖于预训练分割模型 (如 Mask3D) 的质量，但其架构为未来的具身智能体奠定了基础——这些机器人将能够像我们一样自然地在复杂的三维世界中导航、推理和交互。

问题所在: 2D 与 3D 的断层#

解决方案: Inst3D-LMM#

架构概览#

核心方法#

1. 多视角跨模态融合 (MCMF)#

流程#

2. 3D 实例空间关系 (3D-ISR)#

构建空间特征#

空间条件自注意力 (Spatial-Conditioned Self-Attention)#

多任务指令微调#

实验与结果#

视觉定位性能#

为什么它效果更好？#

效率#

结论与启示#