想象一下,你让机器人“把笔记本电脑旁边的红色马克杯拿起来”。对我们来说,这是一个微不足道的请求。但对 AI 来说,这是一个几何与语义的噩梦。AI 必须在 3D 空间中识别物体,理解“红色”和“马克杯”长什么样,并弄清楚“旁边”这种空间关系。
尽管大型语言模型 (LLM) 已经掌握了文本,视觉语言模型 (VLM) 也征服了 2D 图像,但 3D 场景理解 仍然是一个充满挑战的前沿领域。大多数当前的方法笨拙地将 2D 图像数据和 3D 点云拼凑在一起,往往丢失了使场景连贯的细粒度细节。它们难以理解物体在物理空间中如何相互关联,并且计算成本也是出了名的高。
在这篇文章中,我们将深入探讨 Inst3D-LMM , 这是由浙江大学及其合作者提出的一个新框架。该模型引入了一种“实例感知”的方法,将 3D 几何、2D 视觉语义和空间推理统一到一个单一、高效且强大的通才模型中。
问题所在: 2D 与 3D 的断层
要理解一个 3D 场景,AI 需要两类信息:
- 3D 几何 (3D Geometry) : 物体的形状和位置 (通常来自点云) 。
- 2D 语义 (2D Semantics) : 纹理、颜色和视觉上下文 (来自 RGB 图像) 。
传统方法通常分别编码这些特征。它们可能会查看点云以找到一个“椅子形状的团块”,并查看图像以找到“看起来像木头的像素”。然后,它们将这些特征松散地拼接在一起。
这种方法有两个问题:
- 交互缺失 (Loss of Interaction) : 它忽略了 2D 视觉细节与 3D 结构之间细粒度的交互。
- 空间盲区 (Spatial Blindness) : 仅仅知道什么物体存在,并不能告诉模型它们相对于彼此在哪里 (空间关系) 。
此外,以前的模型通常需要特定任务微调 (task-specific fine-tuning) 。 你需要一个模型来做 3D 问答 (3D-QA) ,并需要一个完全不同的模型来做 3D 视觉定位 (寻找物体) 。
解决方案: Inst3D-LMM
Inst3D-LMM (实例感知 3D 大型多模态模型) 提出了一种能够同时处理多项任务的统一架构。如图 1 所示,不同于以往的方法 (a) 使用分离的输入和特定任务的微调,Inst3D-LMM (b) 在实例级 (对象级) 融合模态,并显式地对空间关系进行建模。

结果如何?该模型不仅更准确,而且在内存和速度方面也明显更高效 (c) 。
架构概览
Inst3D-LMM 的核心理念是,世界是由实例组成的——即独特的物体,如椅子、桌子或灯。模型不是将场景处理为一锅点云大杂烩,而是将场景分解为这些实例并进行处理。
架构流程如图 2 所示,主要遵循以下步骤:
- 实例提取: 使用预训练模型在 3D (点云) 和 2D (图像) 中识别候选对象。
- MCMF 模块: 一种融合机制,将 2D 图像细节注入到 3D 几何特征中。
- 3D-ISR 模块: 一个空间推理引擎,用于计算物体之间的相互关系 (距离、角度) 。
- LLM 处理: 将这些丰富的“视觉 Token”输入大型语言模型进行指令微调。

让我们详细拆解这两个主要创新点: MCMF 和 3D-ISR 模块。
核心方法
1. 多视角跨模态融合 (MCMF)
点云是稀疏的。如果你看一张光滑白色桌子的 3D 扫描图,它可能看起来只是一个由点组成的平面。它缺乏 2D 图像中的纹理和光照信息。反之,2D 图像缺乏深度。
MCMF 模块旨在结合两者的优点。它获取物体实例的粗糙 3D 几何形状,并从该物体的多个 2D 视角中“注入”丰富的语义信息。
流程
- 3D 特征: 模型使用 3D 编码器 (如 Uni3D) 来获取对象实例的几何表示,记为 \(O^{3D}\)。
- 2D 多视角特征: 模型将 3D 对象投影到 2D 帧上,选择最佳视角,并使用 CLIP (一种强大的视觉模型) 提取特征,记为 \(O^{2D}\)。
挑战在于如何结合它们。简单地拼接它们会产生一个巨大的特征向量,从而混淆模型。相反,作者使用了跨模态注入块 (Cross-Modal Injection Block) 。

如图 3 所示,融合过程以“由粗到细”的方式进行:
- 视角聚合: 对于 2D 特征,使用一个可学习的
[CLS]token 来聚合来自该物体不同视角的特征信息。 - 交叉注意力 (Cross-Attention) : 3D 特征充当“查询 (Query) ”,而丰富的 2D 特征充当“键 (Keys) ”和“值 (Values) ”。
这迫使 3D 表示去“观察”2D 细节,并将相关的视觉语义 (如颜色和纹理) 吸收到几何结构中。
这种注入在数学上表示为:
\[ { \cal O } _ { f } ^ { 3 D } = \mathrm { C r o s s } { \cal A } { \mathrm { t t } } \mathrm { n } ( { \cal O } ^ { 3 D ^ { \prime } } , { \cal O } ^ { 2 D ^ { \prime } } ) . \]这里,生成的特征 \(O_f^{3D}\) 是一个经过 2D 视觉知识“大幅增强”的 3D Token。
2. 3D 实例空间关系 (3D-ISR)
知道物体长什么样只成功了一半。要回答像*“找到桌子和窗户之间的椅子”*这样的查询,模型需要空间感知能力 。
3D-ISR 模块在不显式构建复杂场景图的情况下,创建了对场景的图状理解。它计算场景中每两个物体之间的成对空间关系。

构建空间特征
对于每一对物体 (实例 \(i\) 和实例 \(j\)) ,模型根据以下因素计算空间特征向量 \(s_{ij}\):
- 欧几里得距离 (\(d_{ij}\)): 它们相距多远?
- 水平角度 (\(\theta_h\)): 一个在另一个的左边还是右边?
- 垂直角度 (\(\theta_v\)): 一个在另一个的上面还是下面?
该特征向量的公式为:
\[ s _ { i j } = [ \sin ( \theta _ { h } ) , \cos ( \theta _ { h } ) , \sin ( \theta _ { v } ) , \cos ( \theta _ { v } ) , d _ { i j } ] . \]空间条件自注意力 (Spatial-Conditioned Self-Attention)
这里的创新在于如何使用这些特征。作者引入了空间条件注意力图 。
通常,注意力机制关注的是两个特征有多相似。在这里,注意力受到物体位置的调节。模型根据位置嵌入 (\(P\)) 和实例 Token (\(O^{3D}\)) 计算注意力权重。
\[ l _ { i } = { W } _ { P } ^ { \top } ( \mathcal { P } _ { i } + O _ { I i } ^ { 3 D } ) , \]最终的场景级表示聚合了这些关系,使 LLM 能够理解房间的全局布局。
多任务指令微调
一旦生成了 实例 Token (来自 MCMF) 和 场景 Token (来自 3D-ISR) ,它们就会被输入到一个大型语言模型中 (具体使用的是 Vicuna-1.5-7B) 。
至关重要的是,作者执行了端到端的多任务指令微调 。 他们没有为不同的工作训练单独的权重,而是同时在以下任务上训练模型:
- 3D 视觉定位 (3D Visual Grounding): “棕色的椅子在哪里?”
- 3D 问答 (3D Question Answering): “桌子上有什么?”
- 3D 密集描述 (3D Dense Captioning): “描述角落里的物体。”
这种“通才”方法确保模型学习到稳健的表示,这些表示对于任何涉及 3D 场景的任务都是有用的。
实验与结果
研究人员在 ScanNet、ScanRefer 和 ScanQA 等标准基准上测试了 Inst3D-LMM。结果令人印象深刻,始终优于最先进的方法。
视觉定位性能
在 3D 视觉定位中,目标是定位文本描述的物体。如下面的表 1 所示,Inst3D-LMM 达到了顶级的性能 ([email protected] 为 51.6%) ,击败了专家模型和其他像 Chat-Scene 这样的通才 LLM。

从定性上看,改进是显而易见的。在图 5 中,我们可以看到该模型 (绿框) 准确地定位了“水槽下的厨柜”,而其他领先的模型 (红框) 未能捕捉到物体的全部范围,或者完全识别错了柜子。

为什么它效果更好?
消融实验揭示了新模块的具体贡献。
- MCMF 的影响: 移除多视角 2D 融合会导致准确率显著下降。这证明仅靠 3D 几何是不够的;来自图像的纹理细节至关重要。
- 3D-ISR 的影响: 移除空间关系模块会特别损害涉及关系查询 (例如,“旁边”、“最近”) 的性能。
一个引人入胜的可视化 (图 6) 比较了 Inst3D-LMM 与以前的方法如何“看待”一个查询。

在上图中:
- 句子 Token (Sentence Token) 热力图显示模型找到了语义上与“recliner (躺椅) ”匹配的物体。
- 位置嵌入 (Position Embedding) 热力图显示模型隔离了句子中关系所定义的特定位置。
- 结合这两者可以实现精确的定位。
效率
Inst3D-LMM 最实际的好处之一是它的速度。因为它在实例 (每个房间几十个物体) 上运行,而不是在原始视觉 Patch (成千上万个像素/点) 上运行,它大大减少了 LLM 需要处理的 Token 数量。
查看下面的对比表 (论文中的表 9) ,我们可以看到与使用分离编码的方法相比,Inst3D-LMM 使用的显存 (VRAM) 显著减少,并且推理时间快了近 10 倍 。

- (注: 上表突出显示,从“分离编码 (Separate Encoding) ”转变为“MCMF+3D-ISR”将推理时间从约 4.80 秒减少到了约 0.52 秒。) *
结论与启示
Inst3D-LMM 代表了 3D 场景理解向前迈出的重要一步。通过将世界视为实例的集合而不是点云,并显式地对它们之间的空间关系进行建模,作者创建了一个更智能、更快速的模型。
主要要点是:
- 融合至关重要: 你不能仅依赖 3D 或 2D。MCMF 中使用的“注入”方法是结合这些模态的更优方式。
- 上下文为王: 3D-ISR 模块证明,理解物体之间的空间与识别物体本身一样重要。
- 基于实例的效率: 在对象级别进行处理是使 3D LLM 在现实世界应用中变得实用的关键。
虽然该模型目前依赖于预训练分割模型 (如 Mask3D) 的质量,但其架构为未来的具身智能体奠定了基础——这些机器人将能够像我们一样自然地在复杂的三维世界中导航、推理和交互。
](https://deep-paper.org/en/paper/2503.00513/images/cover.png)