引言

想象一下,你是一个走进房间的机器人。你看到一个男人坐在沙发上。你听到有人说: “彼得正在休息。”你的深度传感器告诉你沙发是靠着墙的。

作为人类,我们会无缝地处理所有这些信息。我们不会分别为我们看到的、听到的和空间深度建立各自独立的心理模型。我们将它们整合成对场景的单一理解: 彼得坐在靠墙的沙发上。

然而,在计算机视觉领域,这种整合极其困难。多年来,研究人员一直依赖场景图 (Scene Graphs, SGs) 来结构化视觉信息。场景图将混乱的图像转化为结构化的图,其中节点是对象 (例如“男人”、“沙发”) ,边是关系 (例如“坐在……上”) 。

直到现在,研究一直是各自为战的。我们有图像场景图 (ISG) 、文本场景图 (TSG) 、视频场景图 (VSG) 和 3D 场景图 (3DSG) 。但我们一直缺乏一种好的方法将它们结合起来。

在这篇文章中,我们将深入探讨一篇名为 “Universal Scene Graph Generation” (通用场景图生成) 的论文。研究人员提出了一种新的框架 USG-Par , 将这些模态统一为一个单一、全面的通用场景图 (Universal Scene Graph, USG) 。 这是向构建能够像我们一样真正感知世界的 AI 智能体迈出的重要一步。

孤岛问题

在看解决方案之前,我们需要了解当前的形势。场景图是一个强大的工具,因为它将原始像素或文本抽象为语义知识。

  • 文本场景图 (Text SGs) 擅长表达抽象概念 (“彼得正在休息”) ,但缺乏空间精度。
  • 图像场景图 (Image SGs) 提供视觉细节 (“红衬衫”、“真皮沙发”) ,但缺失 3D 约束。
  • 视频场景图 (Video SGs) 捕捉时间动态 (“彼得坐下”) ,但计算量大。
  • 3D 场景图 (3D SGs) 提供空间基础 (“沙发距离门 2 米”) ,但往往缺乏丰富的语义。

在自动驾驶或机器人等现实应用中,这些模态是共存的。如果我们分别处理它们,最终得到的知识就是碎片化的。标准的方法一直是“流水线”方法: 为图像生成一个图,为文本生成一个图,然后试图以后将它们粘合在一起。

这导致了两个主要问题:

  1. 冗余和冲突: 如果图像模型看到“一个人”,而文本模型读到“彼得”,系统通常很难意识到它们是同一个实体。
  2. 信息遗漏: 互补的优势被忽略了。文本可能解释了某人为什么拿着瓶子 (为了喂大象) ,而图像则解释了他们站立的位置

解决方案: 通用场景图 (USG)

研究人员引入了通用场景图 (USG) 。 其目标是创建一种“全模态综合”的表示。这意味着该图可以摄取任何组合的输入——文本、图像、视频或 3D 点云——并输出一个单一、统一的知识结构。

从单模态图 (文本、图像、视频、3D) 汇聚成单一通用场景图的演变过程。

如上图 1 所示,不同的模态贡献了不同层面的信息。底部的 USG 将文本中的抽象名称“Peter” (黄色节点) 、视频中的视觉对象“Phone” (蓝色节点) 以及 3D 数据中的空间约束“Floor” (黑色节点) 整合在了一起。

这不仅仅是将图堆叠在一起;这是关于对齐 。 系统必须识别出文本中的“彼得”、图像中的像素块以及沙发上的 3D 网格是同一个实体。

核心方法: USG-Par

为了实现这一目标,作者提出了一种名为 USG-Parser (USG-Par) 的新架构。这是一个端到端的模型,旨在处理跨模态对齐的复杂性。

让我们逐步分解这个架构。

USG-Par 架构概览,展示了五个主要模块: 编码器、掩码解码器、对象关联器、提议构造器和关系解码器。

如图 2 所示,该流程包含五个不同的阶段。

1. 特定模态编码器

系统首先需要理解原始输入。由于文本和点云是根本不同的数据格式,模型为每种模态使用了专门的编码器:

  • 文本: 使用 Open-CLIP 提取上下文特征。
  • 图像/视频: 使用冻结的 CLIP-ConvNeXt 骨干网络结合像素解码器 (Pixel Decoder) 来获取多尺度视觉特征。
  • 3D 点云: 使用 Point-BERT 编码空间数据。

这些编码器输出的特征表示被投影到一个公共维度,为随后的统一处理做好准备。

2. 共享掩码解码器

提取特征后,模型需要识别潜在的对象。USG-Par 没有为每种模态使用单独的检测器,而是使用了共享掩码解码器 (Shared Mask Decoder)

该组件使用“对象查询向量 (object queries) ”——即可学习的向量,用于探测特征以寻找对象。它采用了掩码注意力机制,类似于 Mask2Former 等架构。

掩码解码器的框架,展示了如何集成多尺度特征以细化对象查询。

如图 13 所示,解码器逐层细化这些查询。对于视频数据,它甚至包括一个时间编码器来跨帧跟踪对象。输出是一组“对象查询向量”,代表场景中每个潜在的实体,无论它来自哪种模态。

3. 对象关联器

这可以说是论文中最关键的创新。我们现在有一堆来自文本、图像和 3D 扫描的对象。我们怎么知道哪些是重复的?

一种天真的方法是直接比较它们的特征向量。然而,在文本空间中表示的对象与在 3D 点云空间中表示的对象看起来非常不同。这就存在一个“模态鸿沟”。

对象关联器 (Object Associator) 通过在比较之前将对象投影到彼此的特征空间来解决这个问题。

对象关联器的示意图。它将查询投影到共享空间并进行融合,以确定哪些对象是相同的。

参考图 3,过程如下:

  1. 投影: 为了检查视觉对象是否与文本对象匹配,模型将视觉查询投影到文本特征空间 (反之亦然) 。
  2. 相似度计算: 它计算这些投影特征之间的余弦相似度。
  3. 过滤: 一个基于 CNN 的过滤器细化这些关联以去除噪声。

在数学上,这表示为计算关联矩阵 \(A\)。如果分数很高,系统就知道“彼得” (文本) 和“人 1” (图像) 是最终图中的同一个节点。

4. 关系提议构造器 (RPC)

既然我们有了一组干净的唯一对象,我们需要找到它们之间的关系。在一个有 20 个对象的场景中,检查每一对可能的组合 (\(20 \times 20 = 400\) 种组合) 在计算上极其昂贵,而且大部分是浪费的 (天花板很少会“吃掉”地板) 。

关系提议构造器 (Relation Proposal Constructor, RPC) 过滤这些配对以找到最可能的候选者。

用于细化主体和客体嵌入的双向关系感知交互模块框架。

RPC 使用一种称为关系感知交叉注意力 (Relation-Aware Cross-Attention) 的机制 (图 14) 。它允许主体和客体查询相互“对话”。例如,如果主体是“人”,该模块学会关注像“手机”或“椅子”这样的客体 (可能的交互) ,而不是“天空”。它输出一个“配对置信度矩阵”,仅选择前 \(k\) 个最可能的配对进行详细分析。

5. 关系解码器

最后,选定的配对被传递给关系解码器 (Relation Decoder) 。 该模块确定关系的具体语义标签 (例如,“拿着”、“站在……上”、“在……后面”) 。

关系解码器的示意图,它接收融合特征和关系查询以输出最终的三元组。

解码器 (图 15) 获取主体和客体的嵌入,将它们连接成一个“关系查询”,并利用原始多模态特征进行交叉注意力计算,以预测最终的谓词。

解决数据问题: 以文本为中心的学习

设计架构只是战斗的一半。另一个障碍是数据。

  1. 缺乏通用数据: 我们有图像场景图和视频场景图的数据集,但很少有数据集拥有对齐的 文本+图像+视频+3D 注释。
  2. 领域不平衡: 3D 数据集通常是室内场景。视频数据集偏向动作。文本则是通用的。

为了解决这个问题,作者提出了以文本为中心的场景对比学习 (Text-Centric Scene Contrastive Learning)

由于文本是最灵活的模态 (你可以用文本描述任何东西) ,作者将文本表示视为“锚点”。

以文本为中心的场景对比学习示意图。它将视觉和 3D 特征对齐到文本嵌入空间。

如图 4 所示,模型使用了对比损失函数。它将视觉对象 (如图像中的“桌子”) 的表示拉近到文本嵌入空间中“桌子”一词的表示,同时将其推离像“门”这样不相关的词。

这种策略使模型能够利用大量可用的单模态数据,同时仍然学习共享的、通用的表示。

实验与结果

这种复杂的架构实际上比仅仅运行单独的模型并合并结果效果更好吗?作者进行了广泛的实验来找出答案。

单模态性能

首先,他们检查了 USG-Par 是否能像专用模型一样处理标准任务,例如图像场景图生成。

在 PSG 数据集上的评估。USG-Par 优于 Pair-Net 和 HiLo 等专用基线方法。

在表 2 中,我们看到了在 PSG (全景场景图) 数据集上的结果。 USG-Par 优于最先进的方法 , 如 HiLo 和 Pair-Net。这证实了通用架构不会稀释特定任务的性能;事实上,共享学习似乎提升了性能。

多模态性能: 真正的考验

最重要的评估是模型在给定多个输入 (例如,文本 + 图像) 时生成图的效果如何。

作者将 USG-Par 与“流水线”基线 (训练单独的模型并合并输出) 进行了比较。

视觉对比显示 USG-Par 正确识别了流水线方法弄错的关系。

图 6 提供了一个令人信服的定性示例。

  • 场景: 彼得正在喂一头大象 (“Jumbo”) 。
  • 流水线方法 (左/中) : 它混淆了。它在“人”和“Jumbo”之间创建了一条边,但未能正确统一上下文,导致图是碎片化的。
  • USG 方法 (右) : 它成功地将文本“彼得”与视觉“人”合并。它理解“彼得”是那个“喂”“Jumbo”的人。它还正确地整合了图像背景中的“树”和“泥土”,这些在文本中并未提及。

重叠的影响

研究人员还分析了模态之间的重叠程度有多重要。如果文本准确描述了图像中的内容,性能会更高。

图表显示性能指标随着模态间重叠率的增加而提高。

图 17 显示,随着重叠率 (Overlapping Ratio) 的增加 (意味着文本和图像描述相同事物的紧密程度) ,场景图生成的准确性显着提高。这验证了对象关联器的有效性: 当数据对齐时,模型成功地利用冗余来增强其置信度。

结论与启示

“通用场景图生成”这篇论文标志着我们对场景理解思考方式的转变。通过摆脱模态特定的孤岛,转向统一的图表示,我们为更强大的 AI 系统打开了大门。

主要收获:

  1. 统一表示: USG 允许不同的数据类型 (文本、图像、视频、3D) 在单一语义结构中共存。
  2. USG-Par 架构: 模块化设计——特别是对象关联器——有效地弥合了“模态鸿沟”,使系统能够理解像素区域和文本实体是同一个对象。
  3. 以文本为中心的学习: 将视觉和空间数据对齐到文本嵌入,被证明是处理领域不平衡和数据稀缺的有效方法。

这项工作对具身智能 (Embodied AI) 的未来尤其令人兴奋。配备 USG-Par 的机器人将不仅仅看到像素或点云;它将理解其环境的故事,将其所见、指令所知以及对象如何在时间中运动结合成一幅连贯的图景。