超越几何：教会机器人在 3D 空间中理解功能

想象一下，你是一个正在厨房里穿梭的机器人。你扫描房间，完美地识别出了冰箱、橱柜和水槽。你知道它们在 3D 空间中的确切位置。但现在，你收到了一个指令: “打开冰箱”。

突然间，你完美的几何地图变得不够用了。你知道冰箱在哪里，但你知道如何与它互动吗？你知道哪个具体的把手属于冰箱门吗？你明白拉动那个把手会让门打开吗？或者考虑一个更复杂的指令: “打开吸顶灯”。你可以看到灯具，但开关在三米外的墙上。对于标准的 3D 感知系统来说，那个开关和那盏灯之间没有任何物理联系。

这就是空间理解 (知道物体在哪里) 与功能理解 (知道物体如何工作) 之间的鸿沟。

在一篇题为 “Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces” 的新论文中，来自清华大学、苏黎世联邦理工学院 (ETH Zürich) 和马克斯·普朗克信息学研究所 (MPI for Informatics) 的研究人员介绍了一种名为 OpenFunGraph 的突破性方法。他们的工作超越了静态地图，提出了一种生成“功能性 3D 场景图”的方法，能够捕捉现实世界环境中的交互动态。

图 1. 功能性 3D 场景图。给定室内环境的定姿 RGB-D 帧序列，我们的方法通过检测物体、识别交互元素并推断功能关系来预测功能性 3D 场景图。

问题: 为什么仅有空间地图是不够的

多年来，机器感知的黄金标准一直是 3D 场景图 (3DSG) 。传统的 3DSG 是一种数据结构，其中节点代表物体 (例如椅子、桌子) ，边代表空间关系 (例如“椅子在桌子旁边”) 。

虽然令人印象深刻，但这些图有两个主要局限性:

它们忽略了微小的交互部件: 它们可能会检测到“门”，但通常会遗漏“把手”。
它们缺乏功能逻辑: 它们描述的是邻近性 (“开关在墙上”) ，而不是因果关系 (“开关控制灯”) 。

研究人员认为，要让一个智能体真正发挥作用——无论是家庭机器人还是高级 AI 助手——它需要感知可供性 (affordances，即行动的可能性) 。它需要理解旋钮是可以旋转的，按钮是可以按下的，把手是可以拉动的，最重要的是，这些动作会对环境产生什么影响。

功能性的挑战

创建功能地图比创建空间地图要困难得多。为什么？

数据稀缺: 我们拥有海量的 3D 物体数据集，但极少有数据集明确标记功能关系 (例如连接开关和灯的线条) 。
小物体: 与家具相比，像按钮和旋钮这样的交互元素非常微小，这使得标准的计算机视觉模型很难检测到它们。
不可见的连接: 远程关系 (像遥控器操作电视) 没有视觉上的联系。你无法“看”到这种连接；你必须基于常识或观察来推断它。

为了解决这个问题，作者推出了 OpenFunGraph , 这是一个开放词汇 (open-vocabulary) 的流程，利用现代基础模型 (Foundation Models) 中蕴含的丰富知识。

解决方案: OpenFunGraph

这篇论文的核心洞察是，我们不需要从头开始训练模型来学习物理学或常识。像 GPT-4 这样的大型语言模型 (LLM) 和视觉语言模型 (VLM) 已经“知道”开关通常控制灯，把手通常用来开门。

如下图所示, OpenFunGraph 架构利用这些预先存在的知识，从标准的 RGB-D (彩色+深度) 视频序列中构建功能图。

图 2. OpenFunGraph 架构示意图。该流程包括节点检测、节点描述和功能关系推理。

该方法分三个主要阶段运行:

1. 自适应节点检测 (寻找部件)

第一步是找到场景中的所有东西。研究人员使用了一种渐进式检测策略 。

他们没有试图一次性找到所有东西，而是从大处着手。他们使用一个名为 RAM++ 的模型来识别大物体 (例如“橱柜”) 。然后，他们向 LLM (GPT-4) 问一个关键问题: “哪些交互元素通常属于橱柜？” LLM 可能会建议“旋钮”或“把手”。

带着这些具体的建议，他们提示检测模型 (GroundingDINO) 在大物体的区域内寻找那些特定的微小部件。这种“放大”方法使他们能够检测到通用检测器通常会遗漏的微小交互元素。这些检测结果随后被融合到 3D 空间中，以创建图的“节点”。

2. 节点描述 (描述部件)

一旦系统识别出一个节点 (比如一个特定的开关) ，它需要理解它。一个简单的标签是不够的。

系统为每个物体生成多视角说明。对于小元素，它使用了一个巧妙的技巧: 在元素周围裁剪图像，并用红色方框圈出它，以聚焦 VLM 的注意力。然后 VLM 用自然语言描述该物体 (例如，“安装在米色墙上的白色翘板开关”) 。LLM 将这些描述总结为图中每个节点的简洁、信息丰富的说明。

3. 功能关系推理 (连接部件)

这是流程中最具创新性的部分。系统需要在代表功能链接的节点之间绘制“边”。它是通过顺序推理来实现的:

步骤 A: 局部关系 (物理连接) 首先，系统寻找物理接触的物体。如果一个“把手”在空间上与一个“抽屉”重叠，系统会将两者的描述输入给 LLM。它会问: “这个把手是用来打开这个抽屉的可能性大吗？” LLM 利用其常识来确认这种关系。

步骤 B: 远程关系 (不可见连接) 接下来，系统处理更难的问题: 没有接触的事物。这就是感知置信度的远程推理 。

系统选取一个未分配的交互元素 (例如，一个墙壁开关) 。
它要求 LLM 识别房间内的潜在目标 (例如，吸顶灯、台灯、风扇) 。
然后它使用 VLM 来验证视觉线索 (例如，“这盏灯是否插在这个开关附近的插座上？”) 。
最后，LLM 为每个可能的连接分配一个置信度分数。如果置信度足够高 (例如，“这是房间里唯一的吸顶灯，所以墙壁开关很可能控制它”) ，则创建该边。

新基准: FunGraph3D 数据集

为了测试他们的方法，研究人员不能依赖现有的数据集——因为根本没有必要的功能标签。所以，他们建立了自己的数据集。

他们推出了 FunGraph3D , 这是一个使用高保真激光扫描仪和照片级真实感相机采集的数据集。

图 3. FunGraph3D 数据集的模态。上: 3D 扫描。中: 交互图。下: 现实世界的交互。

这个数据集的特别之处在于真值 (ground truth) 。研究人员不仅标记了物体；他们还标记了交互图。他们甚至收集了人们实际与场景互动的以自我为中心的视频 (使用 Apple Vision Pro) ——比如拨动开关和开门——以确保真值标签的准确性。

正如下面所见，该数据集涵盖了各种复杂的现实世界环境，从厨房到客厅，所有环境都标有丰富的功能数据。

图 4. FunGraph3D 数据集中的场景示例。

实验结果

那么，OpenFunGraph 的效果如何呢？研究人员将其与 Open3DSG 和 ConceptGraph 等最先进基线的改进版本进行了比较。

结果是决定性的。OpenFunGraph 在检测交互元素和正确预测功能关系方面都显著优于基线。

节点检测: 像 ConceptGraph 这样的基线非常擅长寻找大型家具，但在寻找小旋钮和开关方面却惨败。OpenFunGraph 的渐进式提示策略使其能够召回更多的交互元素。
关系预测: 由于标准的场景图侧重于空间边 (邻近性) ，它们很难推断功能。OpenFunGraph 利用 LLM 驱动的常识推理，使其能够以更高的准确率正确连接开关与灯、把手与抽屉。

从定性上看，差异是明显的。在下图中，你可以看到 OpenFunGraph 正确推断出一个特定的开关控制着吸顶灯 (由橙色线指示) ，并区分了不同存储单元的不同把手。

图 5. 定性结果。上: 输入图像。下: 预测的功能性 3D 场景图。

这有什么意义？下游应用

这项研究的最终目标不仅仅是制作漂亮的图表；而是为了让机器人能够行动。研究人员通过两个下游任务展示了这一点: 3D 问答和机器人操作 。

因为功能场景图本质上是一个关于房间如何运作的结构化数据库，LLM 可以查询它来回答复杂的用户问题。

用户: “我该怎么开灯？”
系统: “你可以使用门边的开关面板。” (系统知道哪个具体的开关连接着灯) 。

此外，该图还可以指导机器人的运动规划。

图 6. 用于机器人操作的功能性 3D 场景图。左: 3D 场景和功能图。右: 机器人与场景元素交互。

在上面的演示中，用户给出一个指令: “开灯”。机器人查询功能图，识别连接到吸顶灯的特定开关，导航到其位置，并对其进行操作。如果没有 OpenFunGraph 预测的功能边，机器人可能知道灯在哪里，但它不知道如何开启它。

结论

OpenFunGraph 代表了 3D 场景理解向前迈出的重要一步。通过从纯粹的空间表示转向功能表示，它为 AI 智能体配备了对环境更深刻、更像人类的理解。

该方法通过提炼基础模型中已经存在的常识物理知识，巧妙地绕过了对海量标记数据集的需求。虽然挑战依然存在——例如处理多个开关看起来完全相同的模糊场景——但这项工作为未来奠定了基础，在那样的未来里，机器人不仅占据我们的空间，而且真正懂得如何在其中生活和工作。

问题: 为什么仅有空间地图是不够的#

功能性的挑战#

解决方案: OpenFunGraph#

1. 自适应节点检测 (寻找部件)#

2. 节点描述 (描述部件)#

3. 功能关系推理 (连接部件)#

新基准: FunGraph3D 数据集#

实验结果#

这有什么意义？下游应用#

结论#