想象一下,你是一个正在厨房里穿梭的机器人。你扫描房间,完美地识别出了冰箱、橱柜和水槽。你知道它们在 3D 空间中的确切位置。但现在,你收到了一个指令: “打开冰箱”。
突然间,你完美的几何地图变得不够用了。你知道冰箱在哪里,但你知道如何与它互动吗?你知道哪个具体的把手属于冰箱门吗?你明白拉动那个把手会让门打开吗?或者考虑一个更复杂的指令: “打开吸顶灯”。你可以看到灯具,但开关在三米外的墙上。对于标准的 3D 感知系统来说,那个开关和那盏灯之间没有任何物理联系。
这就是空间理解 (知道物体在哪里) 与功能理解 (知道物体如何工作) 之间的鸿沟。
在一篇题为 “Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces” 的新论文中,来自清华大学、苏黎世联邦理工学院 (ETH Zürich) 和马克斯·普朗克信息学研究所 (MPI for Informatics) 的研究人员介绍了一种名为 OpenFunGraph 的突破性方法。他们的工作超越了静态地图,提出了一种生成“功能性 3D 场景图”的方法,能够捕捉现实世界环境中的交互动态。

问题: 为什么仅有空间地图是不够的
多年来,机器感知的黄金标准一直是 3D 场景图 (3DSG) 。 传统的 3DSG 是一种数据结构,其中节点代表物体 (例如椅子、桌子) ,边代表空间关系 (例如“椅子在桌子旁边”) 。
虽然令人印象深刻,但这些图有两个主要局限性:
- 它们忽略了微小的交互部件: 它们可能会检测到“门”,但通常会遗漏“把手”。
- 它们缺乏功能逻辑: 它们描述的是邻近性 (“开关在墙上”) ,而不是因果关系 (“开关控制灯”) 。
研究人员认为,要让一个智能体真正发挥作用——无论是家庭机器人还是高级 AI 助手——它需要感知可供性 (affordances,即行动的可能性) 。 它需要理解旋钮是可以旋转的,按钮是可以按下的,把手是可以拉动的,最重要的是,这些动作会对环境产生什么影响。
功能性的挑战
创建功能地图比创建空间地图要困难得多。为什么?
- 数据稀缺: 我们拥有海量的 3D 物体数据集,但极少有数据集明确标记功能关系 (例如连接开关和灯的线条) 。
- 小物体: 与家具相比,像按钮和旋钮这样的交互元素非常微小,这使得标准的计算机视觉模型很难检测到它们。
- 不可见的连接: 远程关系 (像遥控器操作电视) 没有视觉上的联系。你无法“看”到这种连接;你必须基于常识或观察来推断它。
为了解决这个问题,作者推出了 OpenFunGraph , 这是一个开放词汇 (open-vocabulary) 的流程,利用现代基础模型 (Foundation Models) 中蕴含的丰富知识。
解决方案: OpenFunGraph
这篇论文的核心洞察是,我们不需要从头开始训练模型来学习物理学或常识。像 GPT-4 这样的大型语言模型 (LLM) 和视觉语言模型 (VLM) 已经“知道”开关通常控制灯,把手通常用来开门。
如下图所示, OpenFunGraph 架构利用这些预先存在的知识,从标准的 RGB-D (彩色+深度) 视频序列中构建功能图。

该方法分三个主要阶段运行:
1. 自适应节点检测 (寻找部件)
第一步是找到场景中的所有东西。研究人员使用了一种渐进式检测策略 。
他们没有试图一次性找到所有东西,而是从大处着手。他们使用一个名为 RAM++ 的模型来识别大物体 (例如“橱柜”) 。然后,他们向 LLM (GPT-4) 问一个关键问题: “哪些交互元素通常属于橱柜?” LLM 可能会建议“旋钮”或“把手”。
带着这些具体的建议,他们提示检测模型 (GroundingDINO) 在大物体的区域内寻找那些特定的微小部件。这种“放大”方法使他们能够检测到通用检测器通常会遗漏的微小交互元素。这些检测结果随后被融合到 3D 空间中,以创建图的“节点”。
2. 节点描述 (描述部件)
一旦系统识别出一个节点 (比如一个特定的开关) ,它需要理解它。一个简单的标签是不够的。
系统为每个物体生成多视角说明。对于小元素,它使用了一个巧妙的技巧: 在元素周围裁剪图像,并用红色方框圈出它,以聚焦 VLM 的注意力。然后 VLM 用自然语言描述该物体 (例如,“安装在米色墙上的白色翘板开关”) 。LLM 将这些描述总结为图中每个节点的简洁、信息丰富的说明。
3. 功能关系推理 (连接部件)
这是流程中最具创新性的部分。系统需要在代表功能链接的节点之间绘制“边”。它是通过顺序推理来实现的:
步骤 A: 局部关系 (物理连接) 首先,系统寻找物理接触的物体。如果一个“把手”在空间上与一个“抽屉”重叠,系统会将两者的描述输入给 LLM。它会问: “这个把手是用来打开这个抽屉的可能性大吗?” LLM 利用其常识来确认这种关系。
步骤 B: 远程关系 (不可见连接) 接下来,系统处理更难的问题: 没有接触的事物。这就是感知置信度的远程推理 。
- 系统选取一个未分配的交互元素 (例如,一个墙壁开关) 。
- 它要求 LLM 识别房间内的潜在目标 (例如,吸顶灯、台灯、风扇) 。
- 然后它使用 VLM 来验证视觉线索 (例如,“这盏灯是否插在这个开关附近的插座上?”) 。
- 最后,LLM 为每个可能的连接分配一个置信度分数。如果置信度足够高 (例如,“这是房间里唯一的吸顶灯,所以墙壁开关很可能控制它”) ,则创建该边。
新基准: FunGraph3D 数据集
为了测试他们的方法,研究人员不能依赖现有的数据集——因为根本没有必要的功能标签。所以,他们建立了自己的数据集。
他们推出了 FunGraph3D , 这是一个使用高保真激光扫描仪和照片级真实感相机采集的数据集。

这个数据集的特别之处在于真值 (ground truth) 。研究人员不仅标记了物体;他们还标记了交互图。他们甚至收集了人们实际与场景互动的以自我为中心的视频 (使用 Apple Vision Pro) ——比如拨动开关和开门——以确保真值标签的准确性。
正如下面所见,该数据集涵盖了各种复杂的现实世界环境,从厨房到客厅,所有环境都标有丰富的功能数据。

实验结果
那么,OpenFunGraph 的效果如何呢?研究人员将其与 Open3DSG 和 ConceptGraph 等最先进基线的改进版本进行了比较。
结果是决定性的。OpenFunGraph 在检测交互元素和正确预测功能关系方面都显著优于基线。
- 节点检测: 像 ConceptGraph 这样的基线非常擅长寻找大型家具,但在寻找小旋钮和开关方面却惨败。OpenFunGraph 的渐进式提示策略使其能够召回更多的交互元素。
- 关系预测: 由于标准的场景图侧重于空间边 (邻近性) ,它们很难推断功能。OpenFunGraph 利用 LLM 驱动的常识推理,使其能够以更高的准确率正确连接开关与灯、把手与抽屉。
从定性上看,差异是明显的。在下图中,你可以看到 OpenFunGraph 正确推断出一个特定的开关控制着吸顶灯 (由橙色线指示) ,并区分了不同存储单元的不同把手。

这有什么意义?下游应用
这项研究的最终目标不仅仅是制作漂亮的图表;而是为了让机器人能够行动。研究人员通过两个下游任务展示了这一点: 3D 问答和机器人操作 。
因为功能场景图本质上是一个关于房间如何运作的结构化数据库,LLM 可以查询它来回答复杂的用户问题。
- 用户: “我该怎么开灯?”
- 系统: “你可以使用门边的开关面板。” (系统知道哪个具体的开关连接着灯) 。
此外,该图还可以指导机器人的运动规划。

在上面的演示中,用户给出一个指令: “开灯”。机器人查询功能图,识别连接到吸顶灯的特定开关,导航到其位置,并对其进行操作。如果没有 OpenFunGraph 预测的功能边,机器人可能知道灯在哪里,但它不知道如何开启它。
结论
OpenFunGraph 代表了 3D 场景理解向前迈出的重要一步。通过从纯粹的空间表示转向功能表示,它为 AI 智能体配备了对环境更深刻、更像人类的理解。
该方法通过提炼基础模型中已经存在的常识物理知识,巧妙地绕过了对海量标记数据集的需求。虽然挑战依然存在——例如处理多个开关看起来完全相同的模糊场景——但这项工作为未来奠定了基础,在那样的未来里,机器人不仅占据我们的空间,而且真正懂得如何在其中生活和工作。
](https://deep-paper.org/en/paper/2503.19199/images/cover.png)