引言
当你注视一个咖啡杯时,你不仅仅看到一个带有弯曲突起的圆柱体;你会直觉地看到一个可以握住的手柄。当你看到一个抽屉时,你会看到一个用来拉开的旋钮。在心理学和机器人学中,这个概念被称为可供性 (Affordance) ——即定义了智能体如何与物体交互的、物体的可操作属性。
对人类来说,识别可供性是毫不费力的。对机器人来说,这是一个巨大的挑战。虽然视觉语言模型 (VLM) 的最新进展赋予了机器描述场景和回答问题的能力,但在高层语义理解 (“那是一个杯子”) 和底层机器人控制 (“在这些坐标处抓取手柄”) 之间架起桥梁仍然是一个瓶颈。
机器人需要的不仅仅是边界框;它们需要 3D 空间中具体的、可操作的点。它们需要确切地知道在哪里接触以及如何交互,无论物体是熟悉的还是全新的。
这就引出了 GLOVER++ , 这是一个旨在弥合人类演示与机器人操作之间鸿沟的全新研究框架。在这篇文章中,我们将剖析 GLOVER++ 论文,探索它如何利用海量新数据集( HOVA-500K )和新颖的全局到局部 (global-to-local) 解码架构,在可供性推理方面取得最先进的结果。

如图 1 所示,GLOVER++ 旨在观察人类行为 (如打开抽屉) ,并将这种“可操作知识”迁移给机器人,使其能够在从仿真到真实世界的各种环境中操作物体。
数据难题: HOVA-500K 简介
在深入探讨模型架构之前,我们必须先解决驱动它的燃料: 数据。
研究人员指出了现有机器人数据集的一个关键缺陷。以前的数据集要么太小,要么缺乏多样性,或者提供的标注过于模糊 (如大型分割掩码) ,而不是精确的交互点。为了解决这个问题,他们推出了 HOVA-500K , 这是一个大规模的可供性标注数据集。
为什么 HOVA-500K 很重要
HOVA-500K 代表人-物视觉可供性 (Human-Object Visual Affordance) 。与前作相比,其规模令人印象深刻:
- 500,000 张图像
- 1,726 个物体类别
- 675 个动作类别
但规模并不是唯一的贡献。该数据集标志着从识别“区域”到识别“点”的转变。在机器人操作中,知道手柄的大致区域是不够的;末端执行器需要一个精确的坐标来执行抓取。

如图 3 所示,数据集提供了以精确交互点为中心的热力图 (高斯分布) 。无论是拧水龙头、拉门还是端碗,标注都高亮了交互发生的具体位置。
它是如何收集的?
手动标注五十万个交互点不仅极其昂贵,而且速度缓慢。研究人员开发了一套巧妙的半自动流程,从人类演示视频 (如 Ego4D 和 EPIC-KITCHEN) 中挖掘这些数据。
人类视频面临的挑战是遮挡: 当人类抓住杯子时,他们的手会遮住我们希望机器人看到的那个可供性点。为了解决这个问题,团队使用了一种基于单应性 (Homography) 的方法。

图 8 展示了该过程:
- 接触帧检测: 识别人类接触物体的时刻。
- 皮肤分割: 找到手和物体。
- 反向投影: 系统查看手尚未遮挡物体的先前帧 (观察帧) 。通过计算单应性 (帧之间的几何变换) ,它将接触点从交互帧投影回物体的无遮挡视图上。
这使得数据集能够包含清晰的物体图像,并带有关于人类将在何处触摸它的精确标注。
方法: 深入 GLOVER++
拥有了海量数据,研究人员需要一个能有效利用它的架构。GLOVER++ 的核心创新在于其全局到局部 (Global-to-Local) 可供性微调策略。
规模与精度的挑战
标准 VLM 擅长全局语义——理解整个场景。然而,它们通常在细粒度定位方面表现挣扎。如果你要求标准模型“找到手柄”,它可能会高亮整个抽屉或被背景噪声混淆。相反,仅在局部几何结构上训练的模型可能会丢失关于要打开哪个抽屉的语义上下文。
GLOVER++ 通过分两个阶段处理视觉信息来解决这个问题。

第一步: 多模态编码
该系统接收 RGB 图像和语言指令 (例如,“打开最上面的抽屉”) 。这些被输入到一个视觉语言模型 (VLM) ——具体来说是 LLaVA-1.5。模型引入了一个特殊的 token <AFF> (可供性 Token) ,它将视觉和语言特征聚合为一个隐藏的潜在表示。
第二步: 全局解码
<AFF> token 被传递给一个全局解码器 。 该解码器充当高级语义过滤器。它查看整个图像并识别与指令相关的概略区域。
这一阶段的输出是一个语义 Logits 图 (\(\mathcal{M}_{sem}^{2D}\)) 。虽然这张图捕捉到了正确的物体,但它通常包含“背景噪声”——那些语义相似但不可操作的区域。
第三步: 局部解码
这正是 GLOVER++ 的亮点所在。来自全局解码器的语义图被用作第二个局部解码器的掩码提示 (mask prompt) 。 该解码器细化预测,专注于局部几何细节以精确定位可供性区域。
\[ \mathcal { M } _ { A } ^ { 2 D } = { \mathbf { F } } _ { d e c } ^ { l o c } ( \mathcal { M } _ { s e m } ^ { 2 D } , v ) \]通过级联这些解码器,模型过滤掉了噪声。全局解码器说: “看顶部的抽屉”,而局部解码器说: “具体来说,抓这个手柄。”

图 4 清楚地展示了这种效果。看“Pick up saw (拿起锯子) ”的例子 (左图) 。全局解码器 (中间列) 高亮了锯子,但也拾取了一些背景噪声。局部解码器 (右列) 清理了这些噪声,紧紧聚焦在应该发生抓取的手柄上。
训练目标
为了训练该系统,研究人员结合使用了 Focal Loss (用于处理微小可供性点与图像其余部分之间的类别不平衡) 和 Kullback-Leibler 散度 (KLD) 损失。
\[ \mathcal { L } = \mathcal { L } _ { F L } ( \mathcal { M } _ { A } ^ { 2 D } , \mathcal { M } _ { g t } ^ { 2 D } ) + \mathcal { L } _ { K L } ( \mathcal { M } _ { A } ^ { 2 D } , \mathcal { M } _ { g t } ^ { 2 D } ) \]KLD 损失尤为重要,因为它强制预测的概率分布与真实值的高斯分布相匹配。这确保了模型预测出一个连贯的“热点”,而不是分散的像素。
实验与结果
研究人员在多个领域评估了 GLOVER++,将其与专业的可供性模型和通用的 VLM (如 Qwen-2.5-VL) 进行了比较。
视觉语言可供性推理
在 HOVA-500K 基准测试中,GLOVER++ 取得了最先进的结果。但表格上的数字是一回事;定性结果更能说明问题。
当与 Qwen-2.5-VL (一个强大的 70 亿参数模型) 相比时,GLOVER++ 展现了更优越的物理落地能力。

在图 6 中,看“Pick up the left mug (拿起左边的杯子) ”这个任务。两个模型都识别出了杯子。然而,GLOVER++ (底行) 识别出了手柄上的抓取点,而 Qwen-2.5-VL (顶行) 则更宽泛地作用于物体主体,这可能导致抓取失败。同样的情况也适用于“Use plug (使用插头) ”——GLOVER++ 瞄准了按钮/接口,而基准模型则不够精确。
零样本操作
对机器人模型最稳健的测试之一是零样本操作 (Zero-Shot Manipulation) ——处理它从未见过的物体。
研究人员在仿真环境 (IsaacGym) 和真实世界中对此进行了测试。在使用 UFactory xArm 的真实世界测试中,GLOVER++ 取得了 73.3% 的平均成功率 , 显著优于基于检索的基准模型 RAM (46.7%) 。
这种成功源于 GLOVER++ 的“开放词汇”特性。因为它建立在 VLM (LLaVA) 之上,它理解“左”、“上”、“红色”等语言概念,并能将这种理解应用于在无需重新训练的情况下发现新物体的可供性。
模仿学习
可供性预测不仅仅是简单的抓取;它还可以加速复杂技能的学习。研究人员将 GLOVER++ 集成到了模仿学习流程中 (使用 RLBench) 。

如图 14 所示,他们不仅仅将原始像素输入机器人的策略网络,而是使用 GLOVER++ 生成的可供性图作为注意力先验 (attention prior) 。 这实际上是在告诉机器人: “注意图像的这个部分。”
结果显而易见。在需要高精度的任务中——如“插入钉子”或“堆叠杯子”——加入可供性先验显著提高了成功率 (相比于标准基准 RVT) 。
扩展能力: 长程与双手任务
该论文探索了两个令人兴奋的扩展方向,展示了 GLOVER++ 的多功能性。
1. 结合 VLM 的长程规划
GLOVER++ 是一个感知模块;它寻找点。它不是规划器。然而,它可以与像 Qwen-2.5-VL 这样的“大脑”配对,以执行多步骤任务。

在图 7 左侧,用户要求“把罐子放进最上面的抽屉”。
- 规划器 (VLM): 分解任务: “打开顶层抽屉” -> “拿起罐子” -> “放入抽屉”。
- 感知 (GLOVER++):
- 找到顶层抽屉的手柄。
- 找到罐子上的抓取点。
- 找到抽屉内的放置点。
这种模块化方法允许机器人通过不断将规划器的指令落地到物理坐标来执行复杂的动作链。
2. 双手 (Bimanual) 操作
由于 GLOVER++ 理解空间语言,它可以同时对左和右进行推理。
在图 7 右侧 (并在 Unitree G1 人形机器人上演示) ,该模型成功识别了双手的可供性——左手保持柜子打开,同时右手操作里面的物体。

图 19 展示了用于人形机器人的运动规划。从单张图像预测两个截然不同、具有空间感知的可供性点的能力,是向类人灵巧性迈出的重要一步。
局限性与未来方向
没有系统是完美的,作者对 GLOVER++ 的局限性也很坦诚。
1. 静态与动态: HOVA-500K 建立在静态图像之上。虽然它捕捉到了“接触瞬间”,但它没有捕捉到交互的轨迹或力学动态。
2. 2D 到 3D 的模糊性: 模型在 2D 图像中预测可供性,然后使用深度相机将其投影到 3D 中。这通常很有效,但在杂乱的场景或有重叠物体时可能会失败。

图 20 突出了失败案例。在 (a) 中,视点过远使得物体太小,无法进行精确的可供性预测。在 (b) 中,重叠的物体在概率图中产生了“背景噪声”,混淆了系统。
3. 执行失败: 即使视觉完美,机器人也可能失败。图 21 (论文附录中) 展示了由于自碰撞或深度传感器不准确 (z 轴误差) 导致抓取失败的例子,提醒我们感知只是机器人技术的一半挑战。
结论
GLOVER++ 代表了机器人感知领域的一次重大飞跃。通过从通用的物体检测转向可操作的可供性检测 , 它赋予了机器人对环境更类人的理解。
贡献主要有两点:
- HOVA-500K: 一个海量的、高质量的数据集,很可能成为未来可供性研究的基准。
- GLOVER++ 框架: 一个智能的、全局到局部的架构,平衡了语义理解与几何精度。
随着机器人走出工厂进入我们的家庭,理解“打开这个抽屉”或“抓住那个杯子的手柄”的能力将是不可或缺的。GLOVER++ 之类的工作为这个未来铺平了道路。
](https://deep-paper.org/en/paper/2505.11865/images/cover.png)