想象一下,你正在设计一个搜救机器人。你把它派进一栋倒塌的建筑物,然后问它: “那块混凝土板后面有人吗?”

如果机器人通过摄像头扫描了该区域,看到没有人才回答“没有”,那是成功的。但如果机器人回答“没有”,仅仅是因为它的训练数据表明,从统计学上看,人们很少被发现躲在混凝土板后面呢?后者是一场等待发生的灾难。这个机器人并没有在看,它只是根据先验知识在猜测。

这就是如今具身问答 (Embodied Question Answering, EQA) 面临的核心问题。大语言模型 (LLM) 已经变得非常擅长预测可能的答案,以至于它们可以在不感知环境的情况下,在基准测试中获得高分。它们是伪装成有视力的“盲”模型。

在这篇文章中,我们将深入探讨里士满大学 (University of Richmond) 的一篇引人入胜的论文,题为 《基于感知,还是瞎猜高手?》 (Grounded, or a Good Guesser?) 。 研究人员提出了一种巧妙的新数据集方法,称为逐问题平衡 (Per-Question Balancing, PQB) 。 通过强制每个问题在两个不同的环境中拥有两个相反的答案,他们在数学上确保了盲机器人无法表现得比抛硬币更好。

问题所在: “盲”基线

要理解这项创新,我们首先需要定义任务。 具身问答 (EQA) 要求智能体:

  1. 理解自然语言问题 (例如,“房子里有蜘蛛网吗?”) 。
  2. 感知环境 (使用视觉) 。
  3. 行动 (导航、转身、环顾四周) 以寻找信息。

理想情况下,智能体应该结合这三者。然而,研究人员注意到了一个令人不安的趋势: “盲”模型——即没有看到任何图像的纯文本系统——在 EQA 基准测试中表现得惊人地好。

这怎么可能呢?答案是有偏差的数据集

如果一个数据集包含 100 个关于厨房的问题,其中 90 个是问关于炉灶的,且答案几乎总是“是”,那么模型就会学会只要看到“厨房”这个词就说“是”。它不需要眼睛,只需要统计学。这种现象使得模型能够基于语言模式产生听起来合理的幻觉答案,而不是将答案建立在现实之上。

解决方案: 逐问题平衡

以前解决这个问题的方法涉及平衡整个数据集。例如,确保总共有 500 个“是”的答案和 500 个“否”的答案。

但研究人员认为这还不够。想象一个数据集,其中关于狗的问题答案总是“是”,而关于猫的问题答案总是“否”。虽然数据集整体是平衡的 (50/50) ,但模型仍然只需要阅读文本 (“狗”或“猫”) 就能猜出答案。它仍然不需要看图像。

该论文介绍了 PQB-EQA (逐问题平衡 EQA) 。 规则简单但严格:

每一个具体问题必须在数据集中出现两次,分别搭配两个产生不同答案的不同环境。

如果数据集包含问题“有一朵蓝色的花吗?”,那么必须有:

  1. 环境 A: 包含一朵蓝色的花。 (正确答案: 是)
  2. 环境 B: 不包含蓝色的花。 (正确答案: 否)

智能体转身走进房子寻找蜘蛛网,然后确定没有蜘蛛网。

如上图 Figure 1 所示,智能体可能在两种不同的场景下面对一所房子。在一个场景中,有蜘蛛网;在另一个场景中,没有。因为问题完全相同,盲模型 (只看文本) 被迫进行猜测。如果它猜“是”,它有一半的几率会错。如果它猜“否”,它也有一半的几率会错。

从数学上讲,这迫使任何盲模型的表现降至随机概率。得分更高的唯一方法是观察环境。

构建基准: Minecraft 作为测试平台

为了创建这个数据集,作者需要一个足够灵活的模拟引擎,以生成同一环境的细微变体 (例如,放置或移除特定物品) 。他们选择了 Minecraft

Minecraft 提供了多样的生物群系 (沙漠、森林、洞穴) 、数千种物品,以及允许精确控制环境的 Mod 能力 (WorldEdit) 。它在视觉复杂性和通过编程操纵世界的能力之间取得了平衡。

人工策划的问题

为了确保问题自然且具挑战性,研究人员并没有完全自动生成它们。他们招募了人类玩家在 Minecraft 中玩合作游戏,并记录他们的对话以提取真实的问题。

游戏 1: 你能做到吗? (Can-you-do-it?) 在这个游戏中,“提问者”有一个秘密任务 (比如“把羊染成橙色”) ,但看不到世界。“智能体”可以看到世界,但不知道任务。他们必须通过交谈来解决问题。

Can-you-do-it 游戏的截图。提问者知道任务是“把羊染成橙色”,但智能体不知道。

Figure 2 所示,玩家必须进行协调。提问者会问“你看到任何动物了吗?”或“有红色和黄色的花吗?” (用来制作橙色染料) 。这产生了自然需要探索才能回答的问题。

游戏 2: 找茬 (Spot-the-difference) 在这里,两名玩家被放置在几乎相同的环境中,必须通过提问来找出不同之处。

找茬游戏中的两个环境示例。如果团队指出一个环境有干草车而另一个没有,或者只有一个环境的建筑物上有蜘蛛网,他们就会得分;但如果他们说环境是不同的生物群系,就会扣分。

Figure 3 展示了这些差异是多么细微。也许一个神庙有干草车,而另一个没有。这种设置非常适合 PQB,因为它自然地生成了一个问题 (“有干草车吗?”) ,该问题对玩家 A 的答案是“是”,对玩家 B 的答案是“否”。

找茬游戏的聊天界面。

玩家通过自定义聊天界面进行互动( Figure 4 ),使研究人员能够捕捉到用于区分世界的具体询问。

试金石测试: 盲模型 vs. 具身模型

一旦数据集构建完成 (424 组“问题-环境-答案”元组) ,作者进行了终极测试。他们比较了两个最先进的模型:

  1. 盲 GPT-4o: 仅提供问题和多项选择答案。
  2. 具身 GPT-4o: 提供问题以及来自环境的一系列图像 (截图) ,显示相关信息。

如果数据集按预期工作,盲模型应该惨败,而具身模型应该成功。

结果

结果是决定性的。

表 1: 两个模型的准确率和 p 值。盲模型并没有显著优于随机猜测,而具身模型则做到了。

Table 1 所示,盲 GPT-4o 模型的准确率仅为 50.7% 。 由于这些是二元或多项选择题,实际上被平衡为 50/50,这个分数在统计学上与随机猜测无法区分 (\(p = 0.8082\)) 。

相比之下,具身 GPT-4o 模型 (配备视觉) 达到了 82.7% 的准确率。这一巨大差距证实了问题是可以回答的,但前提是你必须去看。

与先前基准的比较

当我们将其与之前的 EQA 基准进行比较时,这一结果的重要性就变得清晰了。在旧的数据集中,盲模型和具身模型之间的差距往往微不足道。

表 2: 在先前的基准测试和 PQB-EQA 上,有无视觉的模型之间的得分差异报告。

Table 2 强调了这种差异。在 EQA v1 基准中,增加视觉仅将性能提高了 1.8%。在 A-EQA 中,提高了 6.3%。这意味着在那些旧的基准测试中,90% 以上的性能来自于仅凭文本进行的猜测。

PQB-EQA 中,差距达到了 32.0% 。 这是一个巨大的转变。它表明该基准测试成功地隔离了“感知”这一变量。

跨问题类型的一致性

研究人员进一步细分了数据,以确保这不仅仅适用于简单的“是/否”问题。

表 3: 各模型在是/否问题和其他类型问题上的结果。在两类问题上,具有视觉的模型都大幅领先于盲模型。

Table 3 证实了这一趋势依然存在。无论问题是二元的 (是/否) 还是需要具体细节 (“其他”) ,盲模型的准确率都在 50% 左右徘徊,而具身模型则表现出色。

行动的作用

论文中最后一点重要的是行动的必要性。研究人员分析了人类的游戏日志,发现人类平均采取 278 次行动 (移动、转身、跳跃) 才能找到问题的答案。

这强调了 EQA 不仅仅是看一张静态图片 (像视觉问答 VQA 那样) 。它是关于导航的。要回答“房子后面是什么?”,你不能只盯着前门看;你必须绕过去。这个数据集提供了一个试验场,智能体必须在其中学会智能地探索。

结论

这篇题为《基于感知,还是瞎猜高手?》的论文揭示了我们在评估具身智能方式上的一个致命弱点。长期以来,我们允许语言模型依赖统计学拐杖,在没有真正理解物理世界的情况下虚高分数。

通过引入逐问题平衡 (Per-Question Balancing) , 作者创建了一个基准,使得通过文本先验进行“作弊”在数学上成为不可能。PQB-EQA 数据集设定了严谨性的新标准。它确保当机器人告诉我们废墟后面没有幸存者,或者角落里没有蜘蛛网时,它这么说是因为它看见了——而不是因为它猜的。