当大语言模型作弊时：为何具身智能需要逐问题平衡（Per-Question Balancing）

想象一下，你正在设计一个搜救机器人。你把它派进一栋倒塌的建筑物，然后问它: “那块混凝土板后面有人吗？”

如果机器人通过摄像头扫描了该区域，看到没有人才回答“没有”，那是成功的。但如果机器人回答“没有”，仅仅是因为它的训练数据表明，从统计学上看，人们很少被发现躲在混凝土板后面呢？后者是一场等待发生的灾难。这个机器人并没有在看，它只是根据先验知识在猜测。

这就是如今具身问答 (Embodied Question Answering, EQA) 面临的核心问题。大语言模型 (LLM) 已经变得非常擅长预测可能的答案，以至于它们可以在不感知环境的情况下，在基准测试中获得高分。它们是伪装成有视力的“盲”模型。

在这篇文章中，我们将深入探讨里士满大学 (University of Richmond) 的一篇引人入胜的论文，题为 《基于感知，还是瞎猜高手？》 (Grounded, or a Good Guesser?) 。研究人员提出了一种巧妙的新数据集方法，称为逐问题平衡 (Per-Question Balancing, PQB) 。通过强制每个问题在两个不同的环境中拥有两个相反的答案，他们在数学上确保了盲机器人无法表现得比抛硬币更好。

问题所在: “盲”基线

要理解这项创新，我们首先需要定义任务。 具身问答 (EQA) 要求智能体:

理解自然语言问题 (例如，“房子里有蜘蛛网吗？”) 。
感知环境 (使用视觉) 。
行动 (导航、转身、环顾四周) 以寻找信息。

理想情况下，智能体应该结合这三者。然而，研究人员注意到了一个令人不安的趋势: “盲”模型——即没有看到任何图像的纯文本系统——在 EQA 基准测试中表现得惊人地好。

这怎么可能呢？答案是有偏差的数据集 。

如果一个数据集包含 100 个关于厨房的问题，其中 90 个是问关于炉灶的，且答案几乎总是“是”，那么模型就会学会只要看到“厨房”这个词就说“是”。它不需要眼睛，只需要统计学。这种现象使得模型能够基于语言模式产生听起来合理的幻觉答案，而不是将答案建立在现实之上。

解决方案: 逐问题平衡

以前解决这个问题的方法涉及平衡整个数据集。例如，确保总共有 500 个“是”的答案和 500 个“否”的答案。

但研究人员认为这还不够。想象一个数据集，其中关于狗的问题答案总是“是”，而关于猫的问题答案总是“否”。虽然数据集整体是平衡的 (50/50) ，但模型仍然只需要阅读文本 (“狗”或“猫”) 就能猜出答案。它仍然不需要看图像。

该论文介绍了 PQB-EQA (逐问题平衡 EQA) 。规则简单但严格:

每一个具体问题必须在数据集中出现两次，分别搭配两个产生不同答案的不同环境。

如果数据集包含问题“有一朵蓝色的花吗？”，那么必须有:

环境 A: 包含一朵蓝色的花。 (正确答案: 是)
环境 B: 不包含蓝色的花。 (正确答案: 否)

智能体转身走进房子寻找蜘蛛网，然后确定没有蜘蛛网。

如上图 Figure 1 所示，智能体可能在两种不同的场景下面对一所房子。在一个场景中，有蜘蛛网；在另一个场景中，没有。因为问题完全相同，盲模型 (只看文本) 被迫进行猜测。如果它猜“是”，它有一半的几率会错。如果它猜“否”，它也有一半的几率会错。

从数学上讲，这迫使任何盲模型的表现降至随机概率。得分更高的唯一方法是观察环境。

构建基准: Minecraft 作为测试平台

为了创建这个数据集，作者需要一个足够灵活的模拟引擎，以生成同一环境的细微变体 (例如，放置或移除特定物品) 。他们选择了 Minecraft 。

Minecraft 提供了多样的生物群系 (沙漠、森林、洞穴) 、数千种物品，以及允许精确控制环境的 Mod 能力 (WorldEdit) 。它在视觉复杂性和通过编程操纵世界的能力之间取得了平衡。

人工策划的问题

为了确保问题自然且具挑战性，研究人员并没有完全自动生成它们。他们招募了人类玩家在 Minecraft 中玩合作游戏，并记录他们的对话以提取真实的问题。

游戏 1: 你能做到吗？ (Can-you-do-it?) 在这个游戏中，“提问者”有一个秘密任务 (比如“把羊染成橙色”) ，但看不到世界。“智能体”可以看到世界，但不知道任务。他们必须通过交谈来解决问题。

Can-you-do-it 游戏的截图。提问者知道任务是“把羊染成橙色”，但智能体不知道。

如 Figure 2 所示，玩家必须进行协调。提问者会问“你看到任何动物了吗？”或“有红色和黄色的花吗？” (用来制作橙色染料) 。这产生了自然需要探索才能回答的问题。

游戏 2: 找茬 (Spot-the-difference) 在这里，两名玩家被放置在几乎相同的环境中，必须通过提问来找出不同之处。

找茬游戏中的两个环境示例。如果团队指出一个环境有干草车而另一个没有，或者只有一个环境的建筑物上有蜘蛛网，他们就会得分；但如果他们说环境是不同的生物群系，就会扣分。

Figure 3 展示了这些差异是多么细微。也许一个神庙有干草车，而另一个没有。这种设置非常适合 PQB，因为它自然地生成了一个问题 (“有干草车吗？”) ，该问题对玩家 A 的答案是“是”，对玩家 B 的答案是“否”。

找茬游戏的聊天界面。

玩家通过自定义聊天界面进行互动( Figure 4 )，使研究人员能够捕捉到用于区分世界的具体询问。

试金石测试: 盲模型 vs. 具身模型

一旦数据集构建完成 (424 组“问题-环境-答案”元组) ，作者进行了终极测试。他们比较了两个最先进的模型:

盲 GPT-4o: 仅提供问题和多项选择答案。
具身 GPT-4o: 提供问题以及来自环境的一系列图像 (截图) ，显示相关信息。

如果数据集按预期工作，盲模型应该惨败，而具身模型应该成功。

结果

结果是决定性的。

表 1: 两个模型的准确率和 p 值。盲模型并没有显著优于随机猜测，而具身模型则做到了。

如 Table 1 所示，盲 GPT-4o 模型的准确率仅为 50.7% 。由于这些是二元或多项选择题，实际上被平衡为 50/50，这个分数在统计学上与随机猜测无法区分 (\(p = 0.8082\)) 。

相比之下，具身 GPT-4o 模型 (配备视觉) 达到了 82.7% 的准确率。这一巨大差距证实了问题是可以回答的，但前提是你必须去看。

与先前基准的比较

当我们将其与之前的 EQA 基准进行比较时，这一结果的重要性就变得清晰了。在旧的数据集中，盲模型和具身模型之间的差距往往微不足道。

表 2: 在先前的基准测试和 PQB-EQA 上，有无视觉的模型之间的得分差异报告。

Table 2 强调了这种差异。在 EQA v1 基准中，增加视觉仅将性能提高了 1.8%。在 A-EQA 中，提高了 6.3%。这意味着在那些旧的基准测试中，90% 以上的性能来自于仅凭文本进行的猜测。

在 PQB-EQA 中，差距达到了 32.0% 。这是一个巨大的转变。它表明该基准测试成功地隔离了“感知”这一变量。

跨问题类型的一致性

研究人员进一步细分了数据，以确保这不仅仅适用于简单的“是/否”问题。

表 3: 各模型在是/否问题和其他类型问题上的结果。在两类问题上，具有视觉的模型都大幅领先于盲模型。

Table 3 证实了这一趋势依然存在。无论问题是二元的 (是/否) 还是需要具体细节 (“其他”) ，盲模型的准确率都在 50% 左右徘徊，而具身模型则表现出色。

行动的作用

论文中最后一点重要的是行动的必要性。研究人员分析了人类的游戏日志，发现人类平均采取 278 次行动 (移动、转身、跳跃) 才能找到问题的答案。

这强调了 EQA 不仅仅是看一张静态图片 (像视觉问答 VQA 那样) 。它是关于导航的。要回答“房子后面是什么？”，你不能只盯着前门看；你必须绕过去。这个数据集提供了一个试验场，智能体必须在其中学会智能地探索。

结论

这篇题为《基于感知，还是瞎猜高手？》的论文揭示了我们在评估具身智能方式上的一个致命弱点。长期以来，我们允许语言模型依赖统计学拐杖，在没有真正理解物理世界的情况下虚高分数。

通过引入逐问题平衡 (Per-Question Balancing) , 作者创建了一个基准，使得通过文本先验进行“作弊”在数学上成为不可能。PQB-EQA 数据集设定了严谨性的新标准。它确保当机器人告诉我们废墟后面没有幸存者，或者角落里没有蜘蛛网时，它这么说是因为它看见了——而不是因为它猜的。

问题所在: “盲”基线#

解决方案: 逐问题平衡#

构建基准: Minecraft 作为测试平台#

人工策划的问题#

试金石测试: 盲模型 vs. 具身模型#

结果#

与先前基准的比较#

跨问题类型的一致性#

行动的作用#

结论#