AI 真的能打扫你的厨房吗？使用 ActPlan-1K 对 VLM 规划能力进行基准测试

引言

想象一下，你要求一个机器人在客厅里“组装礼品篮”。一个标准的大型语言模型 (LLM) 可能会给你列出一份完美的文字指令: 找到篮子，放入饼干，加上奶酪。但是，如果机器人看向桌子，发现饼干烤焦了怎么办？如果原本用来浇水的水源被切断了怎么办？

这就是具身智能 (Embodied AI) 的前沿领域——从生成文本转向基于代理 (Agent) 所见来生成可执行的规划。虽然 LLM 已经展示了令人难以置信的推理能力，但我们仍在探索视觉语言模型 (VLM) 如何处理复杂、多模态的程序性规划。它们能否将视觉线索与文本目标结合起来？它们能否处理事情出错的“反事实”场景？

在最近的一篇论文中，研究人员推出了 ActPlan-1K , 这是一个旨在回答这些问题的严格基准测试。通过在超过 1,000 个家庭活动实例上测试 GPT-4V、Gemini 和 Claude 等模型，他们发现尽管当前的 AI 令人印象深刻，但在面临压力时，它们仍然难以像人类一样进行规划。

问题: 从文本到现实

目前的研究通常将规划视为纯文本问题，或者专注于非常短、简单的任务。以前的基准测试可能会要求 AI “拿起苹果”，但很少要求它“打扫整个厨房，并考虑到水槽堵塞的情况”。

ActPlan-1K 的作者指出了该领域的两个主要空白:

多模态 (Multi-modality) : 缺乏关于 VLM 在必须同时处理文本指令和视觉环境以创建长期规划时的表现的研究。
反事实规划 (Counterfactual Planning) : 大多数基准测试都假设存在一条一切顺利的“理想路径”。而现实生活中充满了受限情况 (例如，工具损坏、原料缺失) ，我们需要知道 AI 是否能够适应。

通过任务描述和环境图像提示 VLM 生成家庭活动的程序性规划。

如 图 1 所示，目标是获取一个视觉场景 (一个包含特定物体的房间) 和一个任务描述，并输出一个有效的动作序列 (“黄金规划”) 。

解决方案: ActPlan-1K

为了弥补这一差距，研究人员构建了 ActPlan-1K，这是一个使用 iGibson2 家庭模拟器和 ChatGPT 构建的数据集。该基准测试规模庞大，包含 153 种不同的活动和 1,187 个具体实例。

基准测试是如何构建的

ActPlan-1K 的构建是一个多步骤的流程，旨在模拟现实世界的复杂性。

BDDL 定义: 团队从 Behavior-100 数据集中获取符号化的活动定义 (BDDL) 。这些定义规定了任务的逻辑 (例如，“存在礼品篮”且“包含饼干”) 。
模拟与捕捉: 使用 iGibson2，他们加载这些定义以生成 3D 家庭环境。然后，他们为每个实例捕捉 2 到 5 张图像，为 VLM 提供“眼睛”。
自然语言转换: 符号逻辑被转换为自然语言任务描述。
黄金规划: 人类标注员编写了在特定视觉约束下完成任务所需的“正确”动作序列 (黄金规划) 。

ActPlan-1K 数据集收集和评估概览。

图 2 展示了这一工作流程。VLM 接收文本描述 (\(\tau\)) 和来自模拟器的图像，生成预测规划 (\(\mathcal{P}^*\)) ，然后将其与人类标注的黄金规划 (\(\mathcal{P}\)) 进行比较。

VLM 任务的数学公式为:

VLM 输入输出方程

在这里，模型必须综合文本 \(T\) 和图像序列 \(I\) 来生成规划。

转折点: 反事实活动

ActPlan-1K 最具创新性的方面是包含了反事实活动 。在这些场景中，标准程序被特定的约束条件打断。

为了创建这些场景，研究人员提示 ChatGPT 对标准家庭任务的“意外情况”进行头脑风暴。然后，人类标注员选择那些可以在模拟器中直观表现出来的最合理的情况。

正常活动和反事实活动的示例。

图 3 展示了一个清晰的例子。

正常活动: 组装礼品篮。规划包括抓取饼干并将其放入篮子中。
反事实活动: 其中两块饼干是烤焦的。规划完全改变了——代理必须识别出视觉属性 (烤焦) ，并决定不将这些饼干放入篮子中。

反事实的类型

研究人员将这些“棘手情况”分为三类:

物体属性: 物体的物理状态改变了规划 (例如上面的烤焦饼干) 。
物体功能: 物体必须以不同于通常的方式使用。
事件因果关系: 一个意外事件需要额外的步骤 (例如，在摆放桌子之前需要先清理溢出物) 。

关于浇花任务的正常活动和反事实活动示例。

另一个例子如 图 8 所示。在正常场景中，你使用水槽给植物浇水。在反事实场景中，供水被切断，因此代理必须意识到它需要使用在台面上找到的瓶装水。

这些棘手场景的分布相当均衡，确保了 AI 在各种类型的推理上都受到测试。

反事实活动的分布。

评估方法

我们如何知道 AI 的规划是否优秀？研究人员结合使用了人工指标和自动指标。

人工评估

由于这些规划很复杂，人类的判断是黄金标准。标注员寻找:

正确性 (Correctness) : 规划是否真正实现了最终目标？
常识满足度 (Commonsense Satisfaction) : 每一步是否合乎逻辑？ (例如，你不能在打开冰箱门之前把牛奶放进去) 。

自动评估

为了扩展评估规模，团队还使用了自动指标:

LCS (最长公共子序列) : 衡量 AI 规划中有多少步骤与黄金规划的顺序相匹配。
学习指标 (BLEURT) : 他们微调了一个 BLEURT 模型来预测规划的正确性。

BLEURT 模型处理句子对 (生成的步骤和黄金步骤) 以确定语义等价性。该过程包括生成分类向量:

BLEURT 向量方程

并预测标签 (正确/不正确) :

预测方程

通过标准损失函数进行优化:

损失函数方程

这使得研究人员能够创建一个与人类判断相关性良好的稳健的自动评分器。

实验与关键结果

研究人员测试了三个最先进的 VLM: Claude-3、Gemini-Pro-1.5 和 GPT-4V 。结果显示，家庭规划问题远未解决。

1. 整体表现较低

即使是最好的模型也表现挣扎。 Gemini-Pro-1.5 取得了最高分，但这个“高”是相对的。它在反事实活动上的正确率约为 41.7% 。这意味着超过一半的时间，AI 未能生成成功完成任务的规划。

2. 反事实更难

不出所料，模型在“正常”活动上的表现明显优于反事实活动。这突显了当前 AI 的一个关键弱点: 它严重依赖记忆的模式 (脚本) ，而在必须对异常情况进行推理时则举步维艰。

3. “长度悬崖”

最能说明问题的发现之一是，随着任务变长，性能如何下降。

正确率 (%) 随规划序列长度的变化。

如 图 5 所示，随着规划步骤数量的增加，性能呈断崖式下跌。对于短规划 (0-10 步) ，像 GPT-4V 和 Gemini 这样的模型表现尚可 (约 60%) 。但对于长规划 (超过 40 步) ，正确率几乎降至零。当序列太长时，模型只是丢失了叙述的线索或产生了步骤幻觉。

4. 图像很重要

研究人员进行了一项消融实验，移除了图像，仅给模型提供文本。性能显著下降。没有视觉上下文，模型无法验证哪些物体存在或它们的状态 (例如，开与关) ，从而导致幻觉。

错误分析: 它们为什么会失败？

为了理解模型为什么失败，研究人员将错误分为六类。

VLM 在六种错误类型上的错误分布 (%)。

图 6 对此进行了细分:

缺失动作 (Missing Actions) : 这是最常见的错误。AI 会跳过必要的逻辑步骤 (例如，试图在不打开水龙头的情况下洗碗) 。
事件起因/结果错误 (Mistake of Event Cause/Result) : 误解了因果流程。
幻觉 (Hallucination) : 尤其是 GPT-4V，倾向于发明图像中不存在的工具 (例如，使用吸尘器，尽管图像里没有) 。
错误的图像理解 (Incorrect Image Understanding) : Gemini-Pro 在正确解释视觉细节方面最吃力，例如盘子的数量或物体之间的距离。

表 8 提供了这些错误的具体例子。例如，在“打包食物”任务中，模型可能无法根据视觉输入区分不同的香料 (香葱与辣椒) ，导致规划失败。

错误示例表。

结论与未来启示

ActPlan-1K 给具身智能社区敲响了警钟。虽然 VLM 功能强大，但它们还没准备好成为自主的家庭管理者。该基准测试强调了两个亟待改进的关键领域:

长程一致性: 模型需要更好的记忆或推理结构来处理需要 30、40 或 50 多个步骤的任务，而不丢失目标。
稳健的视觉落地: 模型必须更善于根据图像“验证”其规划。它们需要看到饼干烤焦了并立即调整规划，而不是遵循预先训练好的脚本。

通过提供一种标准化的方法来测试这些能力——特别是包含困难的“反事实”场景——ActPlan-1K 为下一代更可靠、更具适应性和更有帮助的 AI 代理铺平了道路。

引言#

问题: 从文本到现实#

解决方案: ActPlan-1K#

基准测试是如何构建的#

转折点: 反事实活动#

反事实的类型#

评估方法#

人工评估#

自动评估#

实验与关键结果#

1. 整体表现较低#

2. 反事实更难#

3. “长度悬崖”#

4. 图像很重要#

错误分析: 它们为什么会失败？#

结论与未来启示#

引言