引言

想象一下你刚拆开一个全新高科技电饭煲的包装。它有十几个按钮、一个数字显示屏，而且设计得一点也不直观。作为人类，你可能会拿起用户手册，翻到“煮糙米”那一节，然后弄清楚该按什么顺序操作按钮。

现在，想象一下你想让你家里的机器人助手来做这件事。对于机器人来说，这是一个噩梦般的场景。与锤子或杯子不同，家电是一个“状态机”——它具有隐藏的内部模式、逻辑约束 (盖子开着就不能开始煮饭) 以及复杂的输入方式。历史上，机器人专家不得不为特定设备硬编码这些交互。但是，如果机器人能像我们一样，仅仅通过阅读说明书就能弄明白呢？

在一篇引人入胜的新论文中，研究人员介绍了 ApBot , 这是一个能够让机器人以零样本 (zero-shot) 方式操作新颖、复杂家用电器的框架。通过利用大型视觉语言模型 (LVLM) 来解读手册并构建设备的结构化符号模型，ApBot 架起了非结构化文本与精确物理动作之间的桥梁。

ApBot 使机器人能够利用说明书以零样本方式操作各种新颖、复杂的家用电器。它将开放式指令转换为落地的多步动作。

挑战: 为什么不直接问 GPT-4？

随着 GPT-4o 或 Claude 等强大的多模态模型的兴起，人们可能会认为我们可以直接给机器人看微波炉的照片，把说明书喂给它，然后说: “把它热一下。”

然而，现有的视觉语言模型 (VLM) 很难做到这一点，原因有几个:

非结构化信息: 说明书很乱。它们包含图表、警告以及混合了各种信息的长段落。
复杂的状态转换: 家电是不可原谅的 (容错率低) 。如果你按了三次“菜单”而不是四次，你可能会进入“煮粥”模式而不是“煮饭”模式。通用的 VLM 通常缺乏长时间跨度的推理能力来准确跟踪这些随时间变化的内部状态。
视觉定位 (Visual Grounding) : 知道你需要按“开始”是一回事，但在杂乱的面板上找到“开始”按钮的确切像素坐标是另一回事，尤其是在光线不好或文字很小的情况下。

研究人员发现，仅仅依靠 LVLM 作为直接策略 (输入图像+文本并询问下一步动作) 会导致很高的失败率，尤其是随着家电变得越来越复杂。

ApBot 的解决方案: 结构是关键

ApBot 的解决之道在于，不把说明书仅仅视为上下文文本，而是将其视为构建结构化家电模型的蓝图。ApBot 不是猜测下一个 token，而是实际上编写了一个代表家电逻辑的小型计算机程序。

如下图系统概览所示，该过程从原始说明书转向符号表示，最后进入带有闭环反馈的物理执行。

ApBot 概览。从手册构建的结构化模型可以生成操作新颖家电的动作。它可以在闭环执行过程中根据观察到的反馈进行校准。

该框架分四个不同阶段运行:

1. 构建符号模型

首先，ApBot 使用 LVLM 阅读说明书并提取家电的形式化定义，记为 \(\overline{\mathcal{M}}\)。这不仅仅是一个摘要；它是一个数学结构元组 \(\langle \overline{S}, \overline{A}, \overline{\mathcal{T}}, \overline{S}_g \rangle\)，包含:

状态空间 (\(\overline{S}\)): 机器拥有的变量列表 (例如 power: [on, off], temperature: [150, 160, ... 200]) 。
动作空间 (\(\overline{A}\)): 物理上可以做什么 (例如 press_button_menu, turn_dial_clockwise) 。
转换规则 (\(\overline{\mathcal{T}}\)): 因果逻辑。例如，“如果 mode 是 ‘Settings’ (设置) ，按 ‘Up’ (向上) 会增加 brightness (亮度) 。”
宏动作 (Macro Actions) : 系统识别说明书中描述的高级任务 (例如“解冻”) ，并将它们分解为符号动作序列。

这一步将模棱两可的自然语言转化为规划器可以可靠使用的确定性状态机。

2. 视觉动作定位

一旦机器人知道要按什么 (符号动作) ，它就需要找到去哪里按 (定位) 。这通常是通用模型失败的地方。

ApBot 为此采用了一个强大的流水线。它结合了三种不同的视觉系统:

SAM (Segment Anything Model): 用于寻找物理对象的边界。
OWL-ViT: 用于检测语义对象，如“按钮”或“旋钮”。
OCR (光学字符识别): 用于读取按钮上的标签。

通过取这些检测结果的并集并通过 LVLM 验证步骤进行过滤，ApBot 将每个符号动作 (例如 press_start) 映射到图像上的特定边界框。

基于视觉观察的动作定位概览。

3. 宏动作与规划

为复杂任务规划单个按钮的按压既低效又容易出错。相反，ApBot 利用 宏动作 。

用户手册通常将指令组织成“功能”或任务。ApBot 将这些捕捉为宏动作——像 Cook(LongGrain, 1 hour) 这样的参数化序列。

当用户发出像“煮一小时长粒米”这样的指令时，ApBot 不会试图凭空想象步骤。相反，它查看其生成的模型，找到 Cook 的宏动作，并用目标参数实例化它。这显著减轻了推理负担。

4. 闭环执行与自校正

这也许是该论文最关键的贡献。即使是最好的手册阅读也可能导致不完美的模型。也许说明书上说“按 + 增加时间”，但没有具体说明时间是以 10 分钟为单位增加，而不是 1 分钟。

ApBot 实现了 闭环模型更新 :

执行: 机器人执行一个宏动作。
观察: 它查看家电的屏幕 (视觉反馈) 以查看结果。
比较: 如果观察到的状态与预测状态匹配，那就很好。
修正: 如果不匹配 (例如，计时器显示“30”但机器人预期是“3”) ，ApBot 进入诊断模式。

在诊断模式下，机器人可能会反复按一个按钮来观察变量如何变化 (例如 0 -> 30 -> 60 -> 90) 。它利用这些经验数据即时重写模型中的转换规则 。这使得机器人能够“学习”说明书中未明确说明的设备特质。

实验与结果

为了严格测试这一点，研究人员构建了一个包含 6 个类别、30 种不同家电的基准测试: 除湿机、洗瓶机、电饭煲、微波炉、面包机和洗衣机。

我们基准测试中的家电。(a) 家电类型。(b) 面包机的所有实例。

他们将 ApBot 与直接作为策略使用的最先进 LVLM (带或不带视觉定位) 进行了比较。指标集中在 成功率 (SR) 和 SPL (路径长度加权成功率——本质上是衡量机器人的效率) 。

ApBot vs. 基线模型

结果非常明显。如下面的图表所示，ApBot (红色柱) 始终优于基线 (蓝色和紫色) 。

不同家电类型的操作性能，包括平均任务成功率 (SR)、平均执行步数 (Average Steps) 和基线方法的 SPL。

注意“成功率”图表中的趋势。对于简单的家电 (如只有 1 个变量的除湿机) ，标准 LVLM 表现尚可。但看看 洗衣机 (变量数 6) 。这种复杂性彻底击垮了基线模型，使其成功率降至 50% 以下。而 ApBot 的成功率保持在 90% 附近。

这表明 结构化建模对于应对复杂性至关重要 。当任务涉及按顺序操作多个变量 (温度、模式、时间、转速) 时，纯端到端的学习很难保持连贯性。

定位的重要性

消融研究突出了两个主要结论:

视觉定位很重要: “带定位动作的 LLM 策略”基线的表现明显优于“带图像的 LLM”。如果机器人找不到按钮，再多的推理也无济于事。
闭环是不可协商的 (必须的) : 移除模型更新机制 (无闭环更新的 ApBot) 会导致复杂家电的性能大幅下降。验证和修正自身内部模型的能力是系统稳健的关键。

真实世界部署

模拟是一回事，但在物理硬件上能行吗？该团队将 ApBot 部署在 Kinova Gen3 机械臂上，以操作真实的家电，包括电磁炉和饮水机。

该设置需要一种专门的“按压”策略，机器人需要估计按钮的表面法线以正确施力。

真实世界框架

该系统成功地将开放式指令 (例如“选择火锅模式并将功率设为 2000W”) 转化为长跨度的物理操作。

我们的系统操作电磁炉和饮水机的快照。

在这些真实世界的测试中，ApBot 表明它可以处理真实视觉传感器的噪声和按钮按压的物理约束，进一步验证了结构化模型方法的稳健性。

结论

ApBot 论文为辅助机器人的未来提出了令人信服的论点。它表明，对于复杂的顺序任务，我们不应仅仅依赖大型神经网络的“黑盒”直觉。相反，使用 LLM 生成 结构化的符号代码——然后可以对其进行验证、执行和修正——提供了一条通往更高可靠性的路径。

通过将用户手册不仅视为文本，而是视为家电逻辑的源代码，机器人终于可以开始按照设计初衷来使用我们的工具了。随着家用机器人变得越来越普遍，像这样的能力将决定它是只能茫然地盯着你的新咖啡机，还是能为你煮出一杯完美的咖啡。

引言#

挑战: 为什么不直接问 GPT-4？#

ApBot 的解决方案: 结构是关键#

1. 构建符号模型#

2. 视觉动作定位#

3. 宏动作与规划#

4. 闭环执行与自校正#

实验与结果#

ApBot vs. 基线模型#

定位的重要性#

真实世界部署#

结论#

引言