读说明书!为什么机器人需要指南才能掌握家用电器
想象一下,你刚买了一台高端浓缩咖啡机。它有四个旋钮、一个拉杆和一个数字屏幕。你想做一杯双份浓缩拿铁。你会随机乱按按钮吗?大概不会。你会拿出用户手册,找到“入门指南”部分,确认哪个按钮控制蒸汽棒,然后照着步骤操作。
现在,想象一个机器人试图做同样的事情。迄今为止,大多数机器人研究依赖于“常识”,或者训练数据中机器人看到把手就认为应该去拉。但复杂的电器并不总是遵循常识。微波炉上的一个按钮可能启动加热,也可能只是设置时钟。如果不读说明书,机器人就只能靠猜。
在这篇文章中,我们将深入探讨 CheckManual , 这是一篇引人入胜的研究论文,介绍了一个针对基于说明书的电器操作的新基准。研究人员认为,为了让机器人在我们的家中真正发挥作用,它们必须能够阅读用户手册,理解电器部件的具体功能,并根据这些指令执行复杂的任务。
问题所在: 常识与具体指令的对立
近年来,我们看到大语言模型 (LLM) 和视觉-语言-动作 (VLA) 模型使机器人能够执行令人印象深刻的任务。然而,这些模型主要依赖于从互联网上学到的通用知识。
如果你让机器人“捡起那个苹果”,它会使用通用知识: 苹果是小的、圆的、可抓取的。但如果你让机器人“用微波炉解冻肉”,通用知识就碰壁了。机器人可能认出了微波炉,但它不知道这台特定微波炉的界面。上面的旋钮是控制时间还是功率?解冻功能是一个按钮还是屏幕上的一个设置?

如 图 1 所示,没有说明书 (上图) ,机器人会很困惑。它看得到部件却不知道它们的功能。有了说明书 (下图) ,机器人就能将“打开门”的指令与文档中描述的具体把手机制联系起来。
现有的研究涉及过这一点,但存在明显的局限性:
- 操作模型 (如 RT-1 或 VoxPoser) 依赖于内部常识,且难以处理多页文档。
- NLP 数据集虽然存在用于回答说明书相关问题 (QA 任务) ,但它们纯粹是基于文本的。它们没有连接到物理电器模型 (CAD) 或模拟环境,这意味着你无法测试机器人是否真的能完成任务。
解决方案: CheckManual
为了弥补这一差距,研究人员创建了 CheckManual , 这是第一个将电器说明书与电器的 3D CAD 模型对齐的基准。这使得完整的评估流程成为可能: 阅读说明书,规划动作,并在模拟器中执行。
第一部分: 构建数据集
创建一个这样的数据集极其困难。你不能只从网上下载说明书,因为有版权问题,更重要的是,现实世界的 PDF 说明书并没有链接到机器人模拟器可以使用的 3D CAD 模型。
作者设计了一个巧妙的、半自动化的流程,为 PartNet-Mobility 数据集中的 3D 物体生成合成的——但逼真的——说明书。

图 2 展示了这个综合工作流,包括几个关键阶段:
准备与分析: 团队首先分析了 110 本现实世界的说明书以了解其结构。他们观察了制造商如何标记部件 (连接文字到按钮的线条) ,如何展示动作 (旋转的箭头) ,以及如何列出步骤。
电器创建 (“大脑”) : 利用电器的 CAD 模型 (如烤箱、咖啡机和打印机) ,他们使用多模态大语言模型 (MLLM) 为特定部件分配功能。
- *示例: * AI 分析 3D 烤箱模型上的一个旋钮并判定: “这是温度旋钮”。然后它为其定义状态,例如“0度”到“250度”。
- *人工验证: * 这至关重要。AI 可能会产生幻觉。它可能会建议烤箱旋钮可以转到 5000°C。人工标注员验证了每一个部件的功能,以确保其符合物理常识。
任务创建: 系统生成了逼真的任务,例如“加热面包 2 分钟”。这些任务被分解为与上一步定义的特定部件相关联的步骤。
视觉设计: 为了让说明书看起来真实,该流程使用 Stable Diffusion 生成封面图像 (将电器放置在厨房环境中) ,并通过对 3D 模型进行边缘检测来创建技术图表。
LaTeX 生成: 最后,所有这些文本和图像都被输入到一个 LLM 中以编写 LaTeX 代码,并编译成外观专业的 PDF 说明书。
生成的数据
输出的是一个庞大的数据集,看起来出奇地真实。

如 图 3 所示,说明书包含了安全警告、部件名称、概览图和分步说明。
CheckManual 的规模令人印象深刻。它涵盖了 11 个类别 的电器 (从洗衣机到相机) , 369 个独特的电器 , 以及超过 1,100 本生成的说明书 。

图 4 分解了这些统计数据。注意任务的分布 (图 D) ;虽然许多任务很短,但有些需要多达 18 个连续步骤才能完成。这种复杂性正是该基准对机器人如此具有挑战性的原因。
第二部分: 挑战
有了数据,研究人员定义了三个具体的挑战,从理论规划到完全的机器人执行。

表 1 概述了这些赛道:
- 赛道 1: CAD-电器对齐规划
- *目标: * 阅读说明书并制定计划。
- *辅助: * 机器人确切地知道说明书中的哪个部件对应 3D 模型上的哪个部件。
- *挑战: * 机器人能理解说明书的文本和逻辑吗?
- 赛道 2: 基于说明书和 CAD 的操作
- *目标: * 在模拟器中执行任务。
- *辅助: * 机器人获得了电器的 3D CAD 模型。
- *挑战: * 机器人必须将说明书映射到 CAD 模型,然后使用机械夹爪与物体交互。
- 赛道 3: 纯基于说明书的操作 (“现实世界”场景)
- *目标: * 在模拟器中执行任务。
- *辅助: * 无。没有 CAD 模型。只有摄像头画面 (RGB-D) 和 PDF 说明书。
- *挑战: * 这是最难的赛道。机器人必须看着实体物体,查看说明书的图表,弄清楚 PDF 中的“按钮 A”就是它在摄像头中看到的按钮,然后进行物理按压。
第三部分: 基线模型 (ManualPlan)
为了测试这些挑战,作者提出了一个名为 ManualPlan 的基线模型。这为未来的研究者提供了一个可供超越的参考点。
ManualPlan 架构模仿了人类解决问题的方式: 阅读、规划、定位、行动 。

让我们分解一下 图 5 中展示的架构:
1. 说明书解析 (阅读)
系统接收 PDF 说明书并进行处理。
- OCR (光学字符识别) : 提取所有文本。
- 布局分析: 识别图像和图表的位置。
- 结果: 对说明书内容的结构化理解。
2. 操作规划 (思考)
一个 LLM (如 GPT-4) 充当大脑。它接收用户的指令 (“烤个蛋糕”) 和提取的说明书内容。它输出一个计划:
- 打开门。
- 放入物品。
- 关上门。
- 将温度旋钮旋转到 180。
3. 部件对齐 (定位)
这是最关键的视觉步骤。机器人有一个计划 (“旋转温度旋钮”) ,但在现实世界中那个旋钮在哪里?
- Set-of-Mark (SoM): 模型使用目标检测在摄像头视野中找到所有潜在部件并分配 ID。
- 匹配: 一个 MLLM 查看说明书的图表 (标记了“温度旋钮”) 和摄像头视图 (带有 ID) 。它进行推理: “图表中标记为‘Temp’的旋钮看起来像是摄像头视图中的物体 #3。”
4. 执行 (行动)
一旦部件被识别,机器人就需要移动。
- 如果 CAD 模型可用 (赛道 2) ,机器人使用预先计算的 元动作 (Primitive Actions) (例如,“旋转抓取姿态”) 。
- 如果 CAD 模型不可用 (赛道 3) ,系统使用一个 开放词汇操作模型 (具体来说,一个叫 VoxPoser 的模型) 。VoxPoser 接收运动描述并生成机械臂的轨迹。
实验与结果
研究人员在 SAPIEN 模拟器中测试了 ManualPlan。结果很有启发性——对于当前 AI 的能力来说,也有点令人受挫。

表 2 强调了主要发现:
- 说明书至关重要: 标有 “w/o manual” (无说明书) 的行显示了极差的表现。例如,在赛道 3 中,微波炉的成功率从 0.67% (有说明书) 下降到 0.00% (无说明书) 。没有说明书,机器人基本上对设备的功能一无所知。
- 仍然非常困难: 即使有说明书,成功率也很低。在赛道 3 (现实场景) 中,总任务成功率仅为 0.55% 。
- 为什么? 误差累积。如果机器人在第 1 步识别错了旋钮,整个任务就失败了。如果规划器错过了一个安全步骤,任务失败。如果机械手滑脱,任务失败。
- 对齐是瓶颈: 赛道 1 (规划) 的得分较高 (约 20% 的规划成功率) 。这表明 LLM 在阅读说明书方面还不错,但在尝试将说明书与物理世界匹配并执行动作时出现了问题。
真机部署
作者并没有只停留在模拟中。他们在真实的 Franka Panda 机械臂上部署了赛道 3。机器人成功阅读了说明书,识别了真实厨房设备上的按钮,并按下了它们。虽然成功率并不完美,但这证明了该概念在现实世界中是可行的。
结论与未来展望
CheckManual 论文代表了机器人操作领域的一个重大转变。它使我们不再假设机器人可以仅凭形状“搞定一切”,而是迈向一个机器人可以像人类一样通过阅读指南来获取新技能的世界。
主要收获:
- 基准推动进步: 通过创建一个对齐说明书、CAD 模型和模拟的数据集,CheckManual 为机器人社区提供了一个标准衡量尺。
- 多模态推理是关键: 成功需要紧密结合文本 (说明书) 、2D 图像 (图表) 和 3D 视觉 (摄像头画面) 。
- 我们尚处早期: 低成功率表明我们正处于这一旅程的开端。阅读计划与物理执行之间的鸿沟仍然很大。
对于学生和研究人员来说,这篇论文开辟了令人兴奋的途径。改进“部件对齐”模块或开发能够处理现实世界物理不确定性的更好的“低级操作”策略,可能会显著提高在该基准上的表现。终有一天,多亏了这样的工作,你或许真的能信任你的机器人来制作那杯双份浓缩拿铁,而不用担心它把机器炸了。
](https://deep-paper.org/en/paper/2506.09343/images/cover.png)