简介: “意面罐”难题

想象一下,你坐在轮椅上,使用操纵杆控制安装在椅子上的机械臂。你在厨房里,目标是做晚饭。你控制机器人移向架子,抓起一罐意大利面,然后将其移向台面,那里并排摆放着一个烹饪锅和一台笔记本电脑。

对人类观察者来说,你的意图显而易见: 你要把意大利面倒进锅里。然而,对于传统的机器人系统来说,这是一个令人困惑的几何谜题。如果意面罐经过的路径恰好比离锅更靠近笔记本电脑一点点,标准的机器人可能会推断出你想把意面倒在键盘上。

这个场景凸显了辅助遥操作 (Assistive Teleoperation) 中的根本挑战。其目标是在人类和机器人之间共享控制权——人类提供高层指导,机器人处理底层的运动技能。但要让这种合作奏效,机器人需要理解人类想要做什么。

传统方法依赖于几何线索,比如机器人的夹爪与物体之间的距离。但现实生活需要的不仅仅是几何学;它需要常识 。 我们需要知道意面是放进锅里的,而不是倒在电脑上的。

在这篇文章中,我们将深入探讨 CASPER (Commonsense Analysis for Shared Perception and Execution in Robotics),这是由得克萨斯大学奥斯汀分校、加州大学洛杉矶分校和卡内基梅隆大学的研究人员提出的新系统。CASPER 利用预训练视觉语言模型 (VLM) 的力量,将语义理解引入辅助机器人技术,使机器人能够推断复杂的人类意图并以高可靠性执行长程任务。

控制的光谱: 为什么我们需要辅助

要理解为什么 CASPER 是必要的,我们必须先看看机器人控制的两个极端:

  1. 完全遥操作 (Full Teleoperation): 用户手动控制机器人的每一个关节或动作。这提供了完美的代理感——机器人完全照你说的做。然而,这在认知上非常令人疲惫。用操纵杆控制一个 7 自由度的机械臂需要高度的专注和精细的运动技能。
  2. 完全自主 (Full Autonomy): 机器人独立行动。虽然这对用户来说很省力,但目前的自主系统往往难以理解细微的人类需求,或难以在非结构化环境 (如杂乱的家庭环境) 中运行。

辅助遥操作介于两者之间。用户启动一个动作,机器人尝试预测目标 (意图推断) 。一旦意图明确,机器人就会接管并自动完成任务 (技能执行) 。

“常识”鸿沟

现有辅助系统的关键弱点在于意图推断

先前的方法依赖于基于运动的推断 。 如果你向右移动操纵杆,机器人就会扫描右侧的物体。如果你将夹爪移向杯子,它就假设你想要那个杯子。这些系统使用数学模型 (如贝叶斯推断) 根据运动来更新概率。

问题在于人类的运动是嘈杂的,而且环境是复杂的。如果你必须绕过花瓶去拿书,你的初始动作可能指向花瓶。几何系统会错误地预测“抓取花瓶”。此外,这些系统通常是“闭集”的,意味着它们只能识别一小部分预先编程的物体或动作。

CASPER 提出了一种范式转变: 让我们不再仅仅测量运动矢量,而是使用视觉语言模型 (VLM) 来观察场景,并像人类一样进行推理。

CASPER 架构

CASPER 被设计为充当人类操作员的“影子”。当用户在前台控制机器人时,CASPER 在后台运行复杂的推理循环。它观察、预测,并在提供帮助之前等待,直到它充满信心。

CASPER 在确信时推断用户意图并提供帮助。给定用户的遥操作输入,CASPER 使用 VLM 通过常识推理来预测人类意图。经用户确认后,CASPER 使用技能库执行自主操作以实现意图。CASPER 的后台推理与前台人类控制并行运行,以尽量减少干扰。

图 1 所示,工作流程是无缝的:

  1. 人类遥操作: 用户手动开始任务。
  2. 意图推断: 系统分析场景和用户的输入。
  3. 提供帮助: 当系统确定时 (例如,“你想拿起螺丝刀吗?”) ,它会提示用户。
  4. 技能执行: 如果用户确认,机器人就会接管并执行该技能。

让我们分解实现这一点的技术架构。

1. 开放世界感知

传统机器人需要针对特定数据集进行训练才能识别物体 (例如“可乐罐”检测器) 。CASPER 需要在现实世界中工作,那里可能存在任何物体。

为了实现这一点,作者利用了一个开放世界感知模块 。 他们结合了最先进的视觉模型 (如 GroundingDINO 和 GSAM) ,根据开放词汇的文本描述来检测和分割场景中的物体。这意味着机器人可以识别“蓝色螺丝刀”、“甜味剂包”或“左边第三扇门”,而无需针对这些物体进行特定训练。

2. 生成任务候选

在机器人能够猜测你在做什么之前,它需要知道什么是可能做的。

CASPER 使用一个 VLM (本文中具体为 GPT-4o) 来分析当前图像并生成一个合理的任务候选列表。VLM 将视觉检测结果与技能库 (机器人物理上能做的事情列表,如 PickUp (拾取) 、Place (放置) 、OpenDoor (开门) 、NavigateTo (导航至) ) 结合起来。

至关重要的是,VLM 应用了常识过滤

  • 如果机器人手里拿着杯子,PickUp (拾取) 就不是一个有效的候选项;Place (放置) 或 Pour (倾倒) 才是。
  • 如果机器人离门很远,PushDoor (推门) 是无效的;NavigateTo (导航至) 才是。

这一步生成了一组动态的多项选择题,例如:

  • A) 拿起苹果。
  • B) 拿起粉色碗。
  • C) 导航到冰箱。

3. VLM 驱动的意图选择

这是核心创新点。一旦生成了候选项,CASPER 需要弄清楚用户实际上想要哪一个。

系统向 VLM 提供机器人观察 (图像) 和用户最近动作的历史记录。VLM 就像侦探一样,寻找线索。

CASPER 架构。基于 VLM 的意图推断与人类遥操作并行运行。CASPER 从观察中生成任务候选项,并从这些候选项中根据用户输入推断意图,重复此过程直到预测自洽。一旦用户确认,CASPER 将使用估计的参数执行相应的技能。

视觉提示 (Visual Prompting) : 为了帮助 VLM 理解机器人的运动,研究人员不仅发送原始图像。如图 2 所示,他们在图像上覆盖了视觉辅助:

  • 夹爪掩码 (Gripper Masks): 高亮机器人的手,以便 VLM 知道“自己”在哪里。
  • 运动箭头 (Motion Arrows): 绘制指示夹爪或底座最近轨迹的 2D 箭头。

这使得 VLM 能够推理: “夹爪是空的,它正向右移动,直奔苹果而去。用户可能打算执行 PickUp[Apple]。”

4. 置信度机制 (自洽性)

一个总是用错误猜测打断你的机器人比什么都不做的机器人更烦人。为了防止“过早辅助”,CASPER 采用了一种受自洽性 (Self-Consistency) 启发的置信度机制。

系统不只是问 VLM 一次。它并行地问 VLM 多次 (例如 K 次) 来预测意图。

  • 如果 VLM 在 10 次中有 9 次返回“拿起苹果”,则置信度高。系统会打断用户并提供帮助。
  • 如果 VLM 返回的是“拿起苹果”、“拿起碗”和“导航到门”的混合结果,则置信度低。系统保持沉默,让用户继续遥操作。

置信度估计可视化。CASPER 进行预测直到意图更加清晰,以确保更准确的辅助。

图 7 完美地展示了这一点。

  • 第一行 (T=0 到 T=40): 用户大概朝墙的方向移动。意图是模糊的。系统在等待。
  • 第一行 (T=100): 用户已经明显接近了门。系统变得自信 (“去木门”) 并接管控制。

这种动态阈值使得系统让人感觉“聪明”而不是具有侵入性。

5. 技能执行

一旦意图被确认,CASPER 就会触发其参数化技能库 。 这些是模块化的、预编程的行为。

如果意图是 Pour[Pasta, Pot] (倒[意面,锅]) ,系统会:

  1. 调用专门的 VLM 来估计参数 (锅确切在哪里?它有多高?) 。
  2. 使用底层规划器 (逆运动学或导航栈) 执行动作。

实验验证

为了证明常识推理优于几何计算,研究人员在 TIAGo 移动机械臂上测试了 CASPER。

设置

他们设计了三个具有挑战性的现实世界任务 (如图 3 所示) :

  1. 货架任务 (Shelf Task): 从架子上挑选特定的罐子,导航到桌子,并将其倒入特定的容器中。
  2. 玩具任务 (Toy Task): 一个长程任务,涉及挑选玩具、在房间导航、开门 (使用读卡器) 以及放置玩具。
  3. 开门任务 (Door Task): 导航至并打开各种类型的门 (推、按钮、刷卡) 。

玩具、货架和门: 多步移动操作任务。在每一步,机器人都会在多个看似合理的目标中消除用户意图的歧义,根据用户输入和视觉上下文选择正确的目标。

他们将 CASPER 与三个基线进行了比较:

  • 完全遥操作 (Full Teleop): 手动控制 (无辅助) 。
  • HAT: 使用夹爪到目标的距离来猜测意图。
  • RBII: 在用户操纵杆输入上使用贝叶斯推断。

定量结果: 成功率

结果非常明显。如下表所示,CASPER 完胜基线。

展示任务成功率和完成时间的表格。CASPER 显著优于基线。

  • 任务成功率: CASPER 实现了平均 88.9% 的成功率 , 而辅助基线 (HAT 和 RBII) 仅为 40-45%。基线经常失败,因为它们无法区分靠得很近的物体,或者需要上下文才能理解的情况。
  • 效率: 尽管 VLM 推理需要时间,但 CASPER 的完成时间最快 (平均 218 秒,而手动遥操作为 256 秒) 。

“甜味剂 vs 平底锅”测试

为什么基线会失败? 图 6 提供了一个“常识鸿沟”的完美例子。

单元测试可视化,显示平底锅和甜味剂包。

在这个场景中,用户想把食物倒进平底锅 (黑色物体) 。然而, 甜味剂盒 (白色物体) 在物理位置上更靠近夹爪的路径。

  • 几何基线 (HAT/RBII): 它们看到夹爪离甜味剂越来越近。它们预测“倒进甜味剂”。这是一个灾难性的失败 (而且很脏) 。
  • CASPER: VLM 识别出了物体。它使用常识: 你把食物倒进锅里,而不是纸盒里。 尽管有几何数据,它还是正确地将平底锅识别为目标。

用户体验: 负荷与满意度

机器人是为人类服务的工具,所以用户的主观体验与成功率同样重要。研究人员使用 NASA-TLX (任务负荷指数) 来测量认知压力。

用户研究: 用户负荷和用户满意度。CASPER 在用户负荷 (左) 和用户满意度 (右) 方面始终优于基线,具有统计显着性。

图 4 显示了显著的改进:

  • 更低的负荷: 与完全遥操作 (灰色) 相比,CASPER (橙色条) 在脑力需求、体力需求和挫败感方面得分显著更低。
  • 更高的满意度: 用户更信任 CASPER。他们感到更安全、更自信。基线 (HAT/RBII) 在信任度方面得分很低,因为它们不断提供错误的帮助,用户将其描述为“烦人”或“令人担忧”。

分析与消融

研究人员不仅止步于“它能工作”。他们通过消融实验深入研究了为什么它能工作。

来自单元测试和消融研究的定量结果。左: CASPER 在意图推断成功率方面优于所有基线。中: 成功率随着遥操作历史的增加而提高。右: 去除置信度估计会增加错误预测率。

1. 视觉提示重要吗?图 5图。“Casper - No VP” (无视觉提示) 的条形图低于完整的 CASPER 模型。这证明在图像上绘制那些绿色箭头和夹爪掩码有助于 VLM 更好地理解场景,将成功率提高了大约 6%。

2. 耐心的重要性 图 5图显示了“错误预测率”。蓝线代表没有置信度模块的 CASPER (它会立即猜测) 。橙线是完整系统。如果没有置信度检查,机器人会做出更多错误的预测。通过等待自洽性,错误率显著下降。

结论

CASPER 代表了人机交互向前迈出的重要一步。通过集成视觉语言模型,该系统超越了简单的几何学,开始理解任务的语义

它解决“意面罐”难题不是靠测量毫米,而是靠理解“意面”、“锅”和“倾倒”之间的关系。

关键要点:

  • 常识为王: 纯几何意图推断在杂乱的现实环境中会失效。
  • 影子模式行之有效: 允许机器人在后台“思考”,而用户在前台行动,创造了流畅的用户体验。
  • 置信度防止挫败感: 一个知道何时帮忙的机器人与知道如何帮忙的机器人同样重要。

随着 VLM 变得越来越快、越来越准确,像 CASPER 这样的系统可能会成为辅助机器人的标准,赋予运动障碍用户更独立地与环境互动的能力,并大大减少认知负担。