简介: “意面罐”难题

想象一下，你坐在轮椅上，使用操纵杆控制安装在椅子上的机械臂。你在厨房里，目标是做晚饭。你控制机器人移向架子，抓起一罐意大利面，然后将其移向台面，那里并排摆放着一个烹饪锅和一台笔记本电脑。

对人类观察者来说，你的意图显而易见: 你要把意大利面倒进锅里。然而，对于传统的机器人系统来说，这是一个令人困惑的几何谜题。如果意面罐经过的路径恰好比离锅更靠近笔记本电脑一点点，标准的机器人可能会推断出你想把意面倒在键盘上。

这个场景凸显了辅助遥操作 (Assistive Teleoperation) 中的根本挑战。其目标是在人类和机器人之间共享控制权——人类提供高层指导，机器人处理底层的运动技能。但要让这种合作奏效，机器人需要理解人类想要做什么。

传统方法依赖于几何线索，比如机器人的夹爪与物体之间的距离。但现实生活需要的不仅仅是几何学；它需要常识。我们需要知道意面是放进锅里的，而不是倒在电脑上的。

在这篇文章中，我们将深入探讨 CASPER (Commonsense Analysis for Shared Perception and Execution in Robotics)，这是由得克萨斯大学奥斯汀分校、加州大学洛杉矶分校和卡内基梅隆大学的研究人员提出的新系统。CASPER 利用预训练视觉语言模型 (VLM) 的力量，将语义理解引入辅助机器人技术，使机器人能够推断复杂的人类意图并以高可靠性执行长程任务。

控制的光谱: 为什么我们需要辅助

要理解为什么 CASPER 是必要的，我们必须先看看机器人控制的两个极端:

完全遥操作 (Full Teleoperation): 用户手动控制机器人的每一个关节或动作。这提供了完美的代理感——机器人完全照你说的做。然而，这在认知上非常令人疲惫。用操纵杆控制一个 7 自由度的机械臂需要高度的专注和精细的运动技能。
完全自主 (Full Autonomy): 机器人独立行动。虽然这对用户来说很省力，但目前的自主系统往往难以理解细微的人类需求，或难以在非结构化环境 (如杂乱的家庭环境) 中运行。

辅助遥操作介于两者之间。用户启动一个动作，机器人尝试预测目标 (意图推断) 。一旦意图明确，机器人就会接管并自动完成任务 (技能执行) 。

“常识”鸿沟

现有辅助系统的关键弱点在于意图推断 。

先前的方法依赖于基于运动的推断 。如果你向右移动操纵杆，机器人就会扫描右侧的物体。如果你将夹爪移向杯子，它就假设你想要那个杯子。这些系统使用数学模型 (如贝叶斯推断) 根据运动来更新概率。

问题在于人类的运动是嘈杂的，而且环境是复杂的。如果你必须绕过花瓶去拿书，你的初始动作可能指向花瓶。几何系统会错误地预测“抓取花瓶”。此外，这些系统通常是“闭集”的，意味着它们只能识别一小部分预先编程的物体或动作。

CASPER 提出了一种范式转变: 让我们不再仅仅测量运动矢量，而是使用视觉语言模型 (VLM) 来观察场景，并像人类一样进行推理。

CASPER 架构

CASPER 被设计为充当人类操作员的“影子”。当用户在前台控制机器人时，CASPER 在后台运行复杂的推理循环。它观察、预测，并在提供帮助之前等待，直到它充满信心。

CASPER 在确信时推断用户意图并提供帮助。给定用户的遥操作输入，CASPER 使用 VLM 通过常识推理来预测人类意图。经用户确认后，CASPER 使用技能库执行自主操作以实现意图。CASPER 的后台推理与前台人类控制并行运行，以尽量减少干扰。

如图 1 所示，工作流程是无缝的:

人类遥操作: 用户手动开始任务。
意图推断: 系统分析场景和用户的输入。
提供帮助: 当系统确定时 (例如，“你想拿起螺丝刀吗？”) ，它会提示用户。
技能执行: 如果用户确认，机器人就会接管并执行该技能。

让我们分解实现这一点的技术架构。

1. 开放世界感知

传统机器人需要针对特定数据集进行训练才能识别物体 (例如“可乐罐”检测器) 。CASPER 需要在现实世界中工作，那里可能存在任何物体。

为了实现这一点，作者利用了一个开放世界感知模块 。他们结合了最先进的视觉模型 (如 GroundingDINO 和 GSAM) ，根据开放词汇的文本描述来检测和分割场景中的物体。这意味着机器人可以识别“蓝色螺丝刀”、“甜味剂包”或“左边第三扇门”，而无需针对这些物体进行特定训练。

2. 生成任务候选

在机器人能够猜测你在做什么之前，它需要知道什么是可能做的。

CASPER 使用一个 VLM (本文中具体为 GPT-4o) 来分析当前图像并生成一个合理的任务候选列表。VLM 将视觉检测结果与技能库 (机器人物理上能做的事情列表，如 PickUp (拾取) 、Place (放置) 、OpenDoor (开门) 、NavigateTo (导航至) ) 结合起来。

至关重要的是，VLM 应用了常识过滤 。

如果机器人手里拿着杯子，PickUp (拾取) 就不是一个有效的候选项；Place (放置) 或 Pour (倾倒) 才是。
如果机器人离门很远，PushDoor (推门) 是无效的；NavigateTo (导航至) 才是。

这一步生成了一组动态的多项选择题，例如:

A) 拿起苹果。
B) 拿起粉色碗。
C) 导航到冰箱。

3. VLM 驱动的意图选择

这是核心创新点。一旦生成了候选项，CASPER 需要弄清楚用户实际上想要哪一个。

系统向 VLM 提供机器人观察 (图像) 和用户最近动作的历史记录。VLM 就像侦探一样，寻找线索。

CASPER 架构。基于 VLM 的意图推断与人类遥操作并行运行。CASPER 从观察中生成任务候选项，并从这些候选项中根据用户输入推断意图，重复此过程直到预测自洽。一旦用户确认，CASPER 将使用估计的参数执行相应的技能。

视觉提示 (Visual Prompting) : 为了帮助 VLM 理解机器人的运动，研究人员不仅发送原始图像。如图 2 所示，他们在图像上覆盖了视觉辅助:

夹爪掩码 (Gripper Masks): 高亮机器人的手，以便 VLM 知道“自己”在哪里。
运动箭头 (Motion Arrows): 绘制指示夹爪或底座最近轨迹的 2D 箭头。

这使得 VLM 能够推理: “夹爪是空的，它正向右移动，直奔苹果而去。用户可能打算执行 PickUp[Apple]。”

4. 置信度机制 (自洽性)

一个总是用错误猜测打断你的机器人比什么都不做的机器人更烦人。为了防止“过早辅助”，CASPER 采用了一种受自洽性 (Self-Consistency) 启发的置信度机制。

系统不只是问 VLM 一次。它并行地问 VLM 多次 (例如 K 次) 来预测意图。

如果 VLM 在 10 次中有 9 次返回“拿起苹果”，则置信度高。系统会打断用户并提供帮助。
如果 VLM 返回的是“拿起苹果”、“拿起碗”和“导航到门”的混合结果，则置信度低。系统保持沉默，让用户继续遥操作。

置信度估计可视化。CASPER 进行预测直到意图更加清晰，以确保更准确的辅助。

图 7 完美地展示了这一点。

第一行 (T=0 到 T=40): 用户大概朝墙的方向移动。意图是模糊的。系统在等待。
第一行 (T=100): 用户已经明显接近了门。系统变得自信 (“去木门”) 并接管控制。

这种动态阈值使得系统让人感觉“聪明”而不是具有侵入性。

5. 技能执行

一旦意图被确认，CASPER 就会触发其参数化技能库 。这些是模块化的、预编程的行为。

如果意图是 Pour[Pasta, Pot] (倒[意面，锅]) ，系统会:

调用专门的 VLM 来估计参数 (锅确切在哪里？它有多高？) 。
使用底层规划器 (逆运动学或导航栈) 执行动作。

实验验证

为了证明常识推理优于几何计算，研究人员在 TIAGo 移动机械臂上测试了 CASPER。

设置

他们设计了三个具有挑战性的现实世界任务 (如图 3 所示) :

货架任务 (Shelf Task): 从架子上挑选特定的罐子，导航到桌子，并将其倒入特定的容器中。
玩具任务 (Toy Task): 一个长程任务，涉及挑选玩具、在房间导航、开门 (使用读卡器) 以及放置玩具。
开门任务 (Door Task): 导航至并打开各种类型的门 (推、按钮、刷卡) 。

玩具、货架和门: 多步移动操作任务。在每一步，机器人都会在多个看似合理的目标中消除用户意图的歧义，根据用户输入和视觉上下文选择正确的目标。

他们将 CASPER 与三个基线进行了比较:

完全遥操作 (Full Teleop): 手动控制 (无辅助) 。
HAT: 使用夹爪到目标的距离来猜测意图。
RBII: 在用户操纵杆输入上使用贝叶斯推断。

定量结果: 成功率

结果非常明显。如下表所示，CASPER 完胜基线。

展示任务成功率和完成时间的表格。CASPER 显著优于基线。

任务成功率: CASPER 实现了平均 88.9% 的成功率 , 而辅助基线 (HAT 和 RBII) 仅为 40-45%。基线经常失败，因为它们无法区分靠得很近的物体，或者需要上下文才能理解的情况。
效率: 尽管 VLM 推理需要时间，但 CASPER 的完成时间最快 (平均 218 秒，而手动遥操作为 256 秒) 。

“甜味剂 vs 平底锅”测试

为什么基线会失败? 图 6 提供了一个“常识鸿沟”的完美例子。

单元测试可视化，显示平底锅和甜味剂包。

在这个场景中，用户想把食物倒进平底锅 (黑色物体) 。然而, 甜味剂盒 (白色物体) 在物理位置上更靠近夹爪的路径。

几何基线 (HAT/RBII): 它们看到夹爪离甜味剂越来越近。它们预测“倒进甜味剂”。这是一个灾难性的失败 (而且很脏) 。
CASPER: VLM 识别出了物体。它使用常识: 你把食物倒进锅里，而不是纸盒里。 尽管有几何数据，它还是正确地将平底锅识别为目标。

用户体验: 负荷与满意度

机器人是为人类服务的工具，所以用户的主观体验与成功率同样重要。研究人员使用 NASA-TLX (任务负荷指数) 来测量认知压力。

用户研究: 用户负荷和用户满意度。CASPER 在用户负荷 (左) 和用户满意度 (右) 方面始终优于基线，具有统计显着性。

图 4 显示了显著的改进:

更低的负荷: 与完全遥操作 (灰色) 相比，CASPER (橙色条) 在脑力需求、体力需求和挫败感方面得分显著更低。
更高的满意度: 用户更信任 CASPER。他们感到更安全、更自信。基线 (HAT/RBII) 在信任度方面得分很低，因为它们不断提供错误的帮助，用户将其描述为“烦人”或“令人担忧”。

分析与消融

研究人员不仅止步于“它能工作”。他们通过消融实验深入研究了为什么它能工作。

来自单元测试和消融研究的定量结果。左: CASPER 在意图推断成功率方面优于所有基线。中: 成功率随着遥操作历史的增加而提高。右: 去除置信度估计会增加错误预测率。

1. 视觉提示重要吗? 看图 5 的左图。“Casper - No VP” (无视觉提示) 的条形图低于完整的 CASPER 模型。这证明在图像上绘制那些绿色箭头和夹爪掩码有助于 VLM 更好地理解场景，将成功率提高了大约 6%。

2. 耐心的重要性 图 5 的右图显示了“错误预测率”。蓝线代表没有置信度模块的 CASPER (它会立即猜测) 。橙线是完整系统。如果没有置信度检查，机器人会做出更多错误的预测。通过等待自洽性，错误率显著下降。

结论

CASPER 代表了人机交互向前迈出的重要一步。通过集成视觉语言模型，该系统超越了简单的几何学，开始理解任务的语义。

它解决“意面罐”难题不是靠测量毫米，而是靠理解“意面”、“锅”和“倾倒”之间的关系。

关键要点:

常识为王: 纯几何意图推断在杂乱的现实环境中会失效。
影子模式行之有效: 允许机器人在后台“思考”，而用户在前台行动，创造了流畅的用户体验。
置信度防止挫败感: 一个知道何时不帮忙的机器人与知道如何帮忙的机器人同样重要。

随着 VLM 变得越来越快、越来越准确，像 CASPER 这样的系统可能会成为辅助机器人的标准，赋予运动障碍用户更独立地与环境互动的能力，并大大减少认知负担。

简介: “意面罐”难题#

控制的光谱: 为什么我们需要辅助#

“常识”鸿沟#

CASPER 架构#

1. 开放世界感知#

2. 生成任务候选#

3. VLM 驱动的意图选择#

4. 置信度机制 (自洽性)#

5. 技能执行#

实验验证#

设置#

定量结果: 成功率#

“甜味剂 vs 平底锅”测试#

用户体验: 负荷与满意度#

分析与消融#

结论#