简介: “意面罐”难题
想象一下,你坐在轮椅上,使用操纵杆控制安装在椅子上的机械臂。你在厨房里,目标是做晚饭。你控制机器人移向架子,抓起一罐意大利面,然后将其移向台面,那里并排摆放着一个烹饪锅和一台笔记本电脑。
对人类观察者来说,你的意图显而易见: 你要把意大利面倒进锅里。然而,对于传统的机器人系统来说,这是一个令人困惑的几何谜题。如果意面罐经过的路径恰好比离锅更靠近笔记本电脑一点点,标准的机器人可能会推断出你想把意面倒在键盘上。
这个场景凸显了辅助遥操作 (Assistive Teleoperation) 中的根本挑战。其目标是在人类和机器人之间共享控制权——人类提供高层指导,机器人处理底层的运动技能。但要让这种合作奏效,机器人需要理解人类想要做什么。
传统方法依赖于几何线索,比如机器人的夹爪与物体之间的距离。但现实生活需要的不仅仅是几何学;它需要常识 。 我们需要知道意面是放进锅里的,而不是倒在电脑上的。
在这篇文章中,我们将深入探讨 CASPER (Commonsense Analysis for Shared Perception and Execution in Robotics),这是由得克萨斯大学奥斯汀分校、加州大学洛杉矶分校和卡内基梅隆大学的研究人员提出的新系统。CASPER 利用预训练视觉语言模型 (VLM) 的力量,将语义理解引入辅助机器人技术,使机器人能够推断复杂的人类意图并以高可靠性执行长程任务。
控制的光谱: 为什么我们需要辅助
要理解为什么 CASPER 是必要的,我们必须先看看机器人控制的两个极端:
- 完全遥操作 (Full Teleoperation): 用户手动控制机器人的每一个关节或动作。这提供了完美的代理感——机器人完全照你说的做。然而,这在认知上非常令人疲惫。用操纵杆控制一个 7 自由度的机械臂需要高度的专注和精细的运动技能。
- 完全自主 (Full Autonomy): 机器人独立行动。虽然这对用户来说很省力,但目前的自主系统往往难以理解细微的人类需求,或难以在非结构化环境 (如杂乱的家庭环境) 中运行。
辅助遥操作介于两者之间。用户启动一个动作,机器人尝试预测目标 (意图推断) 。一旦意图明确,机器人就会接管并自动完成任务 (技能执行) 。
“常识”鸿沟
现有辅助系统的关键弱点在于意图推断 。
先前的方法依赖于基于运动的推断 。 如果你向右移动操纵杆,机器人就会扫描右侧的物体。如果你将夹爪移向杯子,它就假设你想要那个杯子。这些系统使用数学模型 (如贝叶斯推断) 根据运动来更新概率。
问题在于人类的运动是嘈杂的,而且环境是复杂的。如果你必须绕过花瓶去拿书,你的初始动作可能指向花瓶。几何系统会错误地预测“抓取花瓶”。此外,这些系统通常是“闭集”的,意味着它们只能识别一小部分预先编程的物体或动作。
CASPER 提出了一种范式转变: 让我们不再仅仅测量运动矢量,而是使用视觉语言模型 (VLM) 来观察场景,并像人类一样进行推理。
CASPER 架构
CASPER 被设计为充当人类操作员的“影子”。当用户在前台控制机器人时,CASPER 在后台运行复杂的推理循环。它观察、预测,并在提供帮助之前等待,直到它充满信心。

如图 1 所示,工作流程是无缝的:
- 人类遥操作: 用户手动开始任务。
- 意图推断: 系统分析场景和用户的输入。
- 提供帮助: 当系统确定时 (例如,“你想拿起螺丝刀吗?”) ,它会提示用户。
- 技能执行: 如果用户确认,机器人就会接管并执行该技能。
让我们分解实现这一点的技术架构。
1. 开放世界感知
传统机器人需要针对特定数据集进行训练才能识别物体 (例如“可乐罐”检测器) 。CASPER 需要在现实世界中工作,那里可能存在任何物体。
为了实现这一点,作者利用了一个开放世界感知模块 。 他们结合了最先进的视觉模型 (如 GroundingDINO 和 GSAM) ,根据开放词汇的文本描述来检测和分割场景中的物体。这意味着机器人可以识别“蓝色螺丝刀”、“甜味剂包”或“左边第三扇门”,而无需针对这些物体进行特定训练。
2. 生成任务候选
在机器人能够猜测你在做什么之前,它需要知道什么是可能做的。
CASPER 使用一个 VLM (本文中具体为 GPT-4o) 来分析当前图像并生成一个合理的任务候选列表。VLM 将视觉检测结果与技能库 (机器人物理上能做的事情列表,如 PickUp (拾取) 、Place (放置) 、OpenDoor (开门) 、NavigateTo (导航至) ) 结合起来。
至关重要的是,VLM 应用了常识过滤 。
- 如果机器人手里拿着杯子,
PickUp(拾取) 就不是一个有效的候选项;Place(放置) 或Pour(倾倒) 才是。 - 如果机器人离门很远,
PushDoor(推门) 是无效的;NavigateTo(导航至) 才是。
这一步生成了一组动态的多项选择题,例如:
- A) 拿起苹果。
- B) 拿起粉色碗。
- C) 导航到冰箱。
3. VLM 驱动的意图选择
这是核心创新点。一旦生成了候选项,CASPER 需要弄清楚用户实际上想要哪一个。
系统向 VLM 提供机器人观察 (图像) 和用户最近动作的历史记录。VLM 就像侦探一样,寻找线索。

视觉提示 (Visual Prompting) : 为了帮助 VLM 理解机器人的运动,研究人员不仅发送原始图像。如图 2 所示,他们在图像上覆盖了视觉辅助:
- 夹爪掩码 (Gripper Masks): 高亮机器人的手,以便 VLM 知道“自己”在哪里。
- 运动箭头 (Motion Arrows): 绘制指示夹爪或底座最近轨迹的 2D 箭头。
这使得 VLM 能够推理: “夹爪是空的,它正向右移动,直奔苹果而去。用户可能打算执行 PickUp[Apple]。”
4. 置信度机制 (自洽性)
一个总是用错误猜测打断你的机器人比什么都不做的机器人更烦人。为了防止“过早辅助”,CASPER 采用了一种受自洽性 (Self-Consistency) 启发的置信度机制。
系统不只是问 VLM 一次。它并行地问 VLM 多次 (例如 K 次) 来预测意图。
- 如果 VLM 在 10 次中有 9 次返回“拿起苹果”,则置信度高。系统会打断用户并提供帮助。
- 如果 VLM 返回的是“拿起苹果”、“拿起碗”和“导航到门”的混合结果,则置信度低。系统保持沉默,让用户继续遥操作。

图 7 完美地展示了这一点。
- 第一行 (T=0 到 T=40): 用户大概朝墙的方向移动。意图是模糊的。系统在等待。
- 第一行 (T=100): 用户已经明显接近了门。系统变得自信 (“去木门”) 并接管控制。
这种动态阈值使得系统让人感觉“聪明”而不是具有侵入性。
5. 技能执行
一旦意图被确认,CASPER 就会触发其参数化技能库 。 这些是模块化的、预编程的行为。
如果意图是 Pour[Pasta, Pot] (倒[意面,锅]) ,系统会:
- 调用专门的 VLM 来估计参数 (锅确切在哪里?它有多高?) 。
- 使用底层规划器 (逆运动学或导航栈) 执行动作。
实验验证
为了证明常识推理优于几何计算,研究人员在 TIAGo 移动机械臂上测试了 CASPER。
设置
他们设计了三个具有挑战性的现实世界任务 (如图 3 所示) :
- 货架任务 (Shelf Task): 从架子上挑选特定的罐子,导航到桌子,并将其倒入特定的容器中。
- 玩具任务 (Toy Task): 一个长程任务,涉及挑选玩具、在房间导航、开门 (使用读卡器) 以及放置玩具。
- 开门任务 (Door Task): 导航至并打开各种类型的门 (推、按钮、刷卡) 。

他们将 CASPER 与三个基线进行了比较:
- 完全遥操作 (Full Teleop): 手动控制 (无辅助) 。
- HAT: 使用夹爪到目标的距离来猜测意图。
- RBII: 在用户操纵杆输入上使用贝叶斯推断。
定量结果: 成功率
结果非常明显。如下表所示,CASPER 完胜基线。

- 任务成功率: CASPER 实现了平均 88.9% 的成功率 , 而辅助基线 (HAT 和 RBII) 仅为 40-45%。基线经常失败,因为它们无法区分靠得很近的物体,或者需要上下文才能理解的情况。
- 效率: 尽管 VLM 推理需要时间,但 CASPER 的完成时间最快 (平均 218 秒,而手动遥操作为 256 秒) 。
“甜味剂 vs 平底锅”测试
为什么基线会失败? 图 6 提供了一个“常识鸿沟”的完美例子。

在这个场景中,用户想把食物倒进平底锅 (黑色物体) 。然而, 甜味剂盒 (白色物体) 在物理位置上更靠近夹爪的路径。
- 几何基线 (HAT/RBII): 它们看到夹爪离甜味剂越来越近。它们预测“倒进甜味剂”。这是一个灾难性的失败 (而且很脏) 。
- CASPER: VLM 识别出了物体。它使用常识: 你把食物倒进锅里,而不是纸盒里。 尽管有几何数据,它还是正确地将平底锅识别为目标。
用户体验: 负荷与满意度
机器人是为人类服务的工具,所以用户的主观体验与成功率同样重要。研究人员使用 NASA-TLX (任务负荷指数) 来测量认知压力。

图 4 显示了显著的改进:
- 更低的负荷: 与完全遥操作 (灰色) 相比,CASPER (橙色条) 在脑力需求、体力需求和挫败感方面得分显著更低。
- 更高的满意度: 用户更信任 CASPER。他们感到更安全、更自信。基线 (HAT/RBII) 在信任度方面得分很低,因为它们不断提供错误的帮助,用户将其描述为“烦人”或“令人担忧”。
分析与消融
研究人员不仅止步于“它能工作”。他们通过消融实验深入研究了为什么它能工作。

1. 视觉提示重要吗? 看图 5 的左图。“Casper - No VP” (无视觉提示) 的条形图低于完整的 CASPER 模型。这证明在图像上绘制那些绿色箭头和夹爪掩码有助于 VLM 更好地理解场景,将成功率提高了大约 6%。
2. 耐心的重要性 图 5 的右图显示了“错误预测率”。蓝线代表没有置信度模块的 CASPER (它会立即猜测) 。橙线是完整系统。如果没有置信度检查,机器人会做出更多错误的预测。通过等待自洽性,错误率显著下降。
结论
CASPER 代表了人机交互向前迈出的重要一步。通过集成视觉语言模型,该系统超越了简单的几何学,开始理解任务的语义。
它解决“意面罐”难题不是靠测量毫米,而是靠理解“意面”、“锅”和“倾倒”之间的关系。
关键要点:
- 常识为王: 纯几何意图推断在杂乱的现实环境中会失效。
- 影子模式行之有效: 允许机器人在后台“思考”,而用户在前台行动,创造了流畅的用户体验。
- 置信度防止挫败感: 一个知道何时不帮忙的机器人与知道如何帮忙的机器人同样重要。
随着 VLM 变得越来越快、越来越准确,像 CASPER 这样的系统可能会成为辅助机器人的标准,赋予运动障碍用户更独立地与环境互动的能力,并大大减少认知负担。
](https://deep-paper.org/en/paper/2506.14727/images/cover.png)