引言

进食是人类最基本的活动之一,这种行为如此直观,以至于我们很少去细想它。当你坐下来吃饭时,你不会计算刺穿西兰花和圣女果分别需要多少牛顿米的力。你也无需在决定是用勺子挖还是用叉子叉土豆泥之前,有意识地分析它的粘度。然而,对于数百万行动受限的人来说,无法自主进食是独立生活和尊严的巨大障碍。

辅助机器人技术长期以来一直承诺提供解决方案: 能够喂养用户的机械臂。然而,“取食 (bite acquisition) ”——即从盘子中拾取食物的过程——对机器来说却极其困难。为什么?因为食物是混乱的。它的物理形态多样、易变形,而且至关重要的是,它会随时间变化。刚出锅时鲜嫩多汁的牛排,冷却后会变得坚硬紧实。一勺冰淇淋会融化成一滩水。

大多数最先进的机器人喂食系统依赖于视觉分类。它们看到一个红色的圆形物体,将其标记为“苹果”,然后执行预设的“水果叉取”策略。但如果那个红色物体实际上是一个柔软的烤番茄呢?或者,如果机器人手里拿的是一把脆弱的塑料叉子而不是刚性的金属叉子呢?基于分类的方法之所以失败,是因为它忽略了交互的物理现实。

在这篇文章中,我们将深入探讨 SAVOR , 这是一篇由康奈尔大学和加州大学圣地亚哥分校的研究人员发表的研究论文。SAVOR提出了一种超越简单视觉标签的方法。它引入了一个系统,让机器人学习 技能可供性 (Skill Affordances) ——不仅理解食物是什么,还理解食物如何对工具做出物理反应,以及这些工具在压力下的表现如何。

图 1: 我们提出了 SAVOR,这是一种结合工具可供性和食物可供性的方法,用于选择适当的操作技能以实现稳健的取食。

如图 1 所示,当食物属性发生变化 (如牛排冷却) 时,标准方法会失败。然而,SAVOR 通过结合离线学习和在线“视触觉 (visuo-haptic) ”感知 (看和感觉) 来动态调整其策略,从而显著提高了机器人喂食的成功率。

背景: 可供性的层级结构

要理解 SAVOR 如何工作,我们首先需要拆解 可供性 (affordances) 的概念。在机器人学和心理学中,可供性描述了物体提供的行动潜力。把手提供“抓握”的可供性;椅子提供“坐”的可供性。

SAVOR 的作者认为,成功的进食需要对三个不同层面的可供性进行推理:

  1. 食物可供性 (Food Affordances) : 食物允许做什么?这块豆腐能被叉起来而不碎吗?这汤够粘稠能停留在平勺上吗?这些由柔软度、水分和粘度等物理属性决定。
  2. 工具可供性 (Tool Affordances) : 餐具能做什么?金属叉子可能适合刺穿硬肉,而塑料叉子在同样的负载下可能会折断或弯曲。这是基于模拟的学习中经常被忽略的一个关键区别。
  3. 技能可供性 (Skill Affordances) : 这是前两者的综合。它捕捉的是在考虑到 食物 的状况和 工具 的能力时,特定的操作技能 (例如,“用力叉取”) 是否合适。

纯视觉方法的局限性

像 FLAIR (Feeding via Long-horizon Acquisition of Realistic dishes) 这样的先前方法严重依赖视觉语言模型 (VLMs) 来识别食物类别。如果模型看到香蕉,它会将其归类为“水果”并选择叉取策略。

然而,视觉数据通常具有欺骗性。一块假的塑料水果看起来与真水果一模一样,但需要完全不同的处理方式。更常见的是,视觉数据无法传达硬度或摩擦力等隐藏属性。当机器人意识到肉太硬无法刺穿时,它通常已经尝试失败了。

SAVOR 通过引入 触觉 (haptics) ——触碰的感觉——来弥补这一差距。通过分析尝试过程中经历的力和力矩,机器人可以“感觉”食物的属性并更新其对世界的理解。

SAVOR 框架

SAVOR 的核心理念是机器人应该像人类用餐者一样行事。我们根据看到的情况开始猜测 (“那看起来很软”) ,但如果我们的叉子遇到意外的阻力,我们会立即调整 (“哦,它实际上是冻住的”) 。

该框架分两个阶段运行: 部署前 (离线)部署期间 (在线)

图 2: SAVOR 框架。在部署之前,我们进行离线工具校准以了解工具可供性。在部署期间,我们首先使用视觉条件语言模型来估计食物物理属性,然后通过在线视触觉感知对其进行改进。

如图 2 所示,该系统是一个包含估计、行动和修正的闭环。让我们分解其架构。

1. 部署前: 学习工具

在机器人看到餐盘之前,它必须了解自己的身体和工具。这被称为 离线工具校准

在这个阶段,机器人对具有已知属性的一小组训练食物 (例如生胡萝卜、奶酪、坚果) 执行随机的技能操作 (叉取、勺取、推挤) 。目标不仅仅是成功,而是记录尝试时发生的情况。

例如,系统可能会记录:

工具: 塑料叉。动作: 叉取。目标: 生胡萝卜。结果: 失败 (工具变形) 。

这创建了一个隐式表示工具可供性的数据集。之后,当机器人规划动作时,它可以参考这些数据。如果它看到一种类似生胡萝卜硬度的食物,并且手里拿着塑料叉,它就会根据这个校准历史知道叉取是个坏主意。

2. 部署前: 训练 SAVOR-Net

第二个离线组件是训练操作的感知大脑: SAVOR-Net 。 这是一个神经网络,旨在预测食物不可见的物理属性。

研究人员确定了定义可食用物品行为方式的五个关键物理属性:

  • 形状和大小: 可通过视觉观察。
  • 柔软度、水分、粘度: 需要交互 (触摸) 才能完全理解的潜在属性。

图 3: (a) 取食技能库。(b) SAVOR-Net 模型架构。

图 3(b) 详细介绍了 SAVOR-Net 的架构。它是一个多模态网络,意味着它同时摄取不同类型的数据:

  • 图像序列: 由 ResNet50 编码器处理的 RGB 帧。
  • 深度序列: 由 CNN 处理的深度图。
  • 触觉序列: 来自机器人手腕上传感器的力和力矩读数。
  • 姿态序列: 机械臂在 3D 空间中的位置。

这些输入被融合并传递给 LSTM (长短期记忆) 网络,该网络擅长处理时间序列数据。网络输出食物物理属性的预测 (例如,柔软度: 4/5 级) 。

3. 部署: 推理循环

一旦机器人面对拿着饭菜的用户,在线阶段就开始了。这被建模为部分可观察马尔可夫决策过程 (POMDP) ——这是“我们需要做决定,但我们没有掌握所有事实”的数学表达。

步骤 A: 初始常识推理

当机器人第一次看盘子时,它还没有接触任何东西。它捕获 RGB-D 图像并将其发送给大型视觉语言模型 (GPT-4V) 。

系统向 VLM 提供上下文提示。例如:

“你看到一盘牛排。基于常识,估计其柔软度、水分和粘度。”

VLM 可能会返回“柔软度”得分为 3 (中等柔软) 。基于这个猜测以及工具校准数据,机器人选择一项技能——也许是“叉取”。

步骤 B: 行动与修正

机器人尝试执行该动作。这是 SAVOR 大显身手的地方。当叉子接触食物时,机器人会记录触觉反馈。

如果叉取尝试成功,太好了!机器人喂用户。 如果失败 (例如,叉子被弹开) ,机器人不会直接放弃。它会将那次失败尝试的视频和力数据输入 SAVOR-Net

SAVOR-Net 分析这次碰撞。它注意到高力峰值和零穿透深度。它更新状态估计: “更正: 柔软度实际上是 1 (硬) 。”

步骤 C: 重新规划

有了更新后的状态 (食物是硬的) ,机器人再次查询 VLM 规划器。

“食物是硬的。工具是塑料叉。叉取失败。我该怎么办?”

规划器参考显示塑料叉无法叉取硬物的校准数据,将策略切换为“勺取”。

图 6: 取食的定性结果。机器人首先根据其初始属性估计尝试叉取食物但失败了 (步骤 2) 。来自此尝试的视觉和触觉数据由 SAVOR-Net 处理,以高置信度改进估计。然后,VLM 规划器根据此更新选择勺取技能 (步骤 3) 。

图 6 完美展示了这个循环。在第一行中,机器人尝试叉取 (步骤 2) 并失败。SAVOR-Net 分析力数据 (事件 #2) 并更新柔软度评分。在步骤 3 中,规划器转向勺取,并取得成功。

实验与结果

为了验证 SAVOR,研究人员使用 Kinova Gen3 机械臂建立了一个全面的评估。他们在 10 道真实菜肴 中测试了 20 种不同的食物 。 这些不仅仅是塑料道具;他们使用了从沙拉、水果到牛排和咖喱的真实食物。

图 4: 实验设置: 10 道真实菜肴。* 表示训练期间未见过的食物。表 1: 取食的定量结果。

如图 4 所示,盘子种类繁多且杂乱,模拟了真实世界的用餐场景,食物之间相互接触和重叠。

校准重要吗?

第一个主要发现是工具校准的影响。研究人员使用坚固的金属叉和脆弱的塑料叉测试了该系统。

如果没有校准,系统会对两种工具一视同仁。它会试图用塑料叉去叉硬牛排,导致屡次失败。启用校准后,系统理解了塑料叉的局限性,遇到硬物时会默认使用勺取,即使对于金属叉来说叉取可能是首选方法。

视觉 vs. 触觉

研究人员将 SAVOR 与几个基线进行了比较:

  • 仅视觉 (Vision-only) : 仅使用摄像头猜测属性。
  • 仅触觉 (Haptic-only) : 仅使用触觉 (盲目交互) 。
  • FLAIR: 最先进的基于类别的方法。

结果非常明显。 SAVOR 在 3 次尝试内的成功率达到了 87.3% , 显著优于 FLAIR (73.4%) 和仅视觉方法 (77.2%)。

仅视觉基线在处理“视觉伪装者”时很吃力。例如,在盘子 1 上,草莓、西瓜和胡萝卜看起来都是红色的,形状也有些相似。视觉系统可能会将一块胡萝卜误认为是西瓜。由于西瓜是软的,机器人试图叉取胡萝卜,而胡萝卜是硬的,导致失败。SAVOR 通过结合触觉,在接触时立即检测到硬度并修正策略。

对未见食物的泛化能力

任何机器人系统的一个关键测试是它如何处理以前没见过的东西。研究人员在训练集中未包含的食物上测试了 SAVOR。

图 7: 在已见和未见食物上的泛化性能。我们在 20 种食物上比较了 SAVOR 和 SOTA FLAIR。

图 7 显示,SAVOR (橙色条) 的表现始终匹配或优于 FLAIR 基线 (蓝色条) ,尤其是在像蛋糕或鳄梨这样困难的未见物品上。

这种成功的原因在于该方法的 物理落地 (physical grounding) 。 即使机器人以前从未见过特定类型的蛋糕,当它接触蛋糕的那一刻,SAVOR-Net 就会识别出“柔软、多孔、低水分”的物理特征。它不需要知道“海绵蛋糕”这个名字就知道如何处理它。

食物的物理学

要真正理解 SAVOR 为什么有效,我们必须看看物理学。图 8 展示了 SAVOR-Net 训练检测的具体属性。

图 8: 食物物理属性对餐具交互的影响。机器人叉取不同柔软度 (上) 和粘度 (下) 的食物。

  • 柔软度: 在第一行中,我们看到机器人与豆腐互动。硬豆腐允许叉取,但极软的豆腐可能会碎裂 (或者需要非常精细的叉取) 。
  • 粘度: 在第二行中,机器人处理土豆泥。低粘度的土豆泥很容易舀起。高粘度 (非常粘/稠) 的土豆泥可能会以意想不到的方式粘在盘子或勺子上,需要“旋转 (Twirl) ”或更强力的“勺取”动作。

通过显式建模这些属性,SAVOR 将机器人的推理从语义标签 (“这是土豆”) 转移到了功能动力学 (“它很粘且很软”) 。

结论与启示

SAVOR 代表了辅助机器人技术的重大进步。它强调了目前单纯依赖大型视觉语言模型趋势的局限性。虽然 VLMs 在识别物体方面非常聪明,但它们缺乏来自交互的物理直觉。你无法提示 ChatGPT 去“感觉”一块牛排有多硬。

这项研究的关键要点是:

  1. 可供性是动态的: 食物的“可勺取性”或“可叉取性”会根据其温度、成熟度和使用的工具而变化。
  2. 多模态感知至关重要: 视觉提供路线图,但触觉提供地形详情。机器人需要两者才能在餐盘的复杂景观中导航。
  3. 失败即信息: 在 SAVOR 框架中,失败的尝试不是死胡同;它是一个高保真数据点,使下一次尝试更有可能成功。

对于数百万依赖护理人员进食的人来说,像 SAVOR 这样的系统展示了一个未来: 机器人不仅仅是预编程的机器,而是能够处理混乱、多变且人性化的用餐现实的适应性伙伴。

未来的工作旨在进一步闭合循环。目前,SAVOR 将食物视为一个单一的均匀物体。然而,一块西兰花有柔软的花球和坚硬的茎。整合实时的闭环控制,在动作 过程中 (毫秒级) 调整机器人的抓地力,可以进一步完善机器人进食的精细艺术。