想象一下给一个蹒跚学步的孩子穿夹克。现在,再想象一下这个孩子正在乱动——伸手去拿玩具、挠头或挥手。这项任务不仅需要耐心和视觉协调,最重要的是,需要触觉。如果袖子卡住了,你会感觉到阻力并调整角度。你绝不会硬推。

对于辅助机器人来说,给人穿衣服是“圣杯”般的挑战之一。它有望恢复数百万行动不便者的独立性。然而,这也是一个物理学和安全性的噩梦。衣服是可变形的物体,有无数种折叠和钩挂的方式。人是动态的;他们会移动、颤抖和变换姿势。

在这篇文章中,我们将深入探讨一篇引人入胜的研究论文: “Force-Modulated Visual Policy for Robot-Assisted Dressing with Arm Motions” (用于手臂运动下机器人辅助穿衣的力调制视觉策略) , 该论文为这个问题提出了一个稳健的解决方案。研究人员引入了一种系统,它不仅能“看”到衣服,还能通过力反馈“感觉”交互,从而实时适应移动的人体手臂。

图 1: 我们学习到的策略的轨迹快照。它能够泛化地为不同的人穿上两件日常衣物,同时在穿衣过程中对多种手臂动作具有鲁棒性。

核心问题: 为什么机器人穿衣如此困难?

要理解这篇论文的贡献,我们首先需要了解这项任务的难度。

  1. 可变形物体操纵 : 不像拿起一个刚性的杯子,衬衫的形状时刻在变。没有单一的“状态”可以追踪。
  2. 遮挡 : 当机器人将夹克拉到手臂上时,夹克本身会挡住摄像头对手臂的视线。机器人实际上对其试图穿衣的肢体的确切位置变得“失明”了。
  3. 人体运动 : 大多数先前的研究假设人保持完全静止 (像人体模型一样) 。实际上,行动不便的人可能会有震颤,或者只是自然地移动 (例如看手机) 。如果机器人假设手臂是静止的,而手臂移动了,机器人可能会强行将衣物推入碰撞路径,从而造成伤害。

研究人员认为, 仅靠视觉是不够的 。 当你的视线被夹克挡住时,你需要另一种感官来告诉你织物下面发生了什么。这种感官就是力 (Force)

解决方案: 力调制视觉策略 (FMVP)

研究人员提出了一种称为力调制视觉策略 (Force-Modulated Visual Policy, FMVP) 的方法。其高层理念是结合大规模仿真和少量真实世界数据来训练机器人,该数据融合了两种感官输入:

  1. 视觉 : 来自深度相机的点云,用于理解布料和人的几何形状。
  2. : 来自机器人手臂的读数,用于检测阻力和接触。

该方法被分解为一个三阶段的流程。

图 2: 我们要法概述。(顶部) 我们在仿真中使用强化学习,针对各种手臂姿势、衣物和体型训练一个基于视觉的策略。(中间) 我们通过运行预训练策略收集未标记的真实世界数据集,结合 VLM 和基于时间的信号生成偏好标签,并训练一个奖励模型来标记数据集。(底部) 我们利用标记好的真实世界数据集,同时使用视觉和力信息对仿真预训练的视觉策略进行微调。力信号通过 FiLM 层注入视觉网络,从而调制潜在的视觉特征。

让我们详细了解这三个阶段。

第一阶段: 仿真中的基于视觉的预训练

从零开始在现实世界中训练机器人既危险又缓慢。如果机器人为了学习物理规律而乱动,可能会伤到人。因此,团队从仿真器 (NVIDIA FleX) 开始。

在仿真中,他们使用强化学习 (RL) 训练了一个基于视觉的策略 (\(\pi_{vis}\))

  • 观测 : 机器人看到一个“点云”——一组代表衣物和人体手臂可见部分的 3D 点集。至关重要的是,仿真模拟了现实世界的“部分可观测性”,这意味着如果手臂被布料覆盖,策略就无法看到整个手臂。
  • 局限性 : 仿真并不完美。它假设手臂是静止的 (因为在移动的手臂上模拟布料动力学在计算上是不稳定的) 。此外,仿真器在模拟软布料的精确摩擦力和力数据方面也是出了名的糟糕。

因此,在第一阶段结束时,我们拥有了一个擅长给静止的人穿衣的机器人,但它没有力的概念,如果人移动了,它就会不知所措。

第二阶段: 真实世界数据收集与奖励标记

为了跨越“仿真到现实 (Sim-to-Real) ”的鸿沟,机器人需要真实世界的经验。研究人员将第一阶段的策略应用到真人身上。

因为仿真策略并不完美,所以这里收集的数据是“次优”的。机器人可能会卡住或采取低效的路径。然而,如果我们能从中学习,这些嘈杂的数据也是有价值的。但为了学习,我们需要一个“奖励函数”——一种对特定动作的好坏进行数学评分的方法。

在仿真中,计算奖励很容易 (我们确切知道布料粒子的位置) 。在现实世界中,我们只有相机图像。我们如何给机器人打分?

作者巧妙地混合使用了视觉语言模型 (VLM) 和基于时间的启发式方法来标记这些数据。

基于偏好的奖励模型

他们没有手动定义奖励函数,而是训练了一个神经网络来根据偏好预测奖励。他们向 VLM (如 GPT-4V) 展示成对的图像 (片段 A vs. 片段 B) ,并询问: “在哪张图片中,夹克穿得更成功?”

\[ P _ { \theta } [ \tau _ { i } \succ \tau _ { j } ] = \frac { \exp \left( r _ { \theta } ( \tau _ { i } ) \right) } { \exp \left( r _ { \theta } ( \tau _ { i } ) \right) + \exp \left( r _ { \theta } ( \tau _ { j } ) \right) } \]

这个方程代表了用于训练奖励网络的 Bradley-Terry 模型。本质上,网络 \(r_{\theta}\) 学习给 VLM 更偏好的图像轨迹 (\(\tau\)) 分配更高的标量值。

他们还增加了一个安全约束。如果一次穿衣尝试施加了太大的力,那就是糟糕的。他们使用以下公式惩罚高力值:

\[ r _ { \mathrm { f o r c e } } = - \operatorname* { m i n } \left( 1 , { \frac { \| \mathbf { f } \| } { 8 } } \right) ^ { 2 } \]

这产生了一个“软”惩罚,随着力的增加呈二次方增长,从而阻止机器人简单地强行突破阻力。

第三阶段: 使用 FiLM 进行多模态微调

这是最关键的技术贡献。团队采用仿真训练的策略,并使用第二阶段收集的真实世界数据对其进行微调

他们使用一种称为 IQL (隐式 Q 学习) 的离线 RL 算法。但他们不仅仅是重新训练视觉网络;他们还将数据注入其中。

视觉与力是如何融合的

研究人员不仅仅是将力向量连接到图像向量上。他们使用了一种称为 FiLM (Feature-wise Linear Modulation,特征层面线性调制) 的技术。

想象一下,视觉网络正在分析场景的 3D 几何形状。FiLM 层允许力输入“调制”或调整网络解释该视觉数据的方式。

  • 如果力很低 (0 牛顿) ,视觉特征可能会被正常处理。
  • 如果力很高 (表明卡住了) ,FiLM 层会改变神经网络的激活,实际上是在告诉策略: “视觉数据说前进,但力数据暗示我们卡住了,所以改变计划。”

这使得策略成为力调制的。它不仅仅是对力做出反应;力改变了它看待世界的方式。

仿真实验: 概念验证

在接触人类之前,该方法在二级仿真环境 (PyBullet/Assistive Gym) 中进行了严格测试,以验证微调是否真的有效。该设置作为一个“仿真到仿真 (Sim-to-Sim) ”的迁移测试。

他们在四种不同的体型 (小号到特大号) 和各种手臂动作上测试了机器人。

图 17: 仿真中的体型。

结果令人瞩目。 FMVP (Ours) 方法显著优于基线纯视觉策略和其他力集成方法。

表 1: 所有方法在不同体型下的上臂穿衣率。

如表 1 所示,“基于视觉 (Vision-based)”的策略表现挣扎,尤其是在体型变化时 (在特大号身体上的成功率降至 0.29) 。 FMVP 方法保持稳健,在所有尺寸上保持 0.60 以上的得分。这证明了结合力反馈有助于机器人泛化到它从未见过的体型。

团队还针对不同的手臂动作测试了机器人,范围从简单的放下手臂到挠头。

图 10: 仿真中的基本手臂动作。

真实世界人类研究

任何机器人论文的终极测试都是真实世界。研究人员招募了 12 名参与者,进行了 264 次穿衣试验

设置:

  • 机器人 : Sawyer 机械臂。
  • 衣物 : 两件长袖日常衣物 (一件格纹衬衫和一件棕色夹克) 。
  • 任务 : 将袖子完全穿到参与者的手臂上。
  • 条件 : 参与者被要求在穿衣过程中执行特定的动作 (如看手机、挥手或即兴动作) 。

图 3: 人类研究设置 (左) ,研究中使用的衣物 (中) 和手臂动作 (右) 。

定量结果

主要指标是“上臂穿衣率 (Upper Arm Dressed Ratio)”——即袖子成功穿上手臂的比例。

结果验证了仿真的发现。FMVP 实现了 0.79 的平均上臂穿衣率 , 相比之下,基于视觉的策略为 0.63,称为 FCVP (力约束视觉策略) 的基线为 0.50。

注: FCVP 是一种仅使用力来停止不安全动作的方法,而不是学习统一的策略。FCVP 的失败凸显了仅仅“避免大力”是不够的;机器人需要主动利用力数据来寻找更好的路径。

定性结果: 感觉如何?

在辅助机器人技术中,用户舒适度与任务成功同样重要。参与者被要求在李克特量表 (Likert scale) 上对他们的体验进行评分。

图 4: 李克特项目反馈 (左) 和平均手臂穿衣率 (右) ,基于所有方法都测试了相同手臂动作和衣物的 48 次试验进行评估。

看图 4 (左) 中的箱线图:

  • Q3 (舒适吗?) : FMVP 方法 (蓝色) 的中位数得分远高于基线。
  • Q4 (对运动鲁棒吗?) : 参与者一致认为 FMVP 更好地处理了他们的动作。

这种差异是显而易见的。对于纯视觉机器人,如果你移动手臂且夹克挡住了视线,机器人可能会盲目地将袖子推向你的肘部。有了 FMVP,机器人能感觉到卡住并进行调整。

失败案例

没有机器人是完美的。研究人员透明地分享了失败案例。

图 12: 我们系统在人类研究中的失败案例。(顶部) 当参与者执行“放下手臂”动作时,衣物卡在肘部。(底部) 策略动作过早向内转动,停止向被穿衣的上臂推进。

在上面的例子中,参与者大幅放低了手臂。这产生了两个问题: 严重的视觉遮挡 (相机看不到手臂) 和分布外 (out-of-distribution) 的物理交互 (将机器人向下拉) 。策略在这里未能适应。

结论与启示

这篇论文代表了物理人机交互 (pHRI) 向前迈出的重要一步。通过摒弃人类是静态雕像的假设,研究人员创建了一个更安全、更能处理日常生活混乱现实的系统。

主要收获:

  1. 别具一格的 Sim-to-Real : 在仿真中训练很棒,但对于富含接触的任务,使用真实世界数据进行微调至关重要。
  2. 传感器融合 : 视觉引导机器人到达目标;力引导机器人避开障碍物。使用 FiLM 层用力调制视觉是一种强大的架构。
  3. 通过学习实现安全 : 与其使用硬编码的安全停止 (这通常会冻结机器人并导致任务失败) ,不如学习一个理解力的策略,从而实现更流畅、更连续的操作。

随着机器人从工厂进入我们的家庭和护理机构,它们“感觉”自己在做什么的能力将与它们“看”的能力一样重要。这项关于力调制视觉策略的工作让我们离能够温柔可靠地帮助我们穿衣的机器人又近了一步。