开门似乎是世界上最简单的任务。对于人类来说,这毫不费力: 你伸出手,握住把手,然后拉开。如果门很重或者铰链很生涩,你的手会自动调整力量和轨迹以顺应门的自然弧度。你甚至根本不需要思考。
然而,对于机器人来说,这个简单的动作却是一个几何噩梦。
如果机器人规划的轨迹稍微偏离了门的物理约束——比如向左拉偏了一厘米——它就会与铰链发生对抗。这会产生“有害力”。在最好的情况下,机器人任务失败。在最坏的情况下,它会把门把手扯下来,或者烧毁自己的电机。
今天,我们将深入探讨一篇名为 “Ensuring Force Safety in Vision-Guided Robotic Manipulation via Implicit Tactile Calibration” (通过隐式触觉校准确保视觉引导机器人操作中的力安全) 的论文。研究人员提出了一个名为 SafeDiff 的新颖框架。通过结合扩散模型的生成能力与触觉反馈 (触摸) 的矫正引导,SafeDiff 允许机器人“感觉”出正确的路径,即使在视觉不完美的情况下也能确保安全。
问题所在: 视觉与物理之间的鸿沟
大多数现代机器人系统严重依赖计算机视觉。机器人观察场景,识别门把手,并规划移动路径。问题在于,视觉提供的是对世界的欧几里得 (Euclidean) 理解 (X, Y, Z 坐标) ,但被操作的物体通常具有受限的轨迹。
门的移动并不是直线的;它沿着由铰链决定的弧线移动。

如上图 1 所示,当机器人拉门时,它施加的力可以被分解。与弧线相切的力 (\(F_z\)) 是有效力——这实际上是用来开门的。然而,任何垂直于该轨迹施加的力 (\(F_x\) 和 \(F_y\)) 都在与门的机械约束对抗。这些就是有害力 。
传统的控制方法,如阻抗控制,试图通过使机器人的手臂“更软”或更顺应来解决这个问题。然而,这些方法通常需要环境的精确数学模型,这在混乱、非结构化的现实世界设置中很少具备。另一方面,深度学习方法通常纯粹关注“成功率” (门开了吗?) ,而不是“力安全” (开门时我们把它弄坏了吗?) 。
解决方案: SafeDiff
研究人员提出了一种受人类生物学启发的解决方案。当我们开门时,我们利用视觉进行初步猜测,但在操作过程中,我们依靠触觉反馈 (力感) 来实时校准我们的动作。
SafeDiff 是一个基于扩散模型的框架,旨在为机器人生成一系列“安全状态”。与只是输出从 A 到 B 路径的标准轨迹规划器不同,SafeDiff 利用实时力数据迭代地优化路径。
架构
SafeDiff 的核心是使用扩散模型 (Diffusion Model) 。 如果你熟悉 Stable Diffusion 等图像生成工具,你知道它们的工作原理是获取噪声图像并迭代地“去噪”以揭示清晰的画面。SafeDiff 做同样的事情,但它生成的不是像素,而是机器人状态 (位置和速度) 。
该架构遵循编码器-解码器 (Encoder-Decoder) 结构,如下图所示:

该过程涉及两个主要模块:
- 视觉引导映射模块 (VMM) : 编码器。它观察场景并制定粗略计划。
- 触觉引导校准模块 (TCM) : 解码器。它感受力量并修正计划。
让我们分解一下这些模块。
1. 编码器: 视觉引导映射 (VMM)
VMM 的目标是基于机器人的所见生成初始状态表示。它获取当前机器人状态和视觉上下文 (门的图像) ,并将高斯噪声输入映射为结构化的状态表示。
为了有效地将视觉数据融合到流程中,作者使用了 FiLM (Feature-wise Linear Modulation,特征线性调制) 。 视觉特征预测仿射系数 (\(\alpha\) 和 \(\beta\)) 来调制噪声。
初始映射的数学公式为:

在这里,网络从图像 (\(I\)) 和当前状态 (\(\hat{S}\)) 中提取上下文来修改噪声 (\(N\)) 。自注意力层 (Sttn) 随后确保状态序列在时间上是连贯的——这意味着机器人不会从一毫秒随机抖动到下一毫秒。
然而,仅靠视觉是不够的。摄像头可能会误判铰链位置几毫米。在物理世界中,这个误差会转化为巨大的有害力。这就是解码器发挥作用的地方。
2. 解码器: 触觉引导校准 (TCM)
这是论文中最关键的创新。TCM 充当“校准器”。它获取来自编码器的基于视觉的计划,并利用当前力反馈 (\(F\)) 对其进行优化。
如果机器人在特定方向感受到阻力 (有害力) ,TCM 会调整未来的轨迹以减轻这种压力。研究人员将“有害力”和“轨迹误差”视为同一枚硬币的两面: 一面在力空间中,另一面在状态空间中。
校准过程使用交叉注意力块 (Cttn) 将力安全上下文注入到状态序列中:

在上面的第二个公式中,注意新状态 \(S^*\) 是前一个状态加上一个源自力反馈 (\(F\)) 的修正项之和。这就是隐式校准 。 模型并没有被明确告知“向左移动 2 毫米”;它学习的是“感受阻力”与“调整轨迹”之间的高维关系。
衡量安全性: 新指标
由于之前的研究主要关注成功率,因此没有足够的指标来衡量操作任务有多安全。作者引入了一个新的力安全基准。
首先,他们定义了一个严格的阈值。他们假设任何超过 20 牛顿 (N) 的相互作用力都是危险的。
他们引入了安全率 (Safety Rate, SaR) 。 由于一条轨迹包含许多步,他们观察有多少比例的步骤保持在安全力限制内。

基于此,他们定义了 SaR-95 和 SaR-80 :

- SaR-95: 如果一次试验中 95% 的步骤都具有低有害力,则该试验被视为“安全”。
- SaR-80: 如果一次试验中 80% 的步骤都具有低有害力,则该试验被视为“安全”。
- SuR (成功率) : 门真的打开了吗?
- AHF / MHF: 平均有害力和最大有害力。
数据集: SafeDoorManip50k
数据是深度学习的燃料。为了训练 SafeDiff,作者创建了 SafeDoorManip50k , 这是一个大规模的仿真数据集。

他们模拟了 57 种不同的门 , 具有不同的把手类型、尺寸、摩擦水平和铰链刚度。他们收集了近 48,000 个训练演示 。 至关重要的是,他们不仅仅收集“完美”的演示。他们在训练数据中引入了随机噪声来模拟误差,迫使模型学习如何利用触觉反馈来纠正自己。
仿真参数经过广泛随机化,以确保模型能够泛化:

实验结果
研究人员将 SafeDiff 与最先进的基准进行了比较,包括“Haptic-ACT” (带触觉的动作分块 Transformer) 和“UniDoorManip” (一种轨迹生成器) 。
仿真结果
仿真结果具有决定性意义。

查看表 1 (上图) ,比较 Ours (V+T) (视觉+触觉) 与基准:
- 成功率 (SuR): SafeDiff 达到约 80%,显著高于 Haptic-ACT (约 47%) 或 Li et al. (约 69%)。
- 力安全: 最显著的差异在于有害力。SafeDiff 将平均有害力 (AHF) 保持在 5N 左右。基准则徘徊在 8N-9N 左右。
- 安全率 (SaR): 在 10N 阈值下,SafeDiff 取得了 78.73% 的 SaR-80 得分。最接近的竞争对手仅达到 43.12% 。
这证明了添加触觉解码器不仅能把门打开;而且能温柔地打开。
应对干扰
现实环境是混乱的。如果机器人被撞了一下,或者门的机械结构卡住了怎么办?研究人员通过在任务期间施加周期性干扰 (摇动机器人的目标位置) 来测试这一点。

在图 5 中,蓝线代表有害力。
- 图 (a) 显示 SafeDiff 仅使用视觉。注意到巨大的力尖峰了吗?它无法适应。
- 图 (c) 显示 SafeDiff 配合触觉校准 。 尽管存在干扰,力的曲线保持低且稳定。
- 图 (b, d, e) 显示基准模型在剧烈的力尖峰中挣扎。
现实世界验证
仿真很好,但在真正的机器人上有效吗?作者在 KUKA iiwa14 机器人上部署了 SafeDiff。他们使用了一种称为仿真到现实迁移 (Sim-to-Real transfer) 的技术,在仿真中训练,并用少量现实世界数据进行微调 (少样本学习) 。

如图 3 所示,机器人成功操作了各种门。右侧的图表显示接触力在整个轨迹中保持在较低水平。
定量现实世界数据加强了仿真发现:

在表 3 中,查看带有“Disturbance” (干扰) 的行。
- Li et al. [1] (基准) : 当添加干扰时,平均有害力飙升至 18.8N , 且安全率 (SaR-95) 降至 0% 。
- Ours (V+T): 在相同干扰下,平均有害力保持在 6.25N , 且 SaR-80 保持在 100% 。
结论与关键要点
SafeDiff 论文提出了一个令人信服的观点: 为了使机器人操作在非结构化环境中安全,仅靠视觉是不够的。机器人需要感觉。
通过使用扩散模型,研究人员创建了一个可以生成复杂的非线性轨迹的系统。通过集成触觉引导校准模块,他们确保了这些轨迹尊重物理世界的约束。
给学生的关键要点:
- 隐式校准: 模型不是计算明确的误差向量,而是学习根据力反馈调整其潜在状态表示。
- 状态规划与动作规划: 当几何约束至关重要时,规划一系列状态 (机器人应该在哪里) 可能比规划动作 (电机扭矩) 更安全。
- 数据至关重要: SafeDoorManip50k 的创建凸显了对包含力/触觉模态而不仅仅是图像的专用数据集的需求。
这项研究为能够帮助我们做家务——打开冰箱、橱柜和门——而不会扯下把手的机器人铺平了道路。这是迈向不仅仅是智能,而且是温柔的机器人的一步。
](https://deep-paper.org/en/paper/2412.10349/images/cover.png)