简介
如果你看过机器人尝试叠 T 恤,你可能会发现它的策略和你有着天壤之别。典型的机器人方法包括费力地将衣物在桌面上弄平,利用计算机视觉算法消除每一个褶皱,然后执行预先计算好的折叠动作。这不仅缓慢、僵化,而且需要大量的桌面空间。
而你呢?你可能会把衬衫拿起来,抖一抖,然后在半空中把它叠好。如果你抓错了的一端,你只需旋转它直到找到领口。你依靠的是对织物的触感和对袖子大概位置的理解,即使衬衫是皱巴巴的。
为什么这对机器人来说如此困难?衣物是“可变形的 (deformable) ”,这意味着它有无数种可能的形状。一件皱巴巴的衬衫看起来和一件平整的衬衫完全不同,而且关键特征 (比如袖子) 经常隐藏在褶皱里 (即自遮挡) 。
在一篇引人入胜的新论文 “Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance” (基于置信度感知密集对应和视触觉可供性的反应式空中衣物操纵) 中,来自麻省理工学院、Prosper AI 和波士顿动力的研究人员提出了一个框架,使机器人更接近人类的适应能力。他们的系统不再要求完美平整的衬衫视图,而是学会了在半空中操纵衣物,使用触觉传感器来“感受”布料,并且——至关重要的是——知道自己何时感到困惑并需要再看一眼。
在这篇深度文章中,我们将探讨他们是如何通过结合高保真仿真、一种新的视觉对应计算方法以及一个敢于说“我还不确定”的反应式状态机来实现这一目标的。
核心问题: 布料的无限形状
刚性物体操纵在机器人领域已基本解决。如果你看到一个咖啡杯,它的把手相对于杯身的位置总是固定的。但是一件衬衫呢?“把手” (比如肩部接缝) 可能在任何地方。它可能里外翻转、扭曲,或者埋在其他布料下面。
以前解决这个问题的尝试依赖于 摊平 (flattening) 。 其逻辑是: 如果我们把布料变成二维的,我们就可以像对待刚性物体一样对待它。但摊平非常耗时,而且如果机器人一开始弄不清楚如何展开物体,这种方法往往会失败。
研究人员提出了一种不同的范式: 空中操纵 (In-Air Manipulation) 。 通过提起衣物,重力有助于将其展开。为了实现这一点,机器人需要三种特定的能力:
- 密集对应 (Dense Correspondence) : 它需要观察一团混乱的像素,并识别出“那个像素是左肩”。
- 视触觉可供性 (Visuotactile Affordance) : 它需要知道“我真的能抓这个点而不打滑或抓到太多层吗?”
- 置信度感知 (Confidence Awareness) : 它需要知道自己有多确定。如果机器人认为一团布料可能是袖子但不确定,它就不应该行动。它应该等待或改变视角。

如 图 1 所示,该系统将这些组件集成到一个循环中。它感知布料,估计不同部分是“肩膀”或“袖子”的概率,检查这些部分是否可抓取,并使用触觉反馈来确认抓取是否成功。
第一步: 构建数字衣橱
要训练神经网络识别衬衫的各个部分,你需要数据——特别是带标签的数据。你需要知道皱巴巴图像上的这个特定像素对应于平整衬衫上的那个特定像素。
在现实世界中收集这些数据是一场噩梦。你需要拍摄数千张衬衫的照片,并在每一张照片上手动点击完全相同的针脚位置。相反,该团队转向了使用 Blender 4.2 进行仿真。

如 图 2 所示,他们创建了一个参数化生成流程。这不仅仅是渲染一个通用的 T 恤网格;他们随机化了:
- 几何形状: 袖长、领口类型 (V 领与圆领) 和松紧度。
- 物理属性: 刚度和阻尼 (布料摆动的方式) 。
- 视觉效果: 至关重要的是,他们添加了 接缝、卷边和缝线 。
为什么接缝很重要?在一团毫无特征的彩色布料中,接缝通常是指示方向的唯一视觉线索。通过模拟这些细节,视觉模型学会了依赖人类所用的相同几何线索。他们生成了 1,500 个场景,创建了一个包含“变形”与“规范” (平整) 配对的庞大数据集,所有数据都具有完美的基准真值标签。
第二步: 基于分布损失的密集对应
一旦数据准备就绪,机器人就需要一个大脑来解释它。目标是 密集对应 (Dense Correspondence) 。 这意味着获取一张皱巴巴的衬衫图像 (输入) ,并将每个像素映射到平整模板衬衫 (规范空间) 上的坐标。
对比损失的缺陷
传统上,研究人员使用 对比损失 (Contrastive Loss) 。 这种方法通过告诉网络: “皱巴巴图像中的像素 A 与平整图像中的像素 B 匹配。让它们的特征向量相似。让所有其他配对不相似。”来训练网络。
这对刚性物体有效,但布料具有 对称性 。 左袖子看起来和右袖子一模一样。如果衬衫是皱的,视觉上可能无法区分它们。对比损失迫使网络做出硬性选择,通常导致预测出落在衬衫中间某处的“均值”——这是错误的。
解决方案: 分布损失
研究人员采用了 分布损失 (Distributional Loss) 方法。网络不再强制进行单点匹配,而是预测规范衬衫上的 概率分布 (热力图) 。
如果机器人看到一个袖子但分不清是左袖还是右袖,网络可以在热力图上输出两个高概率的“斑点”——一个在左袖,一个在右袖。这显式地建立了不确定性模型。
概率估计器的数学公式为:

在这里,网络计算规范图像中的像素 \((x_i, y_i)\) 对应于皱巴巴图像中的查询像素 \((x_a, y_a)\) 的概率。它本质上是比较这两个点的特征描述符 (\(f(I)\))。
在训练期间,系统最小化预测热力图与以真实匹配点为中心的目标高斯分布之间的 KL 散度 (衡量概率分布之间差异的指标) 。

图 3 可视化了这个训练循环。注意 目标分布 (\(q_b\)) 。 它不仅仅是一个点;它是一个高斯斑点 (如果是对称的,则是多个斑点) 。这教导网络,“在肩膀附近”比“无处可寻”是更好的猜测,并允许它表达模糊性。
为什么这很重要: 置信度
由于网络输出的是分布,该分布的峰值充当了 置信度得分 。 如果峰值尖锐且高,机器人就很确定。如果分布平坦或分散,机器人就知道自己很困惑。这个指标是反应式系统的基石。
第三步: 视触觉可供性 (Visuotactile Affordance)
知道肩膀 在 哪里并不意味着你可以抓住它。它可能紧紧地贴在桌子上,或者与其他三层布料捆在一起。这就是 可供性 (Affordance) 发挥作用的地方。
该团队基于三个标准定义了一个好的抓取:
- 可达性 (Reachability) : 夹爪真的能到达那里吗?
- 碰撞 (Collision) : 夹爪会撞到桌子或其他身体部位吗?
- 材料厚度: 是否只有 2 层或更少的布料? (理想情况下,我们要抓的是一个边缘,而不是一整捆) 。
他们训练了一个 U-Net 架构,从深度图像预测“抓取质量”热力图。

弥合虚实差距 (Sim-to-Real Gap)
仿真永远无法完美匹配真实布料的物理特性。为了解决这个问题,研究人员使用 触觉自监督 在真实机器人上微调了模型。
他们在机器人手指上配备了 GelSight Wedge 传感器。这些触觉传感器可以提供接触面的高分辨率图像。机器人尝试了数千次抓取。如果 GelSight 传感器看到织物纹理,那就是成功。如果它什么也没看到 (抓空) 或看到太多堆积物,那就是失败。
这些数据被反馈到可供性网络中。结果呢?一个系统不仅能寻找视觉特征,还能在尝试之前“预想”抓取的感觉。

如 图 16 所示,微调后的模型 (右) 达到了平衡。纯仿真模型 (左) 太害怕抓取任何东西。纯现实世界模型 (中) 则很鲁莽。结合后的模型既理解几何结构,又尊重布料的物理现实。
第四步: 反应式状态机
现在我们有了一个能看 (对应关系) 并预测可抓取性 (可供性) 的机器人。我们如何结合它们来叠衬衫?
研究人员构建了一个 基于置信度的状态机 。 这是控制机器人行为的逻辑。它不遵循像“移动到 X,抓取 Y”这样的僵化脚本。相反,它遵循 探询 的逻辑。
- 观察: 看着悬挂的衬衫。
- 查询: “左袖在哪里?”
- 检查置信度:
- *高置信度: * “我看得很清楚。” -> 抓取。
- *低置信度: * “它被遮挡了或者我不确定。” -> 旋转。
- 行动: 如果抓取发生,使用触觉传感器确认。如果是空抓,重试。

这个工作流程 (详见 图 7 )允许机器人处理皱巴巴衣物的无限变异性。如果衬衫堆在一起导致袖子被隐藏,机器人会旋转它。重力改变了配置,新特征显露出来,置信度飙升,机器人随后出击。
实验结果
那么,它有效吗?
视觉性能
研究人员将他们的分布损失方法与标准的对比损失方法进行了比较。他们评估了系统在皱巴巴的衬衫上找到特定点的准确性。

图 4 显示了结果。红线 (对称分布) 位于最高位置,表明误差率最低。图 (b) 中的热力图说明了一切: 分布方法产生紧密、准确的热点 (红色/黄色) ,而对比方法产生混乱、自信但错误的预测。
现实世界折叠
当部署在真实的双臂机器人装置上时,该系统显示出令人印象深刻的弹性。

在 图 5 中,你可以看到机器人的内部视图。“对应热力图”显示了它认为部件在哪里,而“抓取可供性”显示了哪里抓取是安全的。这两个图的交集给出了目标。
该系统能够成功地折叠和挂起从高度遮挡状态开始的衬衫。然而,它并不完美。

图 8 突出了仍然存在的挑战。有时“密集对应”会被愚弄——它可能把衬衫的里面误认为是外面,或者抓住了后层而不是前层。这些是“不可恢复的”,因为机器人 以为 它成功了。然而,像“抓空” (抓空气) 这样的故障几乎总是被触觉传感器捕捉到,允许机器人恢复并重试。
未来: 向人类学习
这项工作最令人兴奋的意义之一是 从演示中学习 (Learning from Demonstration) 的潜力。由于密集对应网络将 任何 衬衫映射到规范模板,它可以有效地将人类的视频“翻译”为机器人指令。

如 图 6 所示,系统可以观察人类抓取衬衫上的特定点。它跟踪人手,将该点映射到规范模板,然后将该模板点映射回机器人当前对自己衬衫的视图。这使得机器人可以模仿折叠策略,而无需为每个动作进行显式编程。
结论
论文 “Reactive In-Air Clothing Manipulation” 代表了可变形物体机器人操纵领域的重要一步。关键的收获不仅仅是更好的视觉或更好的传感器,而是 不确定性的整合 。
通过从僵化的“对比”匹配转向概率性的“分布”匹配,机器人获得了评估自身困惑的能力。通过将其与触觉反馈和反应式状态机相结合,它获得了等待更好机会的耐心。
虽然我们还没到 Rosie 机器人 (动画片《杰森一家》中的机器人保姆) 帮我们收拾所有衣服的地步,但这项研究提供了一个如何实现这一目标的蓝图: 停止试图强迫世界变得平坦和刚性,而是构建能够适应现实中皱巴巴且混乱本质的机器人。
](https://deep-paper.org/en/paper/2509.03889/images/cover.png)