简介

想象一下教机器人做饭。让它拿起一个苹果在许多实验室里已经是一个解决的问题。然而,让它把那个苹果切成完美均匀的楔形,却是物理和控制层面的噩梦。

为什么?因为切割从根本上改变了物体的拓扑结构 。 一个物体变成了两个;一个连通的网格分裂成独立的簇。物理过程非常复杂——材料会变形、挤压和断裂。此外,评估成功与否极其困难。如果机器人切了一个土豆,切片滚到了桌子底下,这算失败吗?从几何角度看,切片可能很完美,但一个在特定 xyz 坐标寻找切片的标准传感器会判定为零分。

在这篇深入探讨中,我们将研究 TopoCut , 这是一篇由佐治亚理工学院和英伟达的研究人员在 CoRL 2025 上发表的研究论文。他们提出通过三个巧妙的创新来解决这些问题的统一框架: 一个在粒子级别追踪损伤的高保真模拟器,一个无论物体在房间何处都能评估形状的“谱奖励”系统,以及一个学习在哪里切割的基于扩散的策略。

TopoCut 框架概览,展示了基准任务和策略架构。

图 1 所示,TopoCut 旨在处理多步骤任务,如切片 (slicing) 、切条 (sticking) 和切丁 (dicing) ,从而弥合模拟与智能机器人控制之间的差距。

可变形物体的挑战

机器人操作通常假设物体是刚体。当你移动一个方块时,它仍然是一个方块。可变形物体操作 (DOM) 更难,因为状态空间是无限的——一块面团可以变成任何形状。

切割增加了另一层复杂性: 拓扑变化 。 现有的方法通常依赖于固定的轨迹 (例如,“将刀向下移动 10 厘米”) 。但如果物体稍微旋转,或者材料比预期的更硬,固定轨迹就会失败。为了成功,机器人需要是目标条件化 (goal-conditioned) 的。它需要理解最终的碎片应该是什么样子,并规划一系列切割动作来实现这一目标。

为了实现这一目标,作者构建了一个基于三大支柱的系统:

  1. 模拟: 具有拓扑发现功能的精确物理模拟。
  2. 评估: 一种独立于“姿态”来对“形状”进行评分的数学方法。
  3. 策略: 一种可以生成复杂切割计划的学习算法。

第一支柱: 高保真模拟与拓扑发现

如果你的模拟器无法处理物体断裂的情况,你就无法训练机器人进行切割。作者基于 MLS-MPM (移动最小二乘物质点法) 构建了他们的环境。

MPM 是一种混合方法。它使用粒子来携带材料数据 (质量、速度、变形) ,并使用网格来计算力。这非常适合切割,因为粒子可以很容易地彼此分离,不像连接的网格在撕裂时需要复杂的重网格化算法。

追踪损伤

为了模拟切割,系统需要知道材料何时屈服。作者引入了一种损伤驱动的拓扑发现机制

每个粒子 \(p\) 都有一个变形梯度 \(\mathbf{F}_p\)。系统监控体积雅可比行列式 \(J_p = \det(\mathbf{F}_p)\),它代表粒子膨胀或压缩了多少。如果粒子超过临界阈值,则被标记为“受损”:

基于压缩和拉伸阈值的粒子损伤方程。

当刀压入物体时,粒子会被压缩。如果它们压缩过度 (或拉伸过度) ,下面的方程就会触发,将粒子分类为受损:

雅可比阈值方程。

一旦受损,这些粒子实际上就成为了新切口的“表面”。模拟器随后在健康粒子周围构建符号距离场 (SDF) ,并使用移动立方体 (Marching Cubes) 算法实时重建新碎片的 3D 网格。这使得系统能够区分一个物体已经成功变成了两个独立的部分。

第二支柱: 谱奖励 (评估)

这可能是论文中数学上最迷人的贡献。

对齐问题

在标准的强化学习中,你可能会根据倒角距离 (Chamfer distance) 来奖励机器人——即切割物体的点云与目标点云的匹配程度。

但是,想象一下机器人切了一个完美的立方体,但这块立方体向左被推了 5 厘米。倒角距离会很高 (误差大) ,因为点在 3D 空间中没有对齐。机器人会仅仅因为碎片移动了而因一个完美的切割受到惩罚。这就是姿态对齐问题

谱解决方案

作者提出了姿态不变谱奖励 。 他们不比较点的位置,而是比较形状的内蕴几何

他们利用拉普拉斯-贝尔特拉米算子 (Laplace-Beltrami Operator) 来实现这一点。通过将物体的点云视为一个图,他们可以计算该图的特征值 (频率) 和特征向量 (模式) 。这就好比是形状的“声音”。方形鼓的声音与三角形鼓的声音不同。至关重要的是,如果你旋转方形鼓或将其移动到房间的另一端,它的声音仍然是一样的。

切割碎片 \(X\) 与目标形状 \(Y\) 之间的谱距离计算如下:

谱距离方程。

这里,\(\Lambda\) 代表特征值,\(\Phi\) 代表特征向量。这个距离衡量的是形状有多不同,完全忽略了它们的位置。

为了验证这一点,研究人员将一个“条状”碎片旋转到不同的角度并计算奖励。如下图所示,奖励曲线 (彩色线条) 几乎完美重叠。该度量标准知道旋转后的条状物仍然是条状物。

展示不同旋转下谱奖励姿态不变性的图表。

最终的奖励函数将此谱距离转换为分数,惩罚与目标形状的偏差:

谱奖励计算方程。

这个奖励信号是鲁棒的。在一项测试中,机器人执行了三次正确的切割和一次错误的切割,标准指标 (倒角距离、推土机距离) 无法清楚地识别错误,因为它们被移动的碎片搞糊涂了。然而,当形状变得不正确时,谱奖励立即下降。

比较奖励指标的图表,显示谱奖励正确识别了错误的切割。

第三支柱: 融入动力学的策略学习

有了好的模拟器和可靠的奖励,我们现在可以训练机器人了。作者使用了一种称为 PDDP (基于粒子的分数熵离散扩散策略) 的方法。

融入动力学的感知

首先,机器人需要“看”。但原始点云是嘈杂的。作者使用了一个“融入动力学”的感知模块。这意味着该模型经过预训练,可以预测在给定动作下拓扑结构将如何变化

它获取当前的粒子图 (\(G_{topo}\)) 和动作图 (\(G_{a}\)) 并将它们嵌入到潜在向量中:

拓扑和动作嵌入方程。

这种预训练确保了输入策略的嵌入非常强调拓扑结构——这对于决定在哪里切割至关重要。

离散扩散策略

生成式扩散模型 (如用于生成图像的模型) 在捕捉复杂分布方面非常强大。作者将这一概念应用于动作选择。

策略不再是输出刀具的单个坐标,而是将切割动作视为每个粒子的分类问题: “这个粒子应该被切吗?是或否。”

该过程作为一个离散扩散模型工作:

  1. 前向过程: 采用“完美”的切割掩码并逐渐添加噪声 (随机翻转比特) ,直到它变成随机的。
  2. 反向过程 (推理) : 从随机噪声开始,使用神经网络以当前状态和目标为条件,迭代地对掩码进行“去噪”。

融入动力学的感知和离散扩散策略示意图。

策略网络 \(s_\theta\) 学习预测“分数” (对数概率的梯度) ,引导噪声数据回到有效的切割掩码:

分数函数近似方程。

训练目标是最小化预测分数与实际添加噪声之间的差异:

去噪分数熵损失方程。

一旦扩散过程生成了“切割”粒子的二进制掩码,系统就会拟合一个穿过这些点的切割平面,以确定刀具的精确 6 自由度 (6-DoF) 姿态。

实验与结果

团队在三个典型的厨房任务上验证了 TopoCut: 切片 (Slice) (薄片) 、切条 (Stick) (薯条形状) 和切丁 (Dice) (立方体) 。

切片、切条和切丁任务及其执行步骤的可视化。

性能

他们将 PDDP 与几个基准进行了比较,包括标准的 3D 扩散模型 (Diffuser Actor, DP3) 和启发式算法。

结果 (表 1) 显示 TopoCut 的 PDDP 显著优于基准,特别是在归一化谱奖励 (\(\hat{R}\)) 和成功切割次数 (\(N_C\)) 方面。

比较 TopoCut 与基准性能的表格。

  • 人类遥操作 (Human Tele-Op) : 设定了基准 (归一化为 ~3.3-5.0) 。
  • 基准模型 (Baselines) : 经常难以泛化或产生一致的形状。
  • PDDP (Ours) : 获得了最高的奖励和切割计数,特别是在“分布外”的几何形状上——即机器人以前从未见过的形状。

泛化能力: 金字塔任务

为了证明系统不仅仅是死记硬背直线,他们让机器人从一个立方体中切出一个金字塔 。 这需要难以硬编码的角度切割。

在谱奖励 (它只是希望最终形状“看起来像”一个金字塔) 的驱动下,规划器成功发现了正确的角度切割平面。

金字塔切割任务的可视化。

结论

TopoCut 代表了可变形物体操作向前迈出的重要一步。通过摆脱固定轨迹并转向目标条件化的拓扑变化,它使机器人能够执行需要真正理解形状和结构的任务。

基于粒子的模拟 (用于处理断裂) 、谱几何 (用于稳健评估) 和离散扩散 (用于精确动作生成) 的结合,创建了一个既严谨又在实践中有效的管道。

虽然目前受到模拟速度的限制 (网格重建很繁重) ,但该框架为未来的机器人奠定了基础,使其能够在厨房、医院和车间与人类并肩工作,以与刚性工具相同的灵巧度处理柔软、变化的材料。