简介
想象一下教机器人做饭。让它拿起一个苹果在许多实验室里已经是一个解决的问题。然而,让它把那个苹果切成完美均匀的楔形,却是物理和控制层面的噩梦。
为什么?因为切割从根本上改变了物体的拓扑结构 。 一个物体变成了两个;一个连通的网格分裂成独立的簇。物理过程非常复杂——材料会变形、挤压和断裂。此外,评估成功与否极其困难。如果机器人切了一个土豆,切片滚到了桌子底下,这算失败吗?从几何角度看,切片可能很完美,但一个在特定 xyz 坐标寻找切片的标准传感器会判定为零分。
在这篇深入探讨中,我们将研究 TopoCut , 这是一篇由佐治亚理工学院和英伟达的研究人员在 CoRL 2025 上发表的研究论文。他们提出通过三个巧妙的创新来解决这些问题的统一框架: 一个在粒子级别追踪损伤的高保真模拟器,一个无论物体在房间何处都能评估形状的“谱奖励”系统,以及一个学习在哪里切割的基于扩散的策略。

如图 1 所示,TopoCut 旨在处理多步骤任务,如切片 (slicing) 、切条 (sticking) 和切丁 (dicing) ,从而弥合模拟与智能机器人控制之间的差距。
可变形物体的挑战
机器人操作通常假设物体是刚体。当你移动一个方块时,它仍然是一个方块。可变形物体操作 (DOM) 更难,因为状态空间是无限的——一块面团可以变成任何形状。
切割增加了另一层复杂性: 拓扑变化 。 现有的方法通常依赖于固定的轨迹 (例如,“将刀向下移动 10 厘米”) 。但如果物体稍微旋转,或者材料比预期的更硬,固定轨迹就会失败。为了成功,机器人需要是目标条件化 (goal-conditioned) 的。它需要理解最终的碎片应该是什么样子,并规划一系列切割动作来实现这一目标。
为了实现这一目标,作者构建了一个基于三大支柱的系统:
- 模拟: 具有拓扑发现功能的精确物理模拟。
- 评估: 一种独立于“姿态”来对“形状”进行评分的数学方法。
- 策略: 一种可以生成复杂切割计划的学习算法。
第一支柱: 高保真模拟与拓扑发现
如果你的模拟器无法处理物体断裂的情况,你就无法训练机器人进行切割。作者基于 MLS-MPM (移动最小二乘物质点法) 构建了他们的环境。
MPM 是一种混合方法。它使用粒子来携带材料数据 (质量、速度、变形) ,并使用网格来计算力。这非常适合切割,因为粒子可以很容易地彼此分离,不像连接的网格在撕裂时需要复杂的重网格化算法。
追踪损伤
为了模拟切割,系统需要知道材料何时屈服。作者引入了一种损伤驱动的拓扑发现机制 。
每个粒子 \(p\) 都有一个变形梯度 \(\mathbf{F}_p\)。系统监控体积雅可比行列式 \(J_p = \det(\mathbf{F}_p)\),它代表粒子膨胀或压缩了多少。如果粒子超过临界阈值,则被标记为“受损”:

当刀压入物体时,粒子会被压缩。如果它们压缩过度 (或拉伸过度) ,下面的方程就会触发,将粒子分类为受损:

一旦受损,这些粒子实际上就成为了新切口的“表面”。模拟器随后在健康粒子周围构建符号距离场 (SDF) ,并使用移动立方体 (Marching Cubes) 算法实时重建新碎片的 3D 网格。这使得系统能够区分一个物体已经成功变成了两个独立的部分。
第二支柱: 谱奖励 (评估)
这可能是论文中数学上最迷人的贡献。
对齐问题
在标准的强化学习中,你可能会根据倒角距离 (Chamfer distance) 来奖励机器人——即切割物体的点云与目标点云的匹配程度。
但是,想象一下机器人切了一个完美的立方体,但这块立方体向左被推了 5 厘米。倒角距离会很高 (误差大) ,因为点在 3D 空间中没有对齐。机器人会仅仅因为碎片移动了而因一个完美的切割受到惩罚。这就是姿态对齐问题 。
谱解决方案
作者提出了姿态不变谱奖励 。 他们不比较点的位置,而是比较形状的内蕴几何。
他们利用拉普拉斯-贝尔特拉米算子 (Laplace-Beltrami Operator) 来实现这一点。通过将物体的点云视为一个图,他们可以计算该图的特征值 (频率) 和特征向量 (模式) 。这就好比是形状的“声音”。方形鼓的声音与三角形鼓的声音不同。至关重要的是,如果你旋转方形鼓或将其移动到房间的另一端,它的声音仍然是一样的。
切割碎片 \(X\) 与目标形状 \(Y\) 之间的谱距离计算如下:

这里,\(\Lambda\) 代表特征值,\(\Phi\) 代表特征向量。这个距离衡量的是形状有多不同,完全忽略了它们的位置。
为了验证这一点,研究人员将一个“条状”碎片旋转到不同的角度并计算奖励。如下图所示,奖励曲线 (彩色线条) 几乎完美重叠。该度量标准知道旋转后的条状物仍然是条状物。

最终的奖励函数将此谱距离转换为分数,惩罚与目标形状的偏差:

这个奖励信号是鲁棒的。在一项测试中,机器人执行了三次正确的切割和一次错误的切割,标准指标 (倒角距离、推土机距离) 无法清楚地识别错误,因为它们被移动的碎片搞糊涂了。然而,当形状变得不正确时,谱奖励立即下降。

第三支柱: 融入动力学的策略学习
有了好的模拟器和可靠的奖励,我们现在可以训练机器人了。作者使用了一种称为 PDDP (基于粒子的分数熵离散扩散策略) 的方法。
融入动力学的感知
首先,机器人需要“看”。但原始点云是嘈杂的。作者使用了一个“融入动力学”的感知模块。这意味着该模型经过预训练,可以预测在给定动作下拓扑结构将如何变化。
它获取当前的粒子图 (\(G_{topo}\)) 和动作图 (\(G_{a}\)) 并将它们嵌入到潜在向量中:

这种预训练确保了输入策略的嵌入非常强调拓扑结构——这对于决定在哪里切割至关重要。
离散扩散策略
生成式扩散模型 (如用于生成图像的模型) 在捕捉复杂分布方面非常强大。作者将这一概念应用于动作选择。
策略不再是输出刀具的单个坐标,而是将切割动作视为每个粒子的分类问题: “这个粒子应该被切吗?是或否。”
该过程作为一个离散扩散模型工作:
- 前向过程: 采用“完美”的切割掩码并逐渐添加噪声 (随机翻转比特) ,直到它变成随机的。
- 反向过程 (推理) : 从随机噪声开始,使用神经网络以当前状态和目标为条件,迭代地对掩码进行“去噪”。

策略网络 \(s_\theta\) 学习预测“分数” (对数概率的梯度) ,引导噪声数据回到有效的切割掩码:

训练目标是最小化预测分数与实际添加噪声之间的差异:

一旦扩散过程生成了“切割”粒子的二进制掩码,系统就会拟合一个穿过这些点的切割平面,以确定刀具的精确 6 自由度 (6-DoF) 姿态。
实验与结果
团队在三个典型的厨房任务上验证了 TopoCut: 切片 (Slice) (薄片) 、切条 (Stick) (薯条形状) 和切丁 (Dice) (立方体) 。

性能
他们将 PDDP 与几个基准进行了比较,包括标准的 3D 扩散模型 (Diffuser Actor, DP3) 和启发式算法。
结果 (表 1) 显示 TopoCut 的 PDDP 显著优于基准,特别是在归一化谱奖励 (\(\hat{R}\)) 和成功切割次数 (\(N_C\)) 方面。

- 人类遥操作 (Human Tele-Op) : 设定了基准 (归一化为 ~3.3-5.0) 。
- 基准模型 (Baselines) : 经常难以泛化或产生一致的形状。
- PDDP (Ours) : 获得了最高的奖励和切割计数,特别是在“分布外”的几何形状上——即机器人以前从未见过的形状。
泛化能力: 金字塔任务
为了证明系统不仅仅是死记硬背直线,他们让机器人从一个立方体中切出一个金字塔 。 这需要难以硬编码的角度切割。
在谱奖励 (它只是希望最终形状“看起来像”一个金字塔) 的驱动下,规划器成功发现了正确的角度切割平面。

结论
TopoCut 代表了可变形物体操作向前迈出的重要一步。通过摆脱固定轨迹并转向目标条件化的拓扑变化,它使机器人能够执行需要真正理解形状和结构的任务。
基于粒子的模拟 (用于处理断裂) 、谱几何 (用于稳健评估) 和离散扩散 (用于精确动作生成) 的结合,创建了一个既严谨又在实践中有效的管道。
虽然目前受到模拟速度的限制 (网格重建很繁重) ,但该框架为未来的机器人奠定了基础,使其能够在厨房、医院和车间与人类并肩工作,以与刚性工具相同的灵巧度处理柔软、变化的材料。
](https://deep-paper.org/en/paper/2509.19712/images/cover.png)