引言

在工业自动化领域，机器人在结构化环境中重复相同任务的能力非常强。汽车工厂里的机械臂可以在底盘的同一个点上进行数百万次焊接，且精度达到亚毫米级。然而，一旦你要求同一台机器人组装一件家具——零件可能散落各处、配合紧密或需要复杂的顺序——系统往往会失败。

这在机器人技术中造成了一个显著的差距: 无法处理长视界 (Long-Horizon) 、接触丰富 (Contact-Rich) 的装配任务 。 “长视界”意味着机器人必须执行一系列相互依赖的步骤 (例如: 抓取腿 A，调整腿 A 的方向，插入腿 A，然后对腿 B、C 和 D 重复此过程) 。“接触丰富”意味着零件之间存在物理互动，涉及摩擦和受力，这需要纯位置控制无法实现的精细操作。

目前的方法通常陷入两个极端。 强化学习 (RL) 非常擅长学习特定的、接触密集的技能 (如插入销钉) ，但难以学习长序列，因为搜索空间过于巨大。相反, 模仿学习 (IL) 可以从人类演示中学习序列，但通常需要海量数据集，并且难以达到精密装配所需的高精度。

在论文*《ARCH: Hierarchical Hybrid Learning for Long-Horizon Contact-Rich Robotic Assembly》* (ARCH: 用于长视界接触丰富机器人装配的分层混合学习) 中，来自斯坦福大学、麻省理工学院和 Autodesk Research 的研究人员提出了一种弥合这些差距的解决方案。他们推出了 ARCH (Adaptive Robotic Compositional Hierarchy，自适应机器人组合层级) ，这是一个不只依赖单一学习方法的框架。相反，它将经典的运动规划 (MP) 与强化学习相结合，并不由一个通过模仿学习训练的高层“大脑”来协调。

图 1 展示了实验设置，包括 UR10e 机器人、插入板以及具体的装配任务，如横梁和凳子装配。

如图 1 所示，该系统在复杂的任务上进行了测试，例如组装多部件横梁或由 9 个部件组成的凳子。结果令人信服: ARCH 实现了高成功率和高数据效率，仅需少量人类演示。

背景: 装配挑战

要理解 ARCH 背后的创新，我们首先必须了解为什么这个问题如此困难。

端到端学习的局限性

在理想情况下，我们可以训练一个单一的神经网络，将相机图像作为输入并输出机器人电机扭矩。这就是“端到端”学习。

端到端模仿学习: 人类操作机器人 (远程操作) 执行任务数百次。机器人模仿这种行为。然而，对于精密装配而言，收集足够的高质量数据既昂贵又耗时。
端到端强化学习: 机器人通过试错来尝试解决任务。对于一个 30 秒的装配任务，可能的动作数量是天文数字。机器人很少能靠运气成功，导致“稀疏奖励”，使得学习几乎不可能。

分层方法

解决长视界任务复杂性的一个常见方案是分层强化学习 。其核心思想是分解问题: 一个“管理者” (高层策略) 决定做什么 (例如，“拿起扳手”) ，而一个“工人” (低层策略) 决定怎么做 (例如，具体的关节运动) 。

ARCH 采用了这种分层结构，但引入了一个关键的转折: 低层工人并不完全相同。有些是学习得来的，有些则是算法式的。

核心方法: ARCH 框架

作者将装配任务建模为参数化动作马尔可夫决策过程 (PAMDP) 。简单来说，这意味着机器人必须决定采取哪个原语动作 (例如，抓取、插入) 以及使用什么参数来执行该动作 (例如，抓取的具体坐标) 。

该架构分为三个主要部分: 混合低层原语库、高层策略和感知系统。

图 2 展示了 ARCH 框架。高层策略根据观察结果选择原语。这些原语由 MP 或 RL 策略执行。

1. 混合低层原语库

这是该论文最务实的贡献之一。研究人员认识到我们并不需要对所有事情都使用深度学习。如果机器人需要在空旷的空间中移动手部，经典算法已经可以完美地做到这一点。然而，如果机器人需要将一个紧配合的销钉塞入孔中，经典算法很难处理摩擦和卡住等复杂的物理现象。

因此，ARCH 使用了一个混合库 :

运动规划 (MP) 原语

对于在自由空间中发生的任务，ARCH 使用经典的运动规划器。

GRASP (抓取) : 使用规划器将夹持器移动到抓取位姿并闭合。
PLACE / MOVE (放置 / 移动) : 使用规划器将末端执行器移动到目标位姿。

强化学习 (RL) 原语

对于涉及接触的任务，ARCH 使用通过 RL 训练的策略。

INSERT (插入) : 这是关键技能。插入需要对受力做出反应。如果销钉碰到孔的边缘，机器人必须进行调整。RL 策略在仿真中训练以处理这种情况。

基于 RL 的插入策略的目标函数定义如下:

RL 策略目标函数公式，基于到目标的距离最大化累积回报。

在这里，策略优化轨迹以最小化当前位姿与目标位姿 (\(g\)) 之间的距离，有效地学习如何摆动和推动物体到位。该策略在仿真中训练一次，然后迁移到现实世界 (Sim-to-Real) 。

2. 高层策略

虽然低层原语处理物理执行，但高层策略充当指挥。它决定操作的顺序。

作者使用扩散 Transformer (DiT) 来担任这一角色。扩散模型是生成模型 (因生成图像如 Stable Diffusion 而闻名) ，非常擅长捕捉多模态分布。在这种情况下，DiT 接收当前状态 (机器人关节角度 + 物体位置) 并预测接下来要执行的最佳原语。

至关重要的是，这个高层策略是通过模仿学习从极少量的人类演示中训练出来的。因为“动作”是高层指令 (例如，“插入物体 1”) 而不是低层电机微调，搜索空间很小，模型学习速度非常快。

模仿学习的目标是找到参数 \(\theta\)，使专家选择的可能性最大化:

模仿学习目标函数公式，最大化专家演示的可能性。

3. 使用 CPPF++ 进行位姿估计

为了让高层策略做出正确的决策，它需要知道零件在哪里。作者采用了一套强大的位姿估计流程。他们调整了一种名为 CPPF++ (Category-level Pose estimation via Point-wise Features) 的方法。

为了确保装配所需的高精度，他们增加了一个后优化步骤。他们计算观察到的点云与物体 CAD 模型之间的倒角距离 (Chamfer Distance) , 迭代地细化估计的位姿。

用于细化位姿估计的单向倒角距离公式。

这一步将已知的部件 3D 模型与相机数据对齐，修正微小的误差。如下所示，系统可以准确检测各种几何形状的位置和方向。

图 4 展示了不同形状 (如正方形、椭圆形和横梁) 位姿估计的定性结果。

实验与结果

团队在真实机器人 (UR10e) 和仿真环境 (IsaacLab) 中对 ARCH 进行了评估。他们设计了三个具有挑战性的任务:

FMB 装配 (现实世界) : 将 9 个不同的几何物体组装到板上。
5 部件横梁装配 (仿真) : 将腿和脚连接到中心横梁上。
9 部件凳子装配 (仿真) : 一个复杂的多阶段家具组装任务。

图 3 展示了横梁和凳子装配任务的仿真环境。

性能对比

研究人员将 ARCH 与几个强大的基线进行了比较，包括端到端 RL、端到端扩散策略 (IL) 以及其他分层方法如 MimicPlay。

结果汇总在表 1 中，对比鲜明。

表 1 比较了 ARCH 与基线的成功率 (SR) 和 SPL。ARCH 显著优于其他方法。

数据的主要结论:

端到端的失败: 纯 RL 和纯 IL (扩散策略) 在长视界任务上完全失败 (0% 成功率) 。对于非结构化学习来说，这些任务太长太复杂了。
分层的优势: 虽然其他分层方法 (MimicPlay, Luo et al.) 取得了一些成功 (10-25%) ，但它们在接触丰富的插入阶段遇到了困难。
ARCH 的主导地位: ARCH 实现了 45% 到 55% 的成功率。虽然不是 100%，但考虑到任务的复杂性以及它仅使用了 10 次演示进行训练，这已经高得出奇。
上限: “Human Oracle” (人类预言机) 代表了如果高层选择完美时的理论最大值。ARCH 的表现非常接近这一上限，这表明剩余的失败主要是由于物理执行 (例如，夹持器打滑) 而不是糟糕的决策。

为了严格衡量效率，作者使用了一个名为路径长度加权成功率 (SPL) 的指标:

路径长度加权成功率 (SPL) 的公式。

该指标确保机器人不仅仅是靠采取混乱、低效的路径获得成功。它奖励那些通过最佳步骤数取得的成功。ARCH 在 SPL 上始终得分最高。

对未见物体的泛化能力

该论文的一个主要主张是系统的泛化能力。一个被训练用来插入六边形的机器人能插入星星或圆形吗？

答案似乎是肯定的。高层策略是在有限的物体上训练的，但在测试期间成功地操作了“未见过的”物体。

表 2 按物体类型显示了成功率，展示了对未见形状的泛化能力。

表 2 强调，虽然有些形状比其他形状更难 (例如，“方圆形 SquareCircle”很难抓取) ，但系统在不需要重新训练的情况下，在新的几何形状上保持了可观的成功率。这种鲁棒性来自于 RL 插入原语的通用性——无论销钉的形状如何，只要目标位姿正确，将销钉推入孔中的感觉都是相似的。

结论与启示

ARCH 框架代表了机器人装配领域向前迈出的务实一步。通过承认并非所有东西都需要学习 , 作者创建了一个既数据高效又精准的系统。

以下是该方法有效的总结:

混合化效率高: 使用运动规划进行移动，使神经网络免于学习基础物理。使用 RL 进行插入，解决了运动规划无法处理的接触问题。
分层降低复杂性: 高层策略只需选择使用“哪种技能”，而不需要选择施加“多大的电机扭矩”。这缩小了搜索空间，使机器人能够仅从 10 次人类演示中学习。
仿真训练: 困难的接触技能 (RL) 是在仿真中学习的，避免了物理损坏和时间限制，然后迁移到真实机器人上。

对于学生和研究人员来说，ARCH 展示了模块化设计的力量。与其将机器人视为一个需要端到端训练的黑盒，不如将问题分解为规划、感知和特定技能的学习，从而产生一个能够处理长视界、繁琐任务的系统，而这些任务传统上一直将机器人限制在流水线上。

超参数

对于那些有兴趣复现高层策略 (DiT) 的人，作者提供了他们的配置:

表 3 列出了高层策略的超参数，包括隐藏层维度和块数量。

ARCH 证明，机器人装配的未来可能不是纯粹的 AI 或纯粹的工程学，而是两者精心架构的结合。

引言#

背景: 装配挑战#

端到端学习的局限性#

分层方法#

核心方法: ARCH 框架#

1. 混合低层原语库#

运动规划 (MP) 原语#

强化学习 (RL) 原语#

2. 高层策略#

3. 使用 CPPF++ 进行位姿估计#

实验与结果#

性能对比#

对未见物体的泛化能力#

结论与启示#

超参数#

引言