引言

如果你曾经尝试过用非惯用手写字,你就知道这有多费劲。尽管你的左手和右手在结构和机械上几乎是彼此完美的镜像,但你的大脑已经分化,倾向于使用一侧来进行精细运动技能。这种现象被称为*惯用手习惯 (handedness) *,对人类来说是高效的,但对机器人来说却是一个显著的限制。

双臂机器人 (拥有两条手臂的机器人) 通常在制造时具有完美的双侧对称性。左臂是右臂的精确镜像。然而,当我们使用强化学习 (RL) 教这些机器人执行任务时,我们要么把它们像有强利手习惯的人类一样对待。我们可能会训练右臂使用螺丝刀,而左臂只是握住物体。如果工作空间被翻转,机器人就会失败,或者笨拙地把手伸过身体,无法将技能迁移到另一只手臂上。

既然机器人是物理对称的,我们为什么不利用这一点呢?

这就是 SYMDEX (SYMmetric DEXterity,对称灵巧性) 背后的核心问题,这是一个在 CoRL 2025 上提出的新框架。研究人员提出,通过将“形态对称性”显式地融入学习过程,我们可以创造出真正“双巧手 (ambidextrous) ”的机器人。这些机器人可以学得更快,泛化能力更强,并且能够根据哪只手效率更高无缝切换——就像钢琴大师能够同样熟练地使用双手一样。

在这篇文章中,我们将拆解 SYMDEX 架构,探索群论、等变神经网络和巧妙的任务分解是如何结合在一起解决复杂的操纵问题的。

SYMDEX 框架概览,展示了数字孪生、任务分解为子任务以及蒸馏过程。

双手学习的挑战

在深入解决方案之前,我们需要了解为什么双手操纵最初如此困难。

维度诅咒

强化学习通过探索环境并学习哪些动作会产生奖励来工作。对于单个机械臂来说,“搜索空间” (关节的所有可能配置) 已经很大了。当你增加第二条手臂和灵巧手时,关节的数量——因此复杂性——加倍了。探索空间不仅仅是加倍;它是呈指数增长的。

信用分配问题

想象一下,你正在教机器人搅拌一碗鸡蛋。左手必须稳稳地端住碗,而右手进行搅拌。如果机器人失败了 (例如,碗洒了) ,学习算法必须找出是搞砸了。是左手滑了吗?是右手搅拌得太猛了吗?这就是 信用分配问题 。 在双臂设置中,奖励信号通常稀疏且混合,使得算法极难确定哪条手臂需要调整其行为。

经验的浪费

在标准的 RL 中,如果机器人学会了用右手举起杯子,这种经验对左手没有任何用处。策略将左手视为一个完全不同的实体。为了教左手,机器人必须从头开始。这忽略了一个明显的物理现实: 左手只是右手的镜像。

背景: 作为数学先验的对称性

为了解决这些问题,SYMDEX 依赖于对称性的数学,特别是 群论 (Group Theory)

在这种语境下,“群 (Group) ”是一组变换。对于双臂机器人来说,最相关的群是反射群,通常表示为 \(\mathbb{C}_2\)。这个群包含两个元素:

  1. 恒等 (\(e\)): 什么都不做。
  2. 反射 (\(g_r\)): 将状态关于机器人的中心平面进行镜像。

研究人员将学习问题视为 对称 POMDP (部分可观测马尔可夫决策过程) 。通俗地说,这意味着世界和机器人的物理规律遵循对称性规则。

如果你旋转或反射世界,最优动作也应该相应地旋转或反射。这种性质被形式化为 等变性 (Equivariance)

显示变换状态和动作保留期望动力学的公式。

上面的公式本质上说明,如果你通过对称群元素 (\(g\)) 变换输入状态 (\(s\)) 和动作 (\(a\)),物理世界中的预期结果也会以相同的方式变换。

当一个系统是对称的时,最优策略 (\(\pi^*\)) 和价值函数 (\(V^*\)) 必须满足特定的约束:

说明策略等变性和价值函数不变性的公式。

  1. 策略等变性 (Policy Equivariance) : 如果我向机器人展示一种情况的镜像图像,机器人应该输出动作的镜像图像。
  2. 价值函数不变性 (Value Function Invariance) : “价值” (一个状态有多好) 不会因为状态被镜像而改变。无论是左手还是右手成功握住杯子,其价值点数是相同的。

SYMDEX 方法

SYMDEX 不仅仅是一个单一的网络;它是一个旨在利用这些对称性的完整学习管道。该方法在三个不同的阶段运作: 分解对称学习蒸馏

第一阶段: 任务分解

SYMDEX 没有试图学习一个同时控制 44 个关节 (双臂 + 双手) 的庞大单体策略,而是将问题进行了分解。

作者将环境制定为一个 多任务多智能体 (MTMA) 系统。

  • 智能体: 每个机械臂被视为一个独立的智能体。
  • 子任务: 一个复杂的任务 (如“搅拌碗”) 被拆分为子任务 (例如,“端碗”和“操作搅拌器”) 。

关键在于,这些子任务并不是永久分配的。在一种场景中,左臂可能执行子任务 A,而右臂执行子任务 B。在镜像场景中,它们交换角色。

子任务策略 (a) 和全局策略 (b) 之间动作执行的比较。

如上图 2(a) 所示,系统为特定的子任务学习特定的策略。输入 (\(n\) 代表智能体,\(k\) 代表任务) 决定了网络如何处理视觉数据。

第二阶段: 对称感知子任务学习

这就是神奇之处。研究人员为每个子任务 (例如,“抓取策略”) 训练一个策略。然而,他们没有使用常规训练方法,而是使用了 等变神经网络 (Equivariant Neural Network)

在标准的神经网络中,你可能会尝试通过向机器人展示数百万张镜像图像 (数据增强) 来教授对称性。网络可能最终会学到左手像右手一样工作,但它必须花费宝贵的训练时间来弄清楚这一点。

等变网络将对称性 硬编码 到其架构中。它强制网络的权重遵守对称群规则。

运作中的反射群

让我们看看驱动这一点的数学原理。如果我们有一个反射变换 \(g_r\),它会交换手臂和子任务的角色。

显示反射如何变换智能体-任务分配的公式。

这个公式表明,应用反射 \(g_r\) 将 左/碗 的分配交换为 左/打蛋器。

因为策略是等变的,知识是即时共享的。每当右臂学到关于抓取的东西时,网络数学运算会自动更新策略,使左臂也得到改进。它们实际上是在共享相同的“大脑”参数,只是在几何上进行了变换。

子任务策略在数学上定义为:

定义 G-等变子任务策略的公式。

这里,\(\pi_k\) 是子任务 \(k\) 的策略。该公式保证如果你输入一个变换后的观测,你会得到一个变换后的动作。这极大地削减了探索空间,因为机器人不需要为工作空间的左侧重新学习物理规律。

同样,价值函数 (RL 中的评论家) 是 不变的 :

定义 G-不变价值函数的公式。

这意味着评论家认识到,无论是在桌子的哪一侧发生,好的状态就是“好的”。

第三阶段: 全局策略蒸馏

此时,我们拥有了高度胜任的独立智能体。左臂知道如何端碗,右臂知道如何搅拌。但是谁来告诉它们该做什么呢?

如果我们只是将它们作为独立智能体部署,我们可能最终会让两条手臂都试图端碗,或者都试图搅拌。我们需要一个指挥。

SYMDEX 的最后阶段是 蒸馏 (Distillation) 。 研究人员训练一个单一的“全局策略”来充当监督者。

  1. 教师-学生设定: 独立的子任务策略充当“教师”。它们生成高质量的数据。
  2. 学生 (全局策略) : 一个新的等变策略被训练来模仿教师。

显示全局策略等变性的公式。

这个全局策略接收世界的原始状态,并同时为双臂输出动作。至关重要的是,它学会了推断任务分配。它观察场景并决定: “碗离左边更近,所以左臂抓取,右臂搅拌。”

因为这个全局策略也是等变的,产生的行为是完美的 左右手通用 。 如果你把碗滑到桌子的另一边,机器人会无缝地换手,而不需要显式的编程来这样做。

实验与结果

团队在六个极具挑战性的模拟任务上评估了 SYMDEX,这些任务需要协调、精度和富接触的操纵。

六个基准任务: 举箱子、清理桌子、抽屉插入、穿线、搅拌碗和递物。

任务

  1. 举箱子 (Box-lift) : 双臂必须协调抬起一个重箱子。
  2. 清理桌子 (Table-clean) : 一条手臂捡垃圾,另一条拿着垃圾桶。
  3. 抽屉插入 (Drawer-insert) : 一条手臂打开抽屉,另一条将物体放入其中。
  4. 穿线 (Threading) : 极高的精度——将针/钻头穿入另一只手持有的孔中。
  5. 搅拌碗 (Bowl-stir) : 经典的握持和搅拌任务。
  6. 递物 (Handover) : 将物体从一只手传递到另一只手。

仿真性能

结果与几个基线进行了比较,包括标准 PPO (一种流行的 RL 算法) 和其他依赖数据增强而不是等变架构的基于对称性的方法。

性能图表显示 SYMDEX 在所有任务中都优于基线。

如图 4 所示,SYMDEX (蓝线) 占据主导地位。

  • 样本效率: 它学得快得多。在像“举箱子”这样的任务中,当标准方法还在挣扎时,它已经达到了接近完美的成功率。
  • 泛化能力: 子任务的分离结合对称性,意味着机器人很少被复杂的几何形状搞糊涂。
  • 基线的失败: 注意“E-PPO” (没有分解的等变 PPO) 在像搅拌碗这样的复杂任务上失败了。这证明仅有对称性是不够的;你需要任务分解来解决信用分配问题。

仿真到现实的迁移

机器人技术中最大的障碍之一是“仿真到现实的差距 (Sim-to-Real Gap) ”。物理模拟器永远不会是完美的。为了让 SYMDEX 在物理机器人 (两个带有 Allegro 灵巧手的 xArm 机械臂) 上工作,作者使用了 课程学习 (Curriculum Learning)

课程学习策略的性能比较。

他们没有直接把机器人扔进现实世界。他们在模拟中创建了一个课程,逐步增加难度:

  1. 随机化: 改变物体的重量、摩擦力和视觉外观。
  2. 安全惩罚: 逐渐引入对碰撞或抖动动作的惩罚。

如上图所示,使用完整课程 (蓝线) 确保了高成功率。如果没有安全惩罚 (橙色) 或域随机化 (绿色) ,策略在模拟中可能表现尚可,但在现实中可能会变得危险或不稳定。

现实世界的行动

蒸馏过程产生了一个足够鲁棒的策略,可以处理真实的摄像头和充满噪声的传感器。

来自现实世界实验的快照,展示了举箱子和清理桌子。

上图展示了系统在运行中的情况。注意标签 “\(e\)” 和 “\(g_r\)"。

  • \(e\) (恒等) 中,机器人以标准配置执行任务。
  • \(g_r\) (反射) 中,物理设置是镜像的。机器人成功识别了变化并交换了手臂的角色来完成任务,验证了策略的左右手通用特性。

规模扩展: 4臂巨兽

也许视觉上最令人印象深刻的结果是 SYMDEX 扩展到了四臂系统。

四臂系统设置。

在这个设置中,两条手臂将箱子撑开,而另外两条手臂将物体放入其中。这里的对称群更加复杂——不仅仅是反射,而是旋转对称 (\(\mathbb{C}_4\)) 。

多臂任务在不同对称旋转下的环境-策略展示。

图 8 展示了策略从四个不同的旋转角度 (\(e, g_r, g_r^2, g_r^3\)) 处理任务。等变网络自然地处理了这一点。成功率 (下图 9) 在所有旋转中保持一致,证明即使系统复杂性增加,数学原理依然成立。

条形图显示 4 个对称组的成功率一致。

结论

SYMDEX 代表了机器人操纵领域向前迈出的重要一步。通过停下来问“这个机器人本质上拥有什么属性?”,研究人员发现双侧对称性是一个巨大的、未被充分利用的资源。

SYMDEX 没有强迫机器人分别学习“左撇子”和“右撇子”习惯,而是教给机器人“操纵”的概念,并允许身体的几何形状来决定细节。

主要收获:

  1. 几何学是强大的: 像对称性这样的归纳偏置可以极大地减少训练机器人所需的数据量。
  2. 分解有帮助: 将双手任务分解为单手子任务解决了信用分配问题。
  3. 蒸馏统一一切: 你可以训练专门的专家,然后将它们的知识蒸馏成一个鲁棒且左右手通用的单一通用智能体。

随着我们向看起来更像我们的人形机器人迈进,像 SYMDEX 这样的方法将变得至关重要。它们让机器人能够以我们习以为常的流畅、适应性强的灵巧度与世界互动。