引言

想象一下,你正在爬一段陡峭的岩石山路。突然,你扭伤了脚踝。很痛,而且你的活动范围受限了。你会怎么做?你不会停止行动;你会适应。你会转移重心,改变步态,并更多地使用未受伤的腿。你会下意识地预测,如果把重量压在受伤的脚踝上会导致摔倒,所以你会相应地调整你的控制信号。

这种适应身体损伤的能力对于生物来说是自然的,但对于机器人来说却是一个巨大的挑战。在足式机器人领域,可靠性是终极目标。我们希望机器人能够穿越灾区、探索行星表面并检查工业现场。然而,硬件总会损坏。电机磨损、变速箱卡住、腿部受到损伤。对于标准的机器人来说,单个关节被卡住通常会导致立即失效。

今天,我们将深入探讨一篇题为 《Contrastive Forward Prediction Reinforcement Learning for Adaptive Fault-Tolerant Legged Robots》 (用于自适应容错足式机器人的对比前向预测强化学习) 的研究论文。这项工作为机器人运动的脆弱性提出了一个令人着迷的解决方案。研究人员没有为每种可能的损坏编写特定的响应程序,而是赋予了机器人预测自身运动的能力,并利用预测中的误差来理解哪里出了问题。

通过结合对比学习 (组织经验) 和前向预测模型 (猜测未来状态) ,该框架允许机器人实时适应损坏的关节——甚至能够识别它们从未见过的损伤类型。

问题: 为什么容错如此困难?

要理解这篇论文的贡献,我们首先需要看看机器人通常是如何行走的。

基于模型的控制 vs. 数据驱动的学习

传统上, 基于模型的控制 (Model-Based Control) 一直是标准做法。工程师创建机器人的物理模型 (质量、惯性、腿长) ,并使用数学求解器计算迈步所需的精确扭矩。这在机器人完好无损时效果很好——直到机器人坏了。如果电机卡住,真实机器人就不再匹配物理模型了。控制器发出运动指令,腿不动,机器人就会摔倒。

最近, 深度强化学习 (DRL) 已经占据了主导地位。在这里,神经网络通过模拟中的试错来学习行走。DRL 对噪声的鲁棒性更强,但它受限于“黑盒”问题。标准的 DRL 策略通常难以泛化。如果你训练一个机器人用健康的身体行走,当一条腿拖地时,它完全不知道该怎么办。即使你在训练中加入了一些断腿的情况,当遇到它没见过的特定类型损伤 (分布外故障) 时,它也经常会失败。

缺失的一环: 通过预测实现的自我感知

这篇论文背后的研究人员发现了一个空白。现有的方法要么过于依赖完美的模型,要么缺乏内部表征来理解发生了什么类型的损伤。

他们的假设简单而有力: 如果机器人能不断比较它认为应该发生的事情和实际发生的事情,它就能更好地适应。

核心方法: 对比前向预测

提出的框架是一个复杂的架构,它不仅仅将观察映射到动作。它建立了对机器人健康状况的内部理解。让我们一步步拆解这个架构。

图 1: 所提出的学习框架的具体训练过程。来自网络三个部分的预测潜变量、误差潜变量和感知潜变量被计算并作为策略网络的输入特征。

如上方的图 1 所示,该系统由几个专门的模块组成,这些模块输入到主策略网络中。训练过程使用了“课程学习”策略 (图像顶部) ,通过引入关节损伤和复杂地形,逐渐增加模拟的难度。

让我们剖析这个网络的三个主要支柱: 对比表征前向预测模块感知特征 (FFT)

1. 对比表征: 学习区分故障

机器人如何知道“髋关节卡死”和“膝盖无力”之间的区别?对于原始传感器来说,两者看起来可能都只是“糟糕的运动”。

作者引入了一个自适应编码器 (Adaptation Encoder) 。 该模块获取历史观测数据 (\(H_{t-1}\)) 并将其压缩成一个潜向量 (\(z_1\)) 。为了确保这个向量包含有关故障类型的有意义信息,他们使用了对比学习 (Contrastive Learning)

在机器学习中,对比学习是一种用于拉近相似事物并推开不同事物的技术。研究人员希望网络能够学习到,所有“左腿故障”的情况在数学上是相似的,同时与“右腿故障”的情况在数学上是截然不同的。

用于训练这种表征的损失函数如下所示:

对比损失公式

这个方程实现了以下目标:

  • 它最大化了具有相同故障条件 (相同的“腿部掩码”) 的样本 (\(z_i\) 和 \(z_j\)) 之间的相似性。
  • 它最小化了具有不同故障条件的样本之间的相似性。

这创建了一个结构化的“潜空间”,其中特定的机械故障形成明显的簇。这种结构化的理解有助于策略网络快速识别哪条腿出了问题。

2. 前向模型: 预测未来

这是容错机制的核心。该框架包含一个前向预测模型 (Forward Prediction Model)

在运行过程中,机器人查看其当前状态和意图采取的动作。然后,前向模型做出预测: “如果我施加这个扭矩,我的腿应该移动到位置 X。”

同时,机器人读取其实际传感器数据。然后,它使用一个比较器 (Comparator) 来计算预测状态实际状态之间的差异。

  • 场景 A (健康) : 预测与现实相符。误差接近于零。
  • 场景 B (受损) : 机器人命令腿移动,但关节卡住了。预测说“腿动了”,但现实说“腿保持静止”。这会产生巨大的预测误差

这个误差不仅仅被丢弃;它被编码成特征向量并直接输入到控制器中。它作为一个即时的“痛觉信号”或“现实检查”,告知机器人动力学特性已经发生了变化。

前向模型使用自监督学习 (SSL) 和标准的均方误差 (MSE) 损失进行训练:

自监督损失公式

通过最小化预测观测值 (\(\hat{O}\)) 和实际观测值 (\(O\)) 之间的差异,该模型成为了模拟机器人自身物理特性的专家。

3. 感知特征: 行走的节奏

运动是周期性的;它有节奏。当机器人跛行时,这种节奏在频域上会发生变化。为了捕捉这一点,研究人员使用了快速傅里叶变换 (FFT) 。

FFT 公式

他们通过 FFT 处理本体感觉数据 (关节角度、速度) 的历史记录,以提取幅度和相位信息。这有助于机器人检测由损伤引起的细微振动模式或节奏紊乱,而这些在单一的时间快照中可能是不可见的。

整合: 训练循环

用于训练整个系统的总损失函数是几个部分的加权和: 代理损失 (用于策略) 、价值损失 (用于评论家) 、熵 (用于探索) ,以及我们刚刚讨论的专用模块的具体损失 (VAE、对比学习和自监督预测) 。

总损失公式

这个复合损失函数确保了机器人在学习行走 (最大化奖励) 的同时,也在学习对故障类型进行聚类 (对比损失) 并准确预测自身的身体力学 (自监督损失) 。

完整的训练和推理流程在下方的图 7 中进行了可视化。注意“课程学习” (b 部分) 是如何提高难度的,以及部署的策略 (c 部分) 是如何在机器人上实时运行的。

图 7: 训练和推理细节。

实验与结果

理论很好,但它有效吗?研究人员在 Unitree A1 四足机器人和定制的六足机器人上测试了这个框架。他们利用 Isaac Gym 模拟器进行训练,并将策略迁移到了真实机器人上 (Sim-to-Real) 。

跨地形的适应性

首批测试之一是看机器人能否在复杂地形上处理关节损伤。一个跛行的机器人可能能在平地上应付,但它能爬楼梯吗?

图 2: 四足机器人在不同地形和不同关节损伤条件下的运动快照。

图 2 所示,即使在整条腿受损的情况下,机器人也能成功穿越石路、楼梯和草坡。这证实了容错性并不脆弱;它在非结构化环境中依然有效。

定量性能与消融实验

研究人员将他们的方法与一个强基准 DreamWaq 进行了比较。他们还进行了消融研究——移除系统的某些部分,看看它们是否真的必要。

图 3: 训练性能和预测误差结果。

观察图 3(a) (左侧图表) ,我们可以看到学习曲线。

  • 红线 (Ours) 始终获得最高的回报 (奖励) 。
  • 橙线 (DreamWaq) 表现明显较差。
  • 关键是,看黑线 (Ours w/o PE) 。 这代表没有预测误差的方法。性能的下降证明了前向预测/比较器机制对于成功至关重要。

图 3(b) 展示了预测误差本身。注意它是如何激增的吗?那个激增就是机器人用来意识到出问题了的信号。

可视化“大脑”: t-SNE 分析

还记得旨在对相似故障进行分组的对比学习模块吗?研究人员使用 t-SNE (一种降维技术) 可视化了潜空间。

图 4 (上图的一部分) 中,比较这两个簇:

  • DreamWaq (左) : 点是分散的。机器人难以在数学上区分髋关节故障和膝关节故障。
  • 我们的方法 (右) : 清晰、紧密的簇。红点 (RF-Hip,右前髋) 与紫点 (RH-Hip,右后髋) 相距甚远。这证明机器人已经学会了对其自身损坏部件的“语义”理解。

零样本迁移: 终极测试

最令人印象深刻的结果是零样本迁移 (Zero-Shot Transfer)

机器人主要是在“零扭矩”故障 (电机无力) 下训练的。然而,在现实世界中,关节经常“卡死” (Lock,卡在原地) 。这在物理上是非常不同的。

机器人需要重新训练吗?不需要。

表 1: 零扭矩和关节卡死损伤下的速度跟踪误差

表 1 显示了速度跟踪误差。数值越低越好。

  • 关节卡死 (Lock Joint) 条件下 (机器人在训练中几乎没见过这种情况) ,所提出的方法 (“Ours”) 与基准相比保持了较低的误差率。
  • 例如,在左前大腿 (LF-Thigh) 卡死的情况下,基准误差为 0.616 , 而所提出的方法为 0.120 。 这在控制能力上是一个巨大的提升。

因为前向模型预测“运动”,而现实是“不动”,无论腿为什么不动 (无力还是卡死) ,预测误差都会激增。这种通用的误差信号允许控制器在没有明确训练的情况下立即适应卡死的关节。

六足机器人泛化

为了证明该方法不仅仅适用于四条腿的机器狗,他们将其应用于六足机器人。

图 5: 真实六足机器人在平坦和草地地形上的实验快照。 图 10: Isaac Gym、MuJoCo 和现实世界中的定制六足机器人。

六足机器人即使在中间两条腿受损的情况下也能成功行走。下方的图 6 显示了扭矩输出。你可以看到受损的关节 (红色虚线) 难以跟踪目标,但其他关节进行了调整以进行补偿。

图 6: 零扭矩损伤下的扭矩和关节位置变化。

结论与启示

论文《用于自适应容错足式机器人的对比前向预测强化学习》在机器人可靠性方面迈出了重要一步。

通过摆脱静态模型和纯粹的反应式控制器,研究人员赋予了机器人一种基本的自我感知形式。 对比学习的整合使系统能够对其健康状态进行分类,而前向预测模型则提供了持续的现实检查。

主要收获:

  1. 预测即力量: 使用预测状态和实际状态之间的误差是一种无需确切知道原因即可检测异常的稳健方法。
  2. 结构很重要: 迫使神经网络 (通过对比学习) 构建其潜空间,显著提高了其识别特定故障的能力。
  3. 零样本潜力: 一个能够理解一般“误差”的系统可以适应它没有经过明确训练的特定故障 (如关节卡死) 。

当我们展望机器人与人类一起在危险环境中工作的未来时,这种针对机械故障的自适应“免疫系统”将是必不可少的。它将范式从“制造牢不可破的机器人”转变为“制造能够应对损坏的机器人”。