引言

在机器人领域, 灵活性安全性之间始终存在着一种张力。一方面,我们希望机器人利用神经网络 (NNs) 来学习复杂的行为,适应新环境,并处理高维传感器数据。另一方面,神经网络通常是“黑盒”——我们很难轻易保证它们不会指挥无人机撞墙。

为了解决这个问题,机器人学家依赖于模型预测控制 (Model Predictive Control, MPC) 。 MPC 是一个数学框架,它通过在每一时刻求解一个优化问题来规划动作,严格遵守安全约束 (如“不要撞到障碍物”或“保持在电机限制范围内”) 。

最近,研究人员尝试使用可微 MPC (Differentiable MPC) 将这两个世界结合起来。其思路很简单: 在 MPC 求解器前面放一个神经网络。网络观察世界并预测“规则” (成本和约束) ,然后 MPC 求解器规划出安全轨迹。

但在这种标准设置中存在一个缺陷。它将求解器和网络视为两个独立的实体。网络发号施令,求解器试图执行。如果求解器遇到困难,网络在为时已晚之前并不知道。

DEQ-MPC 应运而生,这是卡内基梅隆大学和博世人工智能中心在一篇论文中提出的新方法。研究人员不再采用顺序流水线,而是建议将网络和求解器融合为一个单一的、联合的均衡系统 。 通过在“大脑” (网络) 和“规划者” (求解器) 之间建立双向对话,他们实现了更丰富的表示、更快的反应速度以及数学上更平滑的训练。

在这篇文章中,我们将打破顺序处理的隔阂,探索深度均衡模型如何彻底改变机器人控制。

背景: 组成部分

在深入研究新方法之前,我们需要了解其构建模块: 传统的可微 MPC 和深度均衡模型。

可微模型预测控制

本质上,MPC 通过求解一个优化问题来找到一系列动作 (\(\tau\)) ,使得在满足动力学规则 (\(f\)) 和安全约束 (\(h\)) 的前提下,最小化成本函数 (\(C\)) 。

标准 MPC 公式。

可微 MPC 设置中,神经网络预测参数 \(\theta\) (例如成本函数的权重或障碍物的位置) 。然后,MPC 求解器利用这些参数输出最优轨迹 \(\tau^*\)。

为了训练神经网络,我们需要计算梯度。由于中间的“层”是一个优化求解器,而不是标准的矩阵乘法,我们使用隐函数定理 (Implicit Function Theorem, IFT)

使用 IFT 计算梯度。

这个方程允许我们通过优化解进行反向传播。然而,标准方法将其视为“一次性”传递: 网络预测 \(\theta\),求解器找到 \(\tau\),然后我们计算梯度。

深度均衡模型 (DEQs)

深度均衡模型是一类迷人的神经网络。DEQ 不是堆叠层 (层 1 \(\to\) 层 2 \(\to\) … \(\to\) 输出) ,而是有效地将单层运行无限次,直到输出稳定。

在数学上,我们寻找一个不动点 \(z^*\),使得如果我们将其再次通过网络层 \(d_{\phi}\),它不会发生变化:

DEQ 不动点公式。

这种“无限深度”允许 DEQ 用更少的参数模拟非常复杂的关系。DEQ-MPC 论文利用这一概念将网络和求解器绑定在一起。

核心方法: DEQ-MPC

作者指出了标准可微 MPC 的一个致命弱点: 求解器鸿沟 (The Solver Gap) 。

在典型设置 (Diff-MPC) 中,网络推理首先发生,随后是优化。网络必须在不知道求解器将如何反应或当前轨迹是什么样子的情况下猜测优化参数 \(\theta\)。

标准 Diff-MPC 与 DEQ-MPC 的对比。

如图 1 左侧所示,标准方法是线性的。而在右侧, DEQ-MPC 引入了一个反馈回路。网络根据求解器当前的轨迹 \(\tau\) 调整其预测 \(\theta\),而求解器则根据新的 \(\theta\) 更新轨迹。

构建联合问题

研究人员不再将控制视为一系列步骤,而是将其重新表述为一个联合优化问题 。 他们希望同时找到最优轨迹 \(\tau^*\) 和最优网络参数 \(\theta^*\)。

他们将神经网络推理本身视为优化问题中的一个等式约束 :

联合优化问题公式。

注意上图中的最后一行: \(\theta = \mathrm{NN}_\phi(\dots, \tau_{0:T})\)。这意味着参数 \(\theta\) 必须与给定当前轨迹时的网络输出相匹配。这这就产生了一种“鸡生蛋,蛋生鸡”的耦合关系,迫使两个系统达成一致。

迭代求解 (ADMM)

解决这个联合问题需要一种专门的算法。作者使用了交替方向乘子法 (ADMM) 的一种变体。他们不是试图一次性解决所有问题,而是在两个更简单的步骤之间交替进行:

  1. 网络步骤: 固定轨迹 \(\tau\),让网络预测更新后的参数 \(\theta\)。
  2. 求解器步骤: 固定参数 \(\theta\),让 MPC 求解器改进轨迹 \(\tau\)。

交替更新方程。

这个迭代过程 (方程 8) 持续进行,直到 \(\theta\) 和 \(\tau\) 都稳定下来——达到均衡

  • 这有什么好处? 它允许网络“看到”求解器遇到的困难。如果求解器被卡在障碍物附近,轨迹 \(\tau\) 会反映出这一点。网络在下一次迭代中看到这个 \(\tau\),并可以调整成本函数 \(\theta\) 来帮助求解器绕过它。

内部机制: 架构与求解器

为了使其具有实用性,作者必须对求解器和网络架构做出具体的设计选择。

增广拉格朗日求解器

在 MPC 模块内部,论文使用了增广拉格朗日 (Augmented Lagrangian, AL) 方法。这是一种处理机器人技术中常见硬约束 (如“不要撞墙”) 的鲁棒方法。

增广拉格朗日函数。

拉格朗日量 \(\mathcal{L}\) 将成本与约束结合起来 (使用乘子 \(\lambda, \eta\) 和惩罚项 \(\mu\)) 。这将受约束问题转化为一系列更容易解决的无约束问题。

DEQ-MPC-DEQ: DEQ 中的 DEQ

这里变得更加元 (meta) 了。作者探索了神经网络部分的两种架构:

  1. DEQ-MPC-NN: 标准的前馈网络。
  2. DEQ-MPC-DEQ: 网络本身就是一个深度均衡模型。

在第二种变体中,整个系统是一个嵌套的不动点问题。外层循环平衡求解器和网络,而内层循环平衡网络的内部状态。这种“无限深度”的架构被证明在复杂环境中更加稳定和强大。

训练与梯度

可微优化中最令人头疼的问题之一是梯度质量

当优化求解器收敛得很紧时,解周围的“地形”可能会变得极其陡峭或平坦,导致无用或爆炸的梯度。这通常是因为拉格朗日量中的惩罚参数 \(\mu\) 变得非常大以强制执行约束。

DEQ-MPC 通过使用优化的中间步骤进行训练来解决这个问题。损失函数不仅仅关注最终完美的解,而是将求解器每次迭代的轨迹与专家演示进行比较。

对迭代求和的损失函数。

通过监督中间步骤 (\(j=1\) 到 \(I\)) ,网络学会了从一开始就平稳地引导求解器,而不仅仅是指向终点。这充当了一种“课程学习”的形式,提供了更平滑、更有用的梯度。

实验与结果

作者在多个机器人任务上测试了 DEQ-MPC,从简单的摆到避开动态障碍物的复杂四旋翼飞行器。

与基准的性能对比

主要指标是机器人执行任务的能力与“专家”策略相比如何。结果经过归一化处理,1.0 代表专家级性能。

不同环境下的性能对比条形图。

如图 2 所示, DEQ-MPC-DEQ (红色) 始终优于或匹配基准。在最困难的环境中,如 QPoleDynObs (一架无人机在避开移动障碍物的同时平衡一根杆子) ,差距变得非常明显,标准的可微 MPC (蓝色) 在此类任务中表现得很挣扎。

数据效率与泛化

深度均衡模型的承诺优势之一是更好的表示能力。作者通过在不同比例的数据集上训练模型来测试这一点。

验证误差与训练数据比例的关系。

图 3 表明,与标准网络相比,DEQ-MPC 变体 (紫色和绿色) 在数据较少的情况下实现了更低的验证误差。随着数据的增加,它们也继续改进,而标准方法往往较早进入平台期 (饱和) 。

压力下的稳定性

机器人环境是混乱的。约束可能很硬,成本函数可能很敏感。

作者通过检查约束紧绷时的梯度行为来测试稳定性。

梯度不稳定性图表。

图 6 显示了鲜明的对比。标准的 Diff-MPC (蓝/橙线) 遭受验证误差的大幅峰值——这是梯度不稳定导致训练发散的迹象。得益于迭代求解过程提供的更平滑的梯度流,DEQ-MPC 变体 (红/绿线) 保持稳定。

热启动: 速度因素

在实时机器人技术中,你没有时间每毫秒都从头开始解决问题。你希望“热启动 (warm-start) ”——使用前一毫秒的解作为当前的起点。

标准 Diff-MPC 在这方面很吃力,因为网络每次都预测一个全新的 \(\theta\),可能会使之前的解失效。而 DEQ-MPC 设计之初就是迭代的。

性能与热启动迭代次数的关系。

图 8 显示,即使只允许很少的求解器迭代次数 (x 轴向左移动) ,DEQ-MPC (红色) 仍能保持高性能。如果求解器没有足够的时间从头开始收敛,标准 MPC 的性能会迅速下降。

现实世界验证

模拟很好,但在真机上能飞吗?作者将代码部署在 Crazyflie 纳米四旋翼飞行器上,以穿越虚拟障碍物。

Crazyflie 无人机的硬件实验。

结果是决定性的。

硬件结果表。

如表 1 所示, DEQ-MPC-DEQ 策略在现实世界中实现了 0.0% 的失败率 , 而标准方法的坠机率为 33%。这证实了理论上的稳定性优势直接转化为物理硬件的可靠性。

结论

DEQ-MPC 代表了将深度学习与控制理论相结合的重要一步。通过将神经网络和优化求解器视为联合均衡中的伙伴,而不是顺序的老板与员工关系,该框架实现了:

  1. 更丰富的表示: 网络可以根据求解器的实际进展调整其预测。
  2. 更平滑的梯度: 对中间步骤进行训练可以防止可微优化中常见的不稳定性。
  3. 更好的热启动: 系统天生适合实时机器人技术的连续流式特性。

对于学生和研究人员来说,这篇论文强调了一个重要的教训: 有时我们连接模块 (如求解器和网络) 的架构方式与模块本身一样重要。随着我们推动机器人变得更智能、更安全,像 DEQ-MPC 这样的统一框架很可能成为高性能控制的标准。