引言

在机器人领域, 速度与精度之间始终存在着一场拉锯战。这一点在模型预测控制 (Model Predictive Control, MPC) 中表现得尤为明显。MPC 是控制复杂机器人 (从敏捷的无人机到自动驾驶赛车) 的黄金标准，因为它不仅仅是对当下做出反应，而是展望未来，规划一系列动作，并执行最佳方案。

但要展望未来，MPC 需要一个水晶球: 即动力学模型 (Dynamics Model) 。

问题就出在这里。如果你使用简单的基于物理的模型 (就像高中物理方程那样) ，你的控制器虽然速度快，但往往不够准确。它会遗漏现实世界中那些复杂的细节，比如空气动力阻力、松动的齿轮 (齿隙) ，或者发生形变的轮胎。另一方面，如果你使用庞大的神经网络来模拟机器人，虽然能获得高精度，但对于快速移动的机器人来说，其实时运行的计算负担太重了。

多年来，研究人员一直试图寻找一个中间地带。他们添加“修正”项，或者尝试学习物理模型的参数 (如质量或摩擦力) 。然而，这些方法几乎都假设了一件事: 系统的参数保持恒定。

但如果它们不是恒定的呢？如果无人机的“有效”质量因为负载的摆动而改变了呢？如果赛车轮胎的“摩擦力”在转弯前的毫秒瞬间因为车身倾斜而改变了呢？

在这篇文章中，我们将深入探讨一篇新论文: “Beyond Constant Parameters: Hyper Prediction Models and HyperMPC” (超越恒定参数: 超预测模型与 HyperMPC) 。研究人员提出了一个引人入胜的解决方案: 超预测模型 (Hyper Prediction Model, HyperPM) 。该系统不再学习静态参数，而是预测参数随时间演变的轨迹，从而允许简单的模型捕捉复杂的、未建模的行为。

我们将剖析其工作原理、重要性，并看看在仿真和真实世界 F1TENTH 赛车中的惊人结果。

背景: MPC 的困境

在理解解决方案之前，我们需要先明确问题。

模型预测控制 (MPC) 的工作原理是在每个时间步求解一个优化问题。想象一下无人机飞越森林。每一瞬间，无人机的计算机会根据当前状态和可能的控制输入 (动作) ，模拟成千上万条可能的未来路径。它会选择那条能最小化“代价” (不坠毁、到达目标、节省电量) 的路径，并执行该路径的第一步。

驱动这一模拟的引擎就是动力学模型 :

\[ \dot{x} = f(x, u) \]

其中 \(x\) 是状态 (位置、速度) ，\(u\) 是控制 (油门、转向) 。

解析模型的局限性

工程师通常更喜欢解析模型 (基于第一性原理推导) 。这些模型基于牛顿定律，稀疏、高效且可解释。然而，它们是理想化的。它们假设机器人是刚体，地面是平的，轮胎是完美的。现实世界中的现象，即未建模动力学——例如无人机绳索下摆动的负载——对这些模型来说是不可见的。

混合模型的局限性

为了解决这个问题，机器人专家经常使用混合模型 。他们采用解析模型并添加一个“残差”神经网络来预测误差:

\[ \dot{x} = f_{analytical}(x, u) + NN(x, u) \]

或者，他们使用网络来估计解析模型的参数 \(\theta\) (如质量或摩擦力) :

\[ \dot{x} = f_{\theta}(x, u) \]

当前最先进方法的问题在于，它们基于当前瞬间来估计 \(\theta\)，并假设在整个预测范围 (例如接下来的 2 秒) 内该参数保持不变。

研究人员认为这还不够。 如果无人机携带摆动的负载，作用在无人机上的力会发生有节奏的变化。如果你仅根据当下情况假设该力在接下来的 2 秒内是恒定的，你的预测将会出错。你需要预测这些参数将如何变化。

核心方法: 超预测模型 (HyperPM)

论文介绍了 HyperPM , 这是一个预测模型参数演变的框架。它不问“现在的摩擦力是多少？”，而是问“未来 2 秒内的摩擦力轨迹会是什么样的？”

概念

其核心思想是将未建模的动力学投影到时间相关参数上。

假设我们有一个简单的汽车模型。它不知道悬挂或车身侧倾 (重量转移) 的存在。当汽车转弯时，重量转移到外侧轮胎，有效地改变了可用的抓地力参数。标准模型看到的是恒定的抓地力。而 HyperPM 看到转弯即将到来，并预测“抓地力参数”将在整个转弯过程中持续变化。

图 1: HyperPM 利用最近的状态和控制历史，结合规划的控制序列，预测时变模型参数的轨迹。将这些预测参数注入标称动力学中，可以产生更准确的长视距状态预测。

如图 1 所示，该架构接受三个输入:

过去状态 (\(x\)): 我们去过哪里？
过去控制 (\(u\)): 我们做了什么？
未来规划控制 (\(\hat{u}\)): 我们计划做什么？

第三个输入至关重要。如果你不知道控制器计划在 0.5 秒后左转，你就无法预测车身将如何侧倾。

输出是参数轨迹 \(\theta[t, t+t_p]\)。然后将这些参数输入到标准的“被控对象模型 (Plant model) ” (即解析物理方程) 中以生成状态预测。

数学公式

目标是找到一系列参数，使得在预测范围 \(t_p\) 内，预测状态 \(\hat{x}\) 与真实状态 \(x\) 之间的差异最小化。

描述在参数化 theta 的动力学函数约束下，最小化真实状态 x 和预测状态 x-hat 之间误差积分的方程。

HyperPM 函数本身定义为:

方程显示 HyperPM 是过去状态、过去控制和未来规划控制的函数，输出参数轨迹 theta。

网络架构

如何构建一个既能处理历史又能处理未来计划的神经网络？研究人员结合了循环神经网络 (RNN) 和 B 样条曲线。

让我们分解图 5 中展示的架构:

图 5: 超预测模型的架构。它由历史编码器 (GRU)、期望控制预处理器 (B-spline) 和因果参数预测器组成。

历史编码器: 一个 GRU (门控循环单元) 处理过去状态和动作的序列。它将机器人的近期历史压缩成一个单一的“上下文”向量 (\(h_{t_c}\))。这捕捉了当前的“隐藏”状态 (例如，“负载目前正向左摆动”) 。
期望控制预处理器: 未来控制通过 B 样条 (B-Splines) 处理。B 样条是一种数学曲线，允许网络仅用几个“控制点”就能平滑地表示未来的控制信号。这使得网络高效且独立于特定的时间步长分辨率。
通过噪声增强鲁棒性: 作者使用的一个巧妙技巧 (图中用虚线标记) 是在训练期间向未来控制注入噪声。为什么？因为在现实世界中，MPC 可能计划了一个动作，但并没有完美执行。网络需要对不完美的未来计划具有鲁棒性。
因果参数预测器: 这个 MLP (多层感知机) 利用历史上下文和未来控制点来生成参数变化 (\(\Delta \theta\))。它使用因果掩码 , 确保在时间 \(t\) 的参数预测仅依赖于直到时间 \(t\) 的控制。你不能让 \(t=0\) 时的物理特性依赖于 \(t=2\) 时的转向指令。

训练策略: 随时间反向传播

训练这个模型是独特的。你不能只是训练它预测“下一步” (标准的监督学习) 。你必须训练它在整个长视距内都保持准确。

图 6: 超预测模型被训练来预测参数轨迹。它使用 RK4 积分器推演动力学，并计算整个时间范围内的损失。

如图 6 所示，训练过程包括:

预测完整的参数轨迹。
将这些参数代入可微物理模拟器 (使用 RK4 积分器) 。
针对完整的视距 (例如 2 秒) 推演 (Roll out) 模拟。
将整个模拟路径与真实值 (Ground Truth) 进行比较。
随时间反向传播误差以更新网络权重。

这确保了模型不仅在下一毫秒表现良好，而且在未来几秒内都能保持稳定和准确。

HyperMPC: 闭环

既然我们有了一个很棒的预测模型，我们如何用它来控制机器人？这种集成被称为 HyperMPC 。

工作流程是循环的。标准 MPC 求解优化问题以输出控制序列。HyperMPC 增加了一个预处理步骤:

输入: 获取上一步规划的控制序列 (向前移动) 和当前的观测历史。
Hyper 步骤: 将其传入 HyperPM 以获得模型参数轨迹 \(\{\theta_t\}\)。
优化: 将这些时变参数输入 MPC 求解器。
求解: MPC 求解器找到最优控制 \(u^*\)。
执行: 对机器人应用第一个控制 \(u_0\)。
重复。

这种方法的魅力在于计算效率。繁重的工作 (神经网络) 发生在优化循环之外。在循环内部，求解器处理的仍然是解析模型 (速度很快) ，只不过这是一个质量/摩擦力值在每一步都在变化的解析模型。

算法 1 方程显示优化问题，其中 x_t+dt 是使用时变 theta_t 的 RK4 积分器的函数。

优化问题 (如上所示) 看起来很标准，但请注意下标 \(\theta_t\)——动力学模型随时间 \(t\) 演变。

实验与结果

研究人员在三个不同的平台上测试了 HyperPM，涵盖了从仿真到现实世界的场景。

图 2: 实验平台: (i) 带齿隙的摆，(ii) 带绳索悬挂负载的无人机，(iii) 现实世界 F1TENTH 赛车。

1. 带齿隙的仿真摆

挑战: 摆锤很简单。但加上“齿隙 (backlash) ” (齿轮齿之间的间隙) ，它就成了一场噩梦。当电机改变方向时，会有一个瞬间齿轮在转动但摆锤不动 (死区) 。标准模型假设接触是即时的。

图 7: 带齿隙的摆锤环境可视化。红点显示虚拟关节的松弛。

结果: 标准模型完全失败，因为它们无法预测齿隙阶段的扭矩损失。看下面的表 1 , 注意“成功率 (Success Rate) ”。恒定参数模型 (const) 甚至标准的 HyperDynamics (HD，预测静态参数) 都未能将摆锤甩起 (0% 成功率) 。 HyperPM 达到了 100% 的成功率。

表 1: 带齿隙的摆锤的预测和 MPC 性能。与其他的 0% 相比，HyperPM 显示出 100% 的成功率。

HyperPM 学会了预测参数轨迹，在齿隙阶段有效地“关闭”齿轮比参数，完美模拟了死区。

2. 带绳索悬挂负载的无人机

挑战: 无人机用绳子吊着重物。无人机的传感器可以看到无人机自身，但它们无法看到负载或绳索。负载摆动，拖拽着无人机。这是一个典型的“部分可观测”系统。

图 8: 带绳索连接负载的无人机模型。

结果: 研究人员用不同长度的绳索对此进行了测试。绳索越长，未建模的动力学就越复杂。

图 9: 不同绳索长度数据集上的预测性能比较。随着绳索长度增加，HyperPM 保持较低的误差。

在图 9 中，注意当绳索长度为 0 (刚性负载) 时，所有模型表现相当。随着绳索变长 (\(l=1.0\)) ，标准模型的误差激增。HyperPM (红色条) 将误差保持在显著较低的水平。它从无人机的历史中推断出隐藏负载的振荡，并预测这种拉力在预测视距内将如何演变。

3. 现实世界 F1TENTH 赛车

挑战: 自动驾驶赛车将物理学推向了极限。车辆是 F1TENTH (1/8 比例) 赛车。目标是在虚拟赛道上尽可能快地驾驶。

图 10: F1TENTH 赛车的实验设置。左: 虚拟赛道。右: 机器人车辆。

物理学: 当汽车猛烈刹车或转弯时，会发生重量转移。这会改变轮胎上的法向力，从而改变抓地力。简单的“单轨”模型无法捕捉到这一点。

结果: 首先，让我们看看表 3 中的预测误差。与基准恒定模型 (const_s) 相比，HyperPM 将预测误差降低了近 49%。

表 3: F1TENTH 赛车的长视距预测误差。HyperPM 优于 HD 和恒定模型。

但准确的预测能转化为更好的比赛表现吗？是的。 图 4 (下) 显示了总代价 (圈速/进度) 和安全惩罚。HyperPM (蓝线/条) 实现了速度与安全的最佳平衡。值得注意的是，它优于“残差”模型 (res)，后者使用神经网络直接修正动力学。这很可能是因为残差模型倾向于过拟合训练数据，而 HyperPM 调整的是物理参数，使预测基于现实。

图 4: F1TENTH 赛车中建模方法的比较。HyperPM 显示出更低的代价和安全惩罚。

可解释性: “顿悟”时刻

这篇论文最酷的部分之一是可解释性检查。研究人员问: “模型实际上对参数做了什么？”

他们观察了前轮胎的法向力 (\(F_{zf}\)) 。在物理学中，当你刹车时，重量向前转移，增加了这个力。MPC 中使用的标准解析模型假设这个力是恒定的。

研究人员绘制了由复杂的“地面真值”物理公式计算出的力 (黑线) 与 HyperPM 通过调整汽车参数 (特别是重心) 预测出的力 (红线) 的对比图。

图 11: 使用不同方法计算的前轮胎法向力。红线 (HyperPM) 紧跟黑线 (物理地面真值)，捕捉到了负载转移。

如图 11 所示，红线完美地跟随黑线。HyperPM “发现”了负载转移的概念。它动态地移动模型中的虚拟质心，以模拟刹车和加速过程中发生的重量转移。这证明模型不仅仅是在记忆数据；它正在寻找物理适应性来解释现实。

结论

超预测模型 (HyperPM) 代表了基于模型的控制领域向前迈出的重要一步。通过打破系统参数必须恒定的假设，它弥合了解析模型的速度与数据驱动方法的精度之间的鸿沟。

主要结论:

时变是关键: 未建模的动力学 (齿隙、负载摆动) 很少是静态的。将其建模为变化参数的轨迹比静态猜测更有效。
未来感知: 预测动力学需要了解未来的计划。HyperPM 利用规划的控制序列来预测系统的响应将如何变化。
效率: HyperMPC 保留了标准 MPC 的计算速度，因为繁重的神经网络在优化循环之外运行。
可解释性: 与“黑盒”残差网络不同，HyperPM 修改物理参数 (如质量或长度) ，提供了关于模型正在“思考”什么的洞察。

这种方法为复杂环境中的机器人技术打开了激动人心的大门——想象一下快递无人机能够实时适应阵风和晃动的包裹，或者自动驾驶汽车在撞上冰块的瞬间调整其内部物理模型。通过教导我们的旧模型变得更加动态，我们让机器人变得更安全、更快速、更智能。

引言#

背景: MPC 的困境#

解析模型的局限性#

混合模型的局限性#

核心方法: 超预测模型 (HyperPM)#

概念#

数学公式#

网络架构#

训练策略: 随时间反向传播#

HyperMPC: 闭环#

实验与结果#

1. 带齿隙的仿真摆#

2. 带绳索悬挂负载的无人机#

3. 现实世界 F1TENTH 赛车#

可解释性: “顿悟”时刻#

结论#

引言