引言
在机器人领域, 速度与精度之间始终存在着一场拉锯战。这一点在模型预测控制 (Model Predictive Control, MPC) 中表现得尤为明显。MPC 是控制复杂机器人 (从敏捷的无人机到自动驾驶赛车) 的黄金标准,因为它不仅仅是对当下做出反应,而是展望未来,规划一系列动作,并执行最佳方案。
但要展望未来,MPC 需要一个水晶球: 即动力学模型 (Dynamics Model) 。
问题就出在这里。如果你使用简单的基于物理的模型 (就像高中物理方程那样) ,你的控制器虽然速度快,但往往不够准确。它会遗漏现实世界中那些复杂的细节,比如空气动力阻力、松动的齿轮 (齿隙) ,或者发生形变的轮胎。另一方面,如果你使用庞大的神经网络来模拟机器人,虽然能获得高精度,但对于快速移动的机器人来说,其实时运行的计算负担太重了。
多年来,研究人员一直试图寻找一个中间地带。他们添加“修正”项,或者尝试学习物理模型的参数 (如质量或摩擦力) 。然而,这些方法几乎都假设了一件事: 系统的参数保持恒定。
但如果它们不是恒定的呢?如果无人机的“有效”质量因为负载的摆动而改变了呢?如果赛车轮胎的“摩擦力”在转弯前的毫秒瞬间因为车身倾斜而改变了呢?
在这篇文章中,我们将深入探讨一篇新论文: “Beyond Constant Parameters: Hyper Prediction Models and HyperMPC” (超越恒定参数: 超预测模型与 HyperMPC) 。 研究人员提出了一个引人入胜的解决方案: 超预测模型 (Hyper Prediction Model, HyperPM) 。 该系统不再学习静态参数,而是预测参数随时间演变的轨迹,从而允许简单的模型捕捉复杂的、未建模的行为。
我们将剖析其工作原理、重要性,并看看在仿真和真实世界 F1TENTH 赛车中的惊人结果。
背景: MPC 的困境
在理解解决方案之前,我们需要先明确问题。
模型预测控制 (MPC) 的工作原理是在每个时间步求解一个优化问题。想象一下无人机飞越森林。每一瞬间,无人机的计算机会根据当前状态和可能的控制输入 (动作) ,模拟成千上万条可能的未来路径。它会选择那条能最小化“代价” (不坠毁、到达目标、节省电量) 的路径,并执行该路径的第一步。
驱动这一模拟的引擎就是动力学模型 :
\[ \dot{x} = f(x, u) \]其中 \(x\) 是状态 (位置、速度) ,\(u\) 是控制 (油门、转向) 。
解析模型的局限性
工程师通常更喜欢解析模型 (基于第一性原理推导) 。这些模型基于牛顿定律,稀疏、高效且可解释。然而,它们是理想化的。它们假设机器人是刚体,地面是平的,轮胎是完美的。现实世界中的现象,即未建模动力学——例如无人机绳索下摆动的负载——对这些模型来说是不可见的。
混合模型的局限性
为了解决这个问题,机器人专家经常使用混合模型 。 他们采用解析模型并添加一个“残差”神经网络来预测误差:
\[ \dot{x} = f_{analytical}(x, u) + NN(x, u) \]或者,他们使用网络来估计解析模型的参数 \(\theta\) (如质量或摩擦力) :
\[ \dot{x} = f_{\theta}(x, u) \]当前最先进方法的问题在于,它们基于当前瞬间来估计 \(\theta\),并假设在整个预测范围 (例如接下来的 2 秒) 内该参数保持不变。
研究人员认为这还不够。 如果无人机携带摆动的负载,作用在无人机上的力会发生有节奏的变化。如果你仅根据当下情况假设该力在接下来的 2 秒内是恒定的,你的预测将会出错。你需要预测这些参数将如何变化。
核心方法: 超预测模型 (HyperPM)
论文介绍了 HyperPM , 这是一个预测模型参数演变的框架。它不问“现在的摩擦力是多少?”,而是问“未来 2 秒内的摩擦力轨迹会是什么样的?”
概念
其核心思想是将未建模的动力学投影到时间相关参数上。
假设我们有一个简单的汽车模型。它不知道悬挂或车身侧倾 (重量转移) 的存在。当汽车转弯时,重量转移到外侧轮胎,有效地改变了可用的抓地力参数。标准模型看到的是恒定的抓地力。而 HyperPM 看到转弯即将到来,并预测“抓地力参数”将在整个转弯过程中持续变化。

如图 1 所示,该架构接受三个输入:
- 过去状态 (\(x\)): 我们去过哪里?
- 过去控制 (\(u\)): 我们做了什么?
- 未来规划控制 (\(\hat{u}\)): 我们计划做什么?
第三个输入至关重要。如果你不知道控制器计划在 0.5 秒后左转,你就无法预测车身将如何侧倾。
输出是参数轨迹 \(\theta[t, t+t_p]\)。然后将这些参数输入到标准的“被控对象模型 (Plant model) ” (即解析物理方程) 中以生成状态预测。
数学公式
目标是找到一系列参数,使得在预测范围 \(t_p\) 内,预测状态 \(\hat{x}\) 与真实状态 \(x\) 之间的差异最小化。

HyperPM 函数本身定义为:

网络架构
如何构建一个既能处理历史又能处理未来计划的神经网络?研究人员结合了循环神经网络 (RNN) 和 B 样条曲线。
让我们分解图 5 中展示的架构:

- 历史编码器: 一个 GRU (门控循环单元) 处理过去状态和动作的序列。它将机器人的近期历史压缩成一个单一的“上下文”向量 (\(h_{t_c}\))。这捕捉了当前的“隐藏”状态 (例如,“负载目前正向左摆动”) 。
- 期望控制预处理器: 未来控制通过 B 样条 (B-Splines) 处理。B 样条是一种数学曲线,允许网络仅用几个“控制点”就能平滑地表示未来的控制信号。这使得网络高效且独立于特定的时间步长分辨率。
- 通过噪声增强鲁棒性: 作者使用的一个巧妙技巧 (图中用虚线标记) 是在训练期间向未来控制注入噪声。为什么?因为在现实世界中,MPC 可能计划了一个动作,但并没有完美执行。网络需要对不完美的未来计划具有鲁棒性。
- 因果参数预测器: 这个 MLP (多层感知机) 利用历史上下文和未来控制点来生成参数变化 (\(\Delta \theta\))。它使用因果掩码 , 确保在时间 \(t\) 的参数预测仅依赖于直到时间 \(t\) 的控制。你不能让 \(t=0\) 时的物理特性依赖于 \(t=2\) 时的转向指令。
训练策略: 随时间反向传播
训练这个模型是独特的。你不能只是训练它预测“下一步” (标准的监督学习) 。你必须训练它在整个长视距内都保持准确。

如图 6 所示,训练过程包括:
- 预测完整的参数轨迹。
- 将这些参数代入可微物理模拟器 (使用 RK4 积分器) 。
- 针对完整的视距 (例如 2 秒) 推演 (Roll out) 模拟。
- 将整个模拟路径与真实值 (Ground Truth) 进行比较。
- 随时间反向传播误差以更新网络权重。
这确保了模型不仅在下一毫秒表现良好,而且在未来几秒内都能保持稳定和准确。
HyperMPC: 闭环
既然我们有了一个很棒的预测模型,我们如何用它来控制机器人?这种集成被称为 HyperMPC 。
工作流程是循环的。标准 MPC 求解优化问题以输出控制序列。HyperMPC 增加了一个预处理步骤:
- 输入: 获取上一步规划的控制序列 (向前移动) 和当前的观测历史。
- Hyper 步骤: 将其传入 HyperPM 以获得模型参数轨迹 \(\{\theta_t\}\)。
- 优化: 将这些时变参数输入 MPC 求解器。
- 求解: MPC 求解器找到最优控制 \(u^*\)。
- 执行: 对机器人应用第一个控制 \(u_0\)。
- 重复。
这种方法的魅力在于计算效率。繁重的工作 (神经网络) 发生在优化循环之外。在循环内部,求解器处理的仍然是解析模型 (速度很快) ,只不过这是一个质量/摩擦力值在每一步都在变化的解析模型。

优化问题 (如上所示) 看起来很标准,但请注意下标 \(\theta_t\)——动力学模型随时间 \(t\) 演变。
实验与结果
研究人员在三个不同的平台上测试了 HyperPM,涵盖了从仿真到现实世界的场景。

1. 带齿隙的仿真摆
挑战: 摆锤很简单。但加上“齿隙 (backlash) ” (齿轮齿之间的间隙) ,它就成了一场噩梦。当电机改变方向时,会有一个瞬间齿轮在转动但摆锤不动 (死区) 。标准模型假设接触是即时的。

结果: 标准模型完全失败,因为它们无法预测齿隙阶段的扭矩损失。
看下面的表 1 , 注意“成功率 (Success Rate) ”。恒定参数模型 (const) 甚至标准的 HyperDynamics (HD,预测静态参数) 都未能将摆锤甩起 (0% 成功率) 。 HyperPM 达到了 100% 的成功率。

HyperPM 学会了预测参数轨迹,在齿隙阶段有效地“关闭”齿轮比参数,完美模拟了死区。
2. 带绳索悬挂负载的无人机
挑战: 无人机用绳子吊着重物。无人机的传感器可以看到无人机自身,但它们无法看到负载或绳索。负载摆动,拖拽着无人机。这是一个典型的“部分可观测”系统。

结果: 研究人员用不同长度的绳索对此进行了测试。绳索越长,未建模的动力学就越复杂。

在图 9 中,注意当绳索长度为 0 (刚性负载) 时,所有模型表现相当。随着绳索变长 (\(l=1.0\)) ,标准模型的误差激增。HyperPM (红色条) 将误差保持在显著较低的水平。它从无人机的历史中推断出隐藏负载的振荡,并预测这种拉力在预测视距内将如何演变。
3. 现实世界 F1TENTH 赛车
挑战: 自动驾驶赛车将物理学推向了极限。车辆是 F1TENTH (1/8 比例) 赛车。目标是在虚拟赛道上尽可能快地驾驶。

物理学: 当汽车猛烈刹车或转弯时,会发生重量转移。这会改变轮胎上的法向力,从而改变抓地力。简单的“单轨”模型无法捕捉到这一点。
结果:
首先,让我们看看表 3 中的预测误差。与基准恒定模型 (const_s) 相比,HyperPM 将预测误差降低了近 49%。

但准确的预测能转化为更好的比赛表现吗?是的。 图 4 (下) 显示了总代价 (圈速/进度) 和安全惩罚。HyperPM (蓝线/条) 实现了速度与安全的最佳平衡。值得注意的是,它优于“残差”模型 (res),后者使用神经网络直接修正动力学。这很可能是因为残差模型倾向于过拟合训练数据,而 HyperPM 调整的是物理参数,使预测基于现实。

可解释性: “顿悟”时刻
这篇论文最酷的部分之一是可解释性检查。研究人员问: “模型实际上对参数做了什么?”
他们观察了前轮胎的法向力 (\(F_{zf}\)) 。 在物理学中,当你刹车时,重量向前转移,增加了这个力。MPC 中使用的标准解析模型假设这个力是恒定的。
研究人员绘制了由复杂的“地面真值”物理公式计算出的力 (黑线) 与 HyperPM 通过调整汽车参数 (特别是重心) 预测出的力 (红线) 的对比图。

如图 11 所示,红线完美地跟随黑线。HyperPM “发现”了负载转移的概念。它动态地移动模型中的虚拟质心,以模拟刹车和加速过程中发生的重量转移。这证明模型不仅仅是在记忆数据;它正在寻找物理适应性来解释现实。
结论
超预测模型 (HyperPM) 代表了基于模型的控制领域向前迈出的重要一步。通过打破系统参数必须恒定的假设,它弥合了解析模型的速度与数据驱动方法的精度之间的鸿沟。
主要结论:
- 时变是关键: 未建模的动力学 (齿隙、负载摆动) 很少是静态的。将其建模为变化参数的轨迹比静态猜测更有效。
- 未来感知: 预测动力学需要了解未来的计划。HyperPM 利用规划的控制序列来预测系统的响应将如何变化。
- 效率: HyperMPC 保留了标准 MPC 的计算速度,因为繁重的神经网络在优化循环之外运行。
- 可解释性: 与“黑盒”残差网络不同,HyperPM 修改物理参数 (如质量或长度) ,提供了关于模型正在“思考”什么的洞察。
这种方法为复杂环境中的机器人技术打开了激动人心的大门——想象一下快递无人机能够实时适应阵风和晃动的包裹,或者自动驾驶汽车在撞上冰块的瞬间调整其内部物理模型。通过教导我们的旧模型变得更加动态,我们让机器人变得更安全、更快速、更智能。
](https://deep-paper.org/en/paper/2508.06181/images/cover.png)