引言

机器人学中最持久的挑战之一是如何控制那些难以用数学建模的系统。例如，软体机器人拥有无限的自由度和复杂的非线性动力学特性，这使得标准的“第一性原理”物理建模难以奏效。

历史上，工程师们面临着两难的选择。他们可以使用基于模型的控制 (Model-Based Control) , 这种方法严谨且高效，但当数学模型不能完美匹配现实时就会失效。或者，他们可以使用数据驱动方法 (Data-Driven approaches) , 如强化学习 (RL) 。RL 很强大，因为它可以从经验中学习，但它也因“样本效率低”而臭名昭著——通常需要数百万次试错交互才能学会一个简单的任务。这使得 RL 在现实硬件上变得不切实际，因为在硬件上收集数据既缓慢又昂贵。

但是，是否存在一个中间地带呢？如果我们能利用线性模型的高效性，但将其应用于高度非线性的系统，并在机器人运动时实时更新我们对它的理解，那会怎样？

这就引出了递归 Koopman 学习 (Recursive Koopman Learning, RKL) 。这种新的流程结合了 Koopman 算子理论 (Koopman Operator Theory) 的数学优雅性和递归最小二乘法 (RLS) 的速度。结果是一个能够学习控制复杂、非线性机器人的系统，其所需数据量不到最先进 RL 方法的 10% , 同时还能实时运行计算轻量级的更新。

图 1: 递归 Koopman 学习流程

如图 1 所示，RKL 流程创建了一个闭环。系统估计状态，使用模型预测控制 (MPC) 计算最佳控制输入，将其应用于环境，然后立即使用产生的数据通过递归最小二乘法 (RLS) 更新其内部模型。这使得控制器能够随机应变，本质上是在“边做边学”。

背景: 非线性世界中的线性

要理解 RKL 的工作原理，我们必须首先建立数学基础: Koopman 算子理论 。

Koopman 算子

现实世界中的动力系统通常是非线性的。在线性系统中，如果你将输入加倍，输出也会加倍。在非线性系统中，将输入加倍可能会使输出变为三倍，或者根本没有变化。线性系统易于控制；我们已经解决了相关的数学问题。非线性系统则很难。

Koopman 理论提供了一个漏洞。它提出，有限维状态空间中的非线性动力系统可以表示为“观测函数 (observables) ”无限维空间中的线性系统。

设 \(\mathbf{x}\) 为我们机器人的状态，\(\mathbf{u}\) 为控制输入。我们不直接观察 \(\mathbf{x}\)，而是观察一组观测函数 \(\phi(\mathbf{x})\)，例如多项式特征 (\(x, x^2, x^3\)) 或三角函数 (\(\sin(x), \cos(x)\)) 。

如果我们将状态提升到这个更高维的空间，这些观测函数的演变可以用 Koopman 算子 \(\mathcal{K}\) 线性地描述。

Koopman 动力学方程

这里，\(\mathbf{K}_z\) 和 \(\mathbf{K}_g\) 代表提升空间中的离散时间线性动力学。这使我们能够将强大的线性控制技术应用于非线性机器人。

扩展动态模式分解 (EDMD)

由于我们无法计算无限维算子，我们使用有限数量的基函数来近似它。从数据中寻找矩阵 \(\mathbf{K}\) 的标准方法是扩展动态模式分解 (Extended Dynamic Mode Decomposition, EDMD) 。

给定一个快照数据集，EDMD 通过最小化预测误差，找到将当前观测函数映射到下一个时间步观测函数的最佳线性算子。

K 的最小化问题

这里，\(\mathbf{Y}\) 包含当前快照，\(\bar{\mathbf{Y}}\) 包含一个时间步之后的快照。这个优化问题的解通常涉及 Moore-Penrose 伪逆 (\(\dagger\)) :

EDMD 解

虽然 EDMD 很有效，但它有一个主要缺点: 它是一个批处理过程。 每次获得新数据时，你都必须将其添加到巨大的矩阵 \(\mathbf{Y}\) 和 \(\bar{\mathbf{Y}}\) 中并重新计算解。随着数据集的增长，计算成本会爆炸式增长 (\(O(N)\)) ，使得它太慢而无法在高速移动的机器人上进行实时更新。

核心方法: 递归 Koopman 学习 (RKL)

RKL 的创新之处在于用称为递归最小二乘法 (RLS) 的迭代在线更新机制取代了 EDMD 的批处理。

递归更新的力量

目标是在每一个时间步 (\(k\)) 之后，利用新的数据对 \((\boldsymbol{\alpha}_k, \boldsymbol{\beta}_k)\) 立即更新 Koopman 矩阵 \(\mathbf{K}\)，而无需在整个历史数据上重新训练。

为此，我们跟踪一个矩阵 \(\mathbf{P}\)，它代表数据协方差的逆矩阵。在标准的 EDMD 中，我们会计算:

Q 和 P 的定义

计算大矩阵的逆 (或伪逆) 在计算上是昂贵的 (\(O(n^3)\)) 。RLS 通过使用 Sherman-Morrison 公式避免了这一点，该公式允许我们在小的秩-1 变化 (添加一个数据点) 后，仅使用简单的矩阵-向量乘法 (\(O(n^2)\)) 来更新矩阵的逆。

算法

RKL 过程如下工作:

初始化: 我们从一个小的离线数据集开始，使用标准 EDMD 获得 \(\mathbf{K}_0\) 和 \(\mathbf{P}_0\) 的初始估计。
控制循环: 在每个时间步 \(k\)，我们获取当前状态 \(\mathbf{z}_k\) 和控制 \(\mathbf{u}_k\)。
更新 P: 我们计算增益因子 \(\gamma_k\) 并更新协方差矩阵 \(\mathbf{P}\)。

P 的递归更新

更新 K: 然后，我们使用预测误差 (实际的下一个状态 \(\boldsymbol{\beta}_k\) 与预测状态 \(\mathbf{K}_k \boldsymbol{\alpha}_k\) 之间的差异) 来更新 Koopman 模型 \(\mathbf{K}\)。

K 的递归更新

请注意，这里的计算复杂度仅取决于观测函数的维度 (\(n\)) ，而不取决于数据集的大小 (\(N\)) 。这意味着该算法在 1,000,000 步之后运行的速度与在 1 步之后一样快。这是实时能力的关键。

理论收敛性: 为什么它有效

这项研究的一个重要贡献不仅是工程流程，还在于证明这种方法确实收敛的数学证明。

研究人员在马尔可夫链 (Markov Chains) 的背景下分析了 EDMD 和 RLS。机器人数据不是独立同分布 (i.i.d.) 的；机器人现在在哪里取决于它之前在哪里。这种依赖性创建了一个马尔可夫链。

该论文提供了在数据持续增长下 EDMD 的首个正式收敛性分析。通过利用马尔可夫链的强大数定律 , 作者确定了收敛的充分条件:

数据生成过程必须是遍历的 (机器人最终会探索相关的状态空间) 。
观测函数必须是平方可积的。
协方差矩阵必须保持满秩。

这一分析支持了尝试控制目标 (Attempting Control Goal, ACG) 假设 : 在尝试控制系统的过程中收集的数据特别具有信息量。即使初始策略不完美，尝试达到目标的行为也会生成数据，推动模型在最需要准确性的地方收敛。

控制合成: MPC-SAC

有了最新的线性模型 \(\mathbf{K}\)，RKL 使用序列动作控制 (Sequential Action Control, MPC-SAC) 来合成控制输入。

MPC-SAC 方程

MPC-SAC 是模型预测控制的一种变体，它通过解析方法计算连续时间的最佳控制动作。它非常稳定，并且避免了在处理学习模型时标准离散时间 MPC 求解器中常见的数值问题。

实验与结果

研究人员在两个截然不同的平台上验证了 RKL: 模拟的平面机械臂和现实世界的软体机器人。

模拟: 平面双连杆机械臂

第一个测试是一个跟踪任务，模拟机械臂必须跟随一个 8 字形轨迹。这提供了与强大基准的比较，包括软演员-评论家算法 (RL-SAC) 和随机集成双 Q 学习 (REDQ) 。

样本效率: RKL 在样本效率方面显示出巨大的提升。

RKL 仅用 3,500 个数据步就实现了高性能跟踪。
RL-SAC 需要近 2,000,000 步才能达到相当的性能。
REDQ , 一种最先进的样本高效 RL 方法，仍然需要比 RKL 多得多的数据。

轨迹跟踪的视觉差异非常明显。下方的图 7 比较了标准 Koopman 学习 (KL) 与递归 Koopman 学习 (RKL) 。

平面臂上 KL 和 RKL 的比较

在上面的列中，请注意与 KL-SAC (顶行) 相比, RKL-SAC (底行) 的红线 (实际路径) 与蓝线 (参考路径) 重叠得更紧密，即使在数据集很小的情况下也是如此。

相比之下，请看下方纯强化学习 (RL-SAC) 的结果( 图 9 )。即使经过 100 万到 250 万个训练步，跟踪仍然不完美。

RL-SAC 结果

同样，REDQ( 图 10 )的表现优于标准 RL，但在收敛速度上仍落后于 RKL。

REDQ 结果

硬件: 软体 Stewart 平台

终极测试是在软体 Stewart 平台上进行的，这是一个由柔软的、类似气动的人造肌肉驱动的并联机器人。该系统具有高度非线性、混合特性 (涉及与墙壁的接触) ，且难以进行物理建模。

软体 Stewart 平台

任务是平衡平台上的圆盘 (Puck) 或使其沿特定轨迹移动。

速度与稳定性: RKL 能够仅在 1 分 20 秒 (8,000 步) 内学习到一个高性能控制器。相比之下，RL-SAC 花费了 2 小时 46 分钟 , 却只达到了不到 50% 的性能。

下方的箱线图( 图 2 )总结了平衡误差。

平衡误差比较

图表 (a) 显示平均误差。RKL-SAC (橙色) 即使在使用极小的数据集 (1-2 分钟) 时也能实现极低的误差。
图表 (b) 显示稳定性 (标准差) 。RKL 比 RL 基准 (绿色) 稳定得多，后者遭受震荡困扰。

值得注意的是，没有更新的标准 Koopman 学习 (KL) 表现不佳。这证明了在线递归更新是“秘诀”。预训练的模型永远不会完美；机器人必须针对当前任务的具体条件 (摩擦力、特定的致动器行为) 进行实时适应。

结论

递归 Koopman 学习 (RKL) 代表了数据驱动控制向前迈出的重要一步。通过将 Koopman 算子的理论保证与递归最小二乘法的算法效率相结合，RKL 解决了困扰现代机器人技术的“样本效率”问题。

主要收获:

效率: RKL 在几分钟内就能学到 RL 需要几小时 (或几天) 才能学到的东西。
可扩展性: RKL 的计算成本不随数据集大小增长，从而实现了“永久”学习。
适应性: 连续更新允许控制器局部优化其模型，捕捉静态全局模型可能遗漏的复杂动力学特性。
理论: 正式分析证实，边飞边学 (使用来自控制任务本身的数据) 会导致模型收敛。

对于有兴趣控制软体机器人或其他复杂系统的学生和研究人员来说，RKL 提供了一个令人信服的深度强化学习替代方案——一种尊重物理世界约束和严格数学建模价值的方案。

引言#

背景: 非线性世界中的线性#

Koopman 算子#

扩展动态模式分解 (EDMD)#

核心方法: 递归 Koopman 学习 (RKL)#

递归更新的力量#

算法#

理论收敛性: 为什么它有效#

控制合成: MPC-SAC#

实验与结果#

模拟: 平面双连杆机械臂#

硬件: 软体 Stewart 平台#

结论#

引言