想象一下，一架无人机正在密集的城市环境中运送包裹。它从平静的屋顶起飞，但当它下降到两座摩天大楼之间的“城市峡谷”时，遇到了一股突如其来的猛烈风洞。这里的风力动力学与屋顶上的情况截然不同。

对于自主系统来说，这是一个噩梦般的场景。为了保证安全，无人机需要知道环境的极限——具体来说，就是它可能遇到的最大干扰 (风) 。如果无人机始终假设会遇到最恶劣的风暴，它就会因为过度保守而无法高效飞行 (甚至根本无法起飞) 。如果它假设天气平静，当它撞上风洞时可能会坠毁。

这一两难困境正是论文 “From Space to Time: Enabling Adaptive Safety with Learned Value Functions via Disturbance Recasting” (从空间到时间: 通过干扰重铸利用学习价值函数实现自适应安全) 的核心焦点。研究人员引入了一个名为 SPACE2TIME 的框架，通过从根本上重新思考我们如何对风险建模，允许机器人在具有未知、空间变化干扰的环境中导航。

在这篇文章中，我们将剖析 SPACE2TIME 如何将复杂的空间问题转化为可管理的时间问题，使无人机能够在不可预测的风中安全飞行，而不会被谨慎束缚住手脚。

安全困境: 性能与保障

在安全关键型机器人技术中，我们通常使用模块化架构。我们有一个为性能设计的“标称控制器” (nominal controller) ——用于快速从 A 点到达 B 点。然后，我们将该控制器包裹在一个 安全滤波器 (Safety Filter) 中。该滤波器监控系统，仅在机器人即将违反安全约束 (例如撞墙或因风失控) 时进行干预。

构建这些滤波器的两种流行方法是 控制障碍函数 (CBF) 和 Hamilton-Jacobi 可达性 (HJR) 分析。

CBF 是高效的优化约束，但对于复杂的非线性系统来说很难设计。
HJR 通过计算所有不可避免会导致坠毁的状态集合 (“反向可达管”) 来提供形式化的安全保证。然而，HJR 遭受“维数灾难”的困扰，使得高维系统 (如 6 自由度无人机) 在计算上无法实时求解。

最近的进展，如 DeepReach , 使用神经网络离线逼近 HJR 解，使其能够扩展到更高维度。然而，一个主要限制仍然存在: 静态世界假设 。

大多数离线学习方法假设运行域 (例如最大风速) 是已知且恒定的。在现实世界中，风随空间变化。无人机移动 10 米可能会进入完全不同的气流状态。如果我们不能预先知道风的地图 (我们很少能知道) ，我们如何预训练安全滤波器？

核心洞察: 从空间到时间

研究人员提出了一个绝妙的简化方法。绘制每个可能空间环境中风的每一种可能变化是不可能的。然而，当机器人在空间中移动时，它会将这些空间变化体验为时间变化。

如果一架无人机飞进风洞，作用在它身上的风速会随时间增加。因此，与其建立复杂的空间地图模型，我们可以对干扰随时间的 变化率 进行建模。

图 2: 状态 x 上干扰界限的变化被编码为时间 t 上界限的变化。在左图中，干扰界限向红色区域增加。这被编码为右图中显示的时间上的干扰增加。

如 图 2 所示，干扰的空间梯度 (左) 可以重参数化为时间演变 (右) 。通过学习一个考虑了随时间增长的干扰的价值函数，系统对于沿轨迹遇到的空间变化变得具有鲁棒性。

这就是 SPACE2TIME 的核心。它确保系统:

对现状实事求是: 它使用当前测量到的干扰。
对未来悲观预测: 它假设干扰将以最坏情况的速率恶化。

SPACE2TIME 框架

该框架在两个不同的阶段运行: 离线学习阶段和在线部署阶段。

图 1: SPACE2TIME 框架的概念概览。离线阶段，我们学习一系列安全价值函数，每个函数对应一个在不同时变干扰分布下演变的系统。在线阶段，我们将干扰及其导数的估计值重参数化为其时间等效值，以查询基于自适应价值函数的安全滤波器。

1. 离线阶段: 学习时变价值函数

为了实现这一点，研究人员增强了系统动力学。标准动力学取决于状态 \(x\)、控制 \(u\) 和干扰 \(d\):

描述系统动力学的方程

在离线阶段，他们扩展了状态空间以包含干扰率。他们定义了一个新的联合状态 \(z\)，其中包括机器人的物理状态和干扰演变。干扰被允许基于速率 \(\dot{d}\) 随时间线性增长。

增强动力学的方程

在这里，\(\eta\) 代表干扰，它受到一个随时间变化的集合的限制。“时变干扰集” \(\mathcal{D}_{tv}\) 随着时间的推移缩小安全裕度 (有效地模拟风力变强) :

时变干扰集的方程

利用这个公式，团队使用 DeepReach (一个使用物理信息神经网络的自监督学习框架) 来学习一个 可达-避障价值函数 (Reach-Avoid Value Function) 。

这个价值函数 \(V(z, t)\) 的目标是识别一个“可达-避障管”——即假设干扰以指定速率增长，无人机可以从该状态集合安全到达目标集，同时避开故障状态 (障碍物) 。

可达-避障奖励函数的方程

训练过程涉及最小化损失函数，该函数强制执行 Hamilton-Jacobi-Isaacs 偏微分方程 (PDE)。所使用的特定损失函数确保目标集是控制不变的 (这意味着一旦无人机安全，它就可以保持安全) :

DeepReach 损失函数的方程

2. 在线阶段: 自适应安全滤波

一旦无人机起飞，它就需要使用这个预先学习的价值函数。但是无人机观察到的是空间变化，而不是我们训练时的理论时间增长。

在线模块估计两件事:

当前干扰 (\(\bar{d}\)): 现在的风有多大？
方向导数 (\(D_{\tilde{f}}d\)): 当我们沿当前方向移动时，风的变化有多快？

利用这些估计，系统计算 “回归时间” (\(t_{return}\)) 。这个指标回答了这个问题: 考虑到风速增加的快慢，在干扰超过我的控制器能处理的最大极限之前，我还有多少“时间”？

计算 t_return 的方程

然后使用这个 \(t_{return}\) 来查询预训练的价值函数。如果根据 \(V(z, t_{return})\) 无人机处于安全状态，则由标称控制器负责。如果安全受到威胁, 安全滤波器 就会介入。

安全滤波器被表述为一个二次规划 (QP)。它找到最接近标称控制 \(u_{nom}\) 的控制输入 \(u^*\)，同时满足由价值函数定义的安全约束:

安全滤波器优化问题的方程

实验验证

研究人员在仿真和硬件中验证了 SPACE2TIME，并将其与“朴素”方法 (在固定干扰模型之间切换) 和“最坏情况”方法 (假设随处都是最大风力) 进行了比较。

仿真: 城市峡谷

测试环境模仿了城市天际线。随着无人机在建筑物之间飞得越低，风力呈指数级增加——这是一个经典的空间干扰陷阱。

图 7: 我们仿真中使用的环境设置。蓝色椭圆表示四旋翼飞行器，绿色椭圆表示当前目标。障碍物为红色。城市峡谷间的风显示为蓝色。

结果令人震惊。朴素基线经常坠毁，因为它们在下降时未能预测到风力的增加。 最坏情况 基线虽然幸存下来，但往往陷入瘫痪，无法到达目标，因为它假设风力总是处于飓风级别。

SPACE2TIME (Ours) 取得了平衡。它通过根据风力增加的速率调整安全裕度，成功地穿越了峡谷。

图 9: 我们的方法轨迹。注意，我们的安全滤波器阻止了大多数轨迹因响应干扰率估计增加而深入城市峡谷。这导致了更安全的轨迹，失败率更低。

对比上面的清晰轨迹和下面的基线轨迹。朴素方法 (左/中) 导致坠毁 (短的、终止的线条) ，而最坏情况方法 (右) 几乎没有离开起点。

图 10: 基线轨迹。朴素方法的轨迹未能考虑空间变化的干扰并坠毁。最坏情况导致极其保守、无性能的轨迹。

统计比较加强了视觉证据。SPACE2TIME 将安全违规率从 96% (朴素) 降低到仅 2%，同时保持了比最坏情况基线短得多的到目标距离。

表 1: 我们的方法与基线的比较。SPACE2TIME 在安全性和性能之间提供了最佳平衡。

硬件实验: Crazyflie 无人机

为了证明这不仅仅是仿真的人工产物，团队在带有障碍物的动作捕捉场地中，在 Crazyflie 2.1 无人机上部署了该算法。他们在控制器中“模拟注入”了风干扰，以完美匹配仿真物理特性 (确保可重复性) 。

图 3: 仿真环境 (a) 和现实世界设置 (b) 的并排比较。

硬件结果反映了仿真结果。朴素控制器在 5 次尝试中坠毁了 4 次。SPACE2TIME 在 100% 的试验中都取得了成功。

图 4: 现实世界硬件实验的轨迹。SPACE2TIME (右) 成功考虑了干扰增加。朴素方法 (左) 未能充分适应，导致坠毁。

如 图 4 所示，SPACE2TIME 的轨迹 (右) 受到严格控制，并将无人机保持在安全区域内。朴素轨迹 (左) 是不稳定的，随着模拟风力压倒了其毫无察觉的安全滤波器，无人机大幅漂移并撞向障碍物。

为什么有效: 可视化价值函数

为了理解神经网络实际学到了什么，我们可以可视化价值函数的“零水平集”。这个边界代表了安全与危险的边缘。

图 5: 针对固定干扰率的学习价值函数的 0 水平集。从左到右分别可视化了低、中、高干扰率。

在 图 5 中，我们看到安全区域如何随着干扰速率的增加而缩小。

左 (低速率) : 无人机可以在大范围内安全运行，因为风并没有快速变化。
右 (高速率) : 安全区域 (绿色/蓝色轮廓) 急剧缩小。系统知道，如果风速迅速加快，它的容错空间就很小，必须紧贴目标不变集。

这种适应性使得 SPACE2TIME 在条件稳定时允许宽松操作，而在条件波动时则严格限制。

结论

SPACE2TIME 框架代表了野外自主系统向前迈出的重要一步。通过将空间不确定性重铸为时间演变，作者提供了一种利用离线深度学习的强大功能来实现实时、自适应安全的方法。

这种方法消除了对完美先验地图或过度保守的最坏情况假设的需求。无论是风大城市中的送货无人机，还是湍流工业现场的检查机器人，SPACE2TIME 都能确保机器尊重其环境不断变化的限制——从而保护它自身以及我们的安全。

安全困境: 性能与保障#

核心洞察: 从空间到时间#

SPACE2TIME 框架#

1. 离线阶段: 学习时变价值函数#

2. 在线阶段: 自适应安全滤波#

实验验证#

仿真: 城市峡谷#

硬件实验: Crazyflie 无人机#

为什么有效: 可视化价值函数#

结论#