想象一下,一架无人机正在密集的城市环境中运送包裹。它从平静的屋顶起飞,但当它下降到两座摩天大楼之间的“城市峡谷”时,遇到了一股突如其来的猛烈风洞。这里的风力动力学与屋顶上的情况截然不同。
对于自主系统来说,这是一个噩梦般的场景。为了保证安全,无人机需要知道环境的极限——具体来说,就是它可能遇到的最大干扰 (风) 。如果无人机始终假设会遇到最恶劣的风暴,它就会因为过度保守而无法高效飞行 (甚至根本无法起飞) 。如果它假设天气平静,当它撞上风洞时可能会坠毁。
这一两难困境正是论文 “From Space to Time: Enabling Adaptive Safety with Learned Value Functions via Disturbance Recasting” (从空间到时间: 通过干扰重铸利用学习价值函数实现自适应安全) 的核心焦点。研究人员引入了一个名为 SPACE2TIME 的框架,通过从根本上重新思考我们如何对风险建模,允许机器人在具有未知、空间变化干扰的环境中导航。
在这篇文章中,我们将剖析 SPACE2TIME 如何将复杂的空间问题转化为可管理的时间问题,使无人机能够在不可预测的风中安全飞行,而不会被谨慎束缚住手脚。
安全困境: 性能与保障
在安全关键型机器人技术中,我们通常使用模块化架构。我们有一个为性能设计的“标称控制器” (nominal controller) ——用于快速从 A 点到达 B 点。然后,我们将该控制器包裹在一个 安全滤波器 (Safety Filter) 中。该滤波器监控系统,仅在机器人即将违反安全约束 (例如撞墙或因风失控) 时进行干预。
构建这些滤波器的两种流行方法是 控制障碍函数 (CBF) 和 Hamilton-Jacobi 可达性 (HJR) 分析。
- CBF 是高效的优化约束,但对于复杂的非线性系统来说很难设计。
- HJR 通过计算所有不可避免会导致坠毁的状态集合 (“反向可达管”) 来提供形式化的安全保证。然而,HJR 遭受“维数灾难”的困扰,使得高维系统 (如 6 自由度无人机) 在计算上无法实时求解。
最近的进展,如 DeepReach , 使用神经网络离线逼近 HJR 解,使其能够扩展到更高维度。然而,一个主要限制仍然存在: 静态世界假设 。
大多数离线学习方法假设运行域 (例如最大风速) 是已知且恒定的。在现实世界中,风随空间变化。无人机移动 10 米可能会进入完全不同的气流状态。如果我们不能预先知道风的地图 (我们很少能知道) ,我们如何预训练安全滤波器?
核心洞察: 从空间到时间
研究人员提出了一个绝妙的简化方法。绘制每个可能空间环境中风的每一种可能变化是不可能的。然而,当机器人在空间中移动时,它会将这些空间变化体验为 时间 变化。
如果一架无人机飞进风洞,作用在它身上的风速会随时间增加。因此,与其建立复杂的空间地图模型,我们可以对干扰随时间的 变化率 进行建模。

如 图 2 所示,干扰的空间梯度 (左) 可以重参数化为时间演变 (右) 。通过学习一个考虑了随时间增长的干扰的价值函数,系统对于沿轨迹遇到的空间变化变得具有鲁棒性。
这就是 SPACE2TIME 的核心。它确保系统:
- 对现状实事求是: 它使用当前测量到的干扰。
- 对未来悲观预测: 它假设干扰将以最坏情况的速率恶化。
SPACE2TIME 框架
该框架在两个不同的阶段运行: 离线学习阶段和在线部署阶段。

1. 离线阶段: 学习时变价值函数
为了实现这一点,研究人员增强了系统动力学。标准动力学取决于状态 \(x\)、控制 \(u\) 和干扰 \(d\):

在离线阶段,他们扩展了状态空间以包含干扰率。他们定义了一个新的联合状态 \(z\),其中包括机器人的物理状态和干扰演变。干扰被允许基于速率 \(\dot{d}\) 随时间线性增长。

在这里,\(\eta\) 代表干扰,它受到一个随时间变化的集合的限制。“时变干扰集” \(\mathcal{D}_{tv}\) 随着时间的推移缩小安全裕度 (有效地模拟风力变强) :

利用这个公式,团队使用 DeepReach (一个使用物理信息神经网络的自监督学习框架) 来学习一个 可达-避障价值函数 (Reach-Avoid Value Function) 。
这个价值函数 \(V(z, t)\) 的目标是识别一个“可达-避障管”——即假设干扰以指定速率增长,无人机可以从该状态集合安全到达目标集,同时避开故障状态 (障碍物) 。

训练过程涉及最小化损失函数,该函数强制执行 Hamilton-Jacobi-Isaacs 偏微分方程 (PDE)。所使用的特定损失函数确保目标集是控制不变的 (这意味着一旦无人机安全,它就可以保持安全) :

2. 在线阶段: 自适应安全滤波
一旦无人机起飞,它就需要使用这个预先学习的价值函数。但是无人机观察到的是 空间 变化,而不是我们训练时的理论时间增长。
在线模块估计两件事:
- 当前干扰 (\(\bar{d}\)): 现在的风有多大?
- 方向导数 (\(D_{\tilde{f}}d\)): 当我们沿当前方向移动时,风的变化有多快?
利用这些估计,系统计算 “回归时间” (\(t_{return}\)) 。 这个指标回答了这个问题: 考虑到风速增加的快慢,在干扰超过我的控制器能处理的最大极限之前,我还有多少“时间”?

然后使用这个 \(t_{return}\) 来查询预训练的价值函数。如果根据 \(V(z, t_{return})\) 无人机处于安全状态,则由标称控制器负责。如果安全受到威胁, 安全滤波器 就会介入。
安全滤波器被表述为一个二次规划 (QP)。它找到最接近标称控制 \(u_{nom}\) 的控制输入 \(u^*\),同时满足由价值函数定义的安全约束:

实验验证
研究人员在仿真和硬件中验证了 SPACE2TIME,并将其与“朴素”方法 (在固定干扰模型之间切换) 和“最坏情况”方法 (假设随处都是最大风力) 进行了比较。
仿真: 城市峡谷
测试环境模仿了城市天际线。随着无人机在建筑物之间飞得越低,风力呈指数级增加——这是一个经典的空间干扰陷阱。

结果令人震惊。 朴素 基线经常坠毁,因为它们在下降时未能预测到风力的增加。 最坏情况 基线虽然幸存下来,但往往陷入瘫痪,无法到达目标,因为它假设风力总是处于飓风级别。
SPACE2TIME (Ours) 取得了平衡。它通过根据风力增加的 速率 调整安全裕度,成功地穿越了峡谷。

对比上面的清晰轨迹和下面的基线轨迹。朴素方法 (左/中) 导致坠毁 (短的、终止的线条) ,而最坏情况方法 (右) 几乎没有离开起点。

统计比较加强了视觉证据。SPACE2TIME 将安全违规率从 96% (朴素) 降低到仅 2%,同时保持了比最坏情况基线短得多的到目标距离。

硬件实验: Crazyflie 无人机
为了证明这不仅仅是仿真的人工产物,团队在带有障碍物的动作捕捉场地中,在 Crazyflie 2.1 无人机上部署了该算法。他们在控制器中“模拟注入”了风干扰,以完美匹配仿真物理特性 (确保可重复性) 。

硬件结果反映了仿真结果。朴素控制器在 5 次尝试中坠毁了 4 次。SPACE2TIME 在 100% 的试验中都取得了成功。

如 图 4 所示,SPACE2TIME 的轨迹 (右) 受到严格控制,并将无人机保持在安全区域内。朴素轨迹 (左) 是不稳定的,随着模拟风力压倒了其毫无察觉的安全滤波器,无人机大幅漂移并撞向障碍物。
为什么有效: 可视化价值函数
为了理解神经网络实际学到了什么,我们可以可视化价值函数的“零水平集”。这个边界代表了安全与危险的边缘。

在 图 5 中,我们看到安全区域如何随着干扰 速率 的增加而缩小。
- 左 (低速率) : 无人机可以在大范围内安全运行,因为风并没有快速变化。
- 右 (高速率) : 安全区域 (绿色/蓝色轮廓) 急剧缩小。系统知道,如果风速迅速加快,它的容错空间就很小,必须紧贴目标不变集。
这种适应性使得 SPACE2TIME 在条件稳定时允许宽松操作,而在条件波动时则严格限制。
结论
SPACE2TIME 框架代表了野外自主系统向前迈出的重要一步。通过将空间不确定性重铸为时间演变,作者提供了一种利用离线深度学习的强大功能来实现实时、自适应安全的方法。
这种方法消除了对完美先验地图或过度保守的最坏情况假设的需求。无论是风大城市中的送货无人机,还是湍流工业现场的检查机器人,SPACE2TIME 都能确保机器尊重其环境不断变化的限制——从而保护它自身以及我们的安全。
](https://deep-paper.org/en/paper/2509.19597/images/cover.png)