引言

想象一下，你在一条空无一人的模拟道路上训练自动驾驶汽车。汽车学到: 以 80 英里/小时的速度行驶既安全又高效。现在，你将同样的策略部署到交通拥堵的城市中。突然之间，以 80 英里/小时行驶这一“最优”行为不再高效——它变成了灾难。由于环境动力学 (交通密度) 的变化，“安全地快速驾驶”这一状态变得不可达 (inaccessible) 了。

这就是跨动力学强化学习 (Cross-Dynamics Reinforcement Learning) 的核心挑战。我们通常希望智能体在一个环境 (源域) 中从专家数据中学习，并将其应用到另一个物理属性或约束条件可能不同的环境 (目标域) 中。

传统方法，特别是观测模仿学习 (Imitation from Observation, IfO) ，其运作前提是专家状态分布在不同动力学环境下是相似的。它们假设如果专家在一个世界中经常访问某个状态，那么智能体在另一个世界中也应该经常访问该状态。但正如我们的汽车示例所示，当环境发生变化时，这一假设就会被打破。盲目模仿那些不再可达的状态会导致失败。

在这篇文章中，我们将深入探讨一篇提出解决方案的研究论文: 面向可达状态的策略正则化 (Accessible State Oriented Policy Regularization, ASOR) 。研究人员提出了一个框架，用于识别“全局可达状态”——即在所有动力学变化中都可以安全访问的状态——并约束策略仅在这些状态上模仿专家。

问题所在: 动力学偏移与不可达状态

要理解为什么标准的迁移学习会失败，我们需要了解隐参数马尔可夫决策过程 (Hidden Parameter Markov Decision Process, HiP-MDP) 。通俗地说，这是一组共享相同状态和动作空间，但由一个隐藏参数 \(\theta\) 决定不同转移函数的环境集合。

在 HiP-MDP 中，最优策略 \(\pi^*\) 会最大化所有可能动力学下的期望回报。当我们试图利用从一种动力学下收集的专家数据来训练另一种动力学下的任务时，问题就出现了。

“仅状态 (State-Only) ”模仿的失败

现有的 IfO 方法试图将学习者的状态分布与专家的状态分布相匹配。如果专家 90% 的时间都花在状态 A 上，学习者也会尝试这样做。

然而，请看下面的熔岩世界 (Lava World) 示例。

熔岩世界示例及动力学偏移。

在上面的场景中，“熔岩”块 (红色) 迫使智能体采取“之”字形路径 (黑线) 。在下面的场景中，熔岩移动了，允许一条更直接的路径。

关键在于，请看那些黄色的星星。这些是全局可达状态——即在两个世界中都存在的安全路径交点。

如果我们在上面的世界中运行时，天真地模仿下面的专家 (走直线) ，我们将直接走进熔岩。
状态“位置 (4,4)”在下面的动力学中是最优的，但在上面的动力学中却是致命的 (或不可达的) 。

该论文认为，我们应该忽略那些具有误导性的状态，并将正则化的重点仅放在标有黄色星星的状态上。

方法: 聚焦于可达状态

研究人员提出了一个新的框架，将标准的强化学习 (奖励最大化) 与基于模仿学习的约束相结合。

核心思想是对策略进行正则化，使其状态分布与最优可达状态分布 (记为 \(d_{T_0}^{*,+}(\cdot)\)) 保持一致。

1. 定义全局可达状态

如果对于所有考虑的环境动力学，都存在某种策略能够以非零概率访问某个状态 \(s\)，则该状态被定义为全局可达 (globally accessible) 。如果一个状态哪怕在一种动力学变化中是不可能的或致命的，它就会被排除在这个集合之外。

2. 优化目标

目标是在最大化标准环境奖励的同时，保持智能体的分布 \(d_T^{\pi}\) 与专家的可达分布 \(d_{T_0}^{*,+}\) 之间的差异低于阈值 \(\varepsilon\)。

数学上，受约束的优化问题如下所示:

优化目标函数。

这里:

第一行是标准的 RL: 最大化期望累积奖励。
第二行是约束条件: 智能体的分布 \(d_T^{\pi}\) 与专家的可达分布 \(d_{T_0}^{*,+}\) 之间的 \(\mathcal{F}\)-距离 (一种差异度量) 必须很小。

3. 理解 \(\mathcal{F}\)-距离

术语 \(d_{\mathcal{F},\phi}\) 代表 \(\mathcal{F}\)-距离。这是一种衡量两个概率分布之间距离的广义方法。其定义为:

F-距离的定义。

通过为 \(\phi\) 选择不同的函数和为 \(\mathcal{F}\) 选择不同的类，该距离可以表示不同的度量标准，例如 Jensen-Shannon (JS) 散度或神经网络距离。这种灵活性使得作者能够推导出强有力的理论界限。

4. 理论保证

该论文的主要贡献之一是证明了该方法提供了一个“性能下界”。简单来说，他们在数学上证明了，如果遵循这一约束，即使在动力学发生偏移时，智能体的性能也不会低于特定水平。

关于性能下界的定理。

上面的不等式表明，性能差距受到视界 \(1/(1-\gamma)\) 的线性限制。这是对以前方法的重大改进，以前的方法通常具有二次依赖关系 (这意味着随着回合变长，误差会以更快的速度累积) 。

ASOR: 一种实用的算法

理论很好，但我们该如何实施呢？作者将受约束的优化问题转化为一种称为 ASOR 的实用算法。

他们使用生成对抗网络 (GAN) 方法，将 \(\mathcal{F}\)-距离约束转化为奖励增强问题。

判别器

该方法训练一个判别器网络 \(\omega^*(s)\) 来区分:

真实样本: 来自专家可达分布的状态。
生成样本: 当前策略访问的状态。

挑战在于如何在不知道环境动力学基本事实的情况下，从“专家可达分布”中获取样本。作者巧妙地应用贝叶斯规则来估计分布的比率:

分布比率的贝叶斯规则推导。

他们使用代理指标来估计状态的可达性。如果一个状态满足以下条件，它很可能是“全局可达”且“最优”的:

它具有较高的价值估计 \(V(s)\)。
它在不同动力学中具有较高的“访问频率”。

在实践中，他们使用预测误差 (来自模型集合或随机网络蒸馏 - RND) 作为访问量的代理。如果一个状态是熟悉的 (预测误差低) 且有价值的，它就会进入判别器的“正样本”数据集。

增强奖励

一旦判别器 \(\omega^*\) 训练完成，原始的受约束问题就可以使用拉格朗日乘数 \(\lambda\) 转化为无约束问题。结果出奇地简单: 我们只需在环境奖励上增加一个额外的奖励。

拉格朗日增强奖励函数。

新的奖励函数变为:

\[r_{new} = r(s, a, s') + \lambda \log \omega^*(s)\]

如果智能体访问了一个判别器认为是“全局可达专家状态”的状态，\(\omega^*(s)\) 会很高，智能体就会获得奖励。这鼓励智能体停留在“安全区” (如熔岩示例中的黄色星星) 内，同时仍去追求主要目标。

实验与结果

作者在各种环境中测试了 ASOR，从简单的网格世界到复杂的自动驾驶模拟器。

离线 RL 基准测试 (MuJoCo)

在这些实验中，智能体必须从静态数据集中学习，这些数据集是从具有不同物理属性 (例如不同的摩擦力或重力) 的环境中收集的。

表 1. MuJoCo 任务上的离线实验结果。

关键结论: 请看 MAPLE + ASOR 一列。它始终获得最高分 (加粗显示) 。

IfO 方法 (BCO, SOIL) 失败了，因为它们不使用奖励。
标准离线 RL (CQL, MOPO) 表现挣扎，因为它无法处理数据集和测试环境之间的动力学偏移。
ASOR 显著提升了基础算法 (MAPLE) 的性能，证明它有效地过滤掉了误导性数据。

在线连续控制 (MuJoCo & MetaDrive)

在这里，环境在训练期间动态变化 (例如，风力变化，机器人关节变硬) 。

图 2. MuJoCo 和 MetaDrive 任务上的在线实验结果。

在上面的图表中, 红线 (ESCP + ASOR) 明显占据主导地位。

在 Walker2d 和 Ant 中，性能差距巨大。
在模拟具有不同交通状况的自动驾驶 MetaDrive 中，ASOR 学会安全驾驶的速度比基线算法 (如 SRPO 和 CaDM) 快得多。这证实了一个假设: 过滤掉危险的、不可达的状态 (如在拥堵交通中开快车) 对于生存至关重要。

复杂评估: 类糖豆人 (Fall Guys-like) 游戏

为了挑战极限，作者构建了一个大规模的“类糖豆人”风格游戏。该环境具有蹦床、消失的地板和旋转锤子——这些都是高度随机的元素，动力学不断发生偏移。

类糖豆人游戏中的动力学偏移演示。

上图展示了动力学偏移。例如，蹦床 (图 4) 可能会根据地图配置将智能体发射到不同的高度。

结果:

表 3. 类糖豆人游戏环境中的实验结果。

ASOR 实现了更高的成功率和更低的被困率 。有趣的是，ASOR 的“不必要跳跃率”较低。这表明智能体学到了跳跃有时是有风险的 (在某些地图变体中是不可达的) ，并学会了更加保守和高效。

结论

ASOR 框架的关键见解在于: 在变化的环境中盲目模仿是危险的 。当物理定律或交通规则发生变化时，曾经的最优举动可能会变成致命错误。

通过正式定义全局可达状态并推导出一个数学框架来将模仿限制在这些安全区域内，作者为强化学习提供了一个稳健的“附加”模块。

这为什么重要?

安全性: 对于现实世界的机器人和自动驾驶汽车来说，知道哪些状态是普遍安全的，哪些是有条件安全的，这是生死攸关的问题。
效率: 我们可以重用旧机器人模型或不同环境的数据，而不会用不可能的动作迷惑新智能体。
简洁性: 最终的实现是一个简单的奖励增强，可以附加到现有的算法 (如 PPO 或 CQL) 上。

ASOR 提醒我们，要在所有行业 (或动力学环境) 中成为大师，你不应该只是复制专家所做的事情——你应该复制专家所做的、且你确实能够复现的事情。

引言#

问题所在: 动力学偏移与不可达状态#

“仅状态 (State-Only) ”模仿的失败#

方法: 聚焦于可达状态#

1. 定义全局可达状态#

2. 优化目标#

3. 理解 \(\mathcal{F}\)-距离#

4. 理论保证#

ASOR: 一种实用的算法#

判别器#

增强奖励#

实验与结果#

离线 RL 基准测试 (MuJoCo)#

在线连续控制 (MuJoCo & MetaDrive)#

复杂评估: 类糖豆人 (Fall Guys-like) 游戏#

结论#

引言