引言

强化学习 (Reinforcement Learning, RL) 已经取得了令人瞩目的成就，从精通复杂的战略游戏到控制机械臂。然而，有一个瓶颈始终阻碍着其进步: 高效探索。在奖励“稀疏”的环境中——意味着智能体 (agent) 只能在完成一项复杂任务后极少地获得反馈——智能体可能会花费漫长的时间进行随机尝试，却永远无法偶然发现获得奖励所需的特定动作序列。

想象一下，你被扔进了一个巨大的黑暗迷宫，里面藏着一个宝箱。如果你随机游荡，你最终可能会找到它，但这可能需要一辈子。然而，如果你意识到穿过一扇门 (一个枢纽) 可以开启迷宫的一个全新区域，你会优先寻找这些门。这种结构性知识至关重要。

这正是研究论文 “Door(s): Junction State Estimation for Efficient Exploration in Reinforcement Learning” 的核心前提。作者提出了一种名为 Door(s) 的新颖启发式方法。这种方法不再盲目探索或依赖复杂的控制模型，而是寻找“枢纽状态”——即隐喻性 (有时是字面意义上) 的“门”，通过它们可以访问未来大量的状态。

(a) 网格世界中 Door(s) 值的热力图与 (b-e) 钟摆环境中 Empowerment 的对比。Door(s) 突出了狭窄通道，并以更少的数据取得了相当的结果。

如上图 Figure 1 所示，该启发式方法 (a) 专门点亮了网格世界中房间之间的狭窄通道。通过优先考虑这些瓶颈，智能体比试图以相同概率访问每个状态时能更有效地穿越环境。

在这篇文章中，我们将剖析这种方法是如何工作的，如何在没有人为标注的情况下识别这些“门”背后的数学原理，以及它在复杂的连续环境中如何超越 Empowerment (赋能) 等现有方法。

背景: 对内在动机的探索

为了解决稀疏奖励问题，研究人员通常求助于 内在动机 (Intrinsic Motivation, IM) 。这给智能体提供了一种内部奖励信号——一种“好奇心”或“精通的欲望”——以便在环境沉默时引导它。

IM 主要有几种类型:

基于新颖性 (Novelty-based): 智能体因访问未见过的状态而获得奖励。
信息论 (Information-theoretic): 智能体最大化状态和动作之间的互信息。

第二类中的一个主要概念是 Empowerment (赋能/掌控力) 。 Empowerment 衡量智能体对其未来的“控制”程度。如果智能体可以从某个状态到达许多不同的未来状态，并且可以通过特定的动作序列选择最终到达哪一个，那么该状态就是“被赋能”的。

虽然理论上很完善，但 Empowerment 有一个主要缺陷: 它需要对长动作序列 (\(a_t, a_{t+1}, \dots, a_{t+H}\)) 进行精确建模。由于误差的累积，预测 100 步动作序列的确切结果通常是非常困难的。因此，Empowerment 在长的时间视界 (Horizon) 下往往表现不佳。

这正是 Door(s) 的不同之处。作者认为，要判断当前状态是否有价值，我们不一定需要知道通过哪些动作才能到达未来状态。我们只需要知道当前状态充当了通往各种未来可能性的门户。

核心方法: 估计枢纽状态

Door(s) 启发式方法的目标是量化在时间视界 \(H\) 内，从当前状态 \(s\) 出发可到达状态的“分散度”。如果一个状态允许你到达高度多样化的未来位置，那么它很可能是一个枢纽或瓶颈。

为了将其形式化，作者构建了一个以 状态占用分布 (State Occupancy Distribution) 为核心的数学框架。

第 1 步: 环境模型

首先，我们需要定义在 \(t\) 步内从状态 \(s\) 转移到状态 \(s'\) 的概率。这是一个递归定义。

t 步转移概率的递归定义。

这里，\(\rho(s \xrightarrow{t} s')\) 是从 \(s\) 开始，\(t\) 步后落在 \(s'\) 的概率。它对所有中间状态 \(x\) 求和。至关重要的是，这个概率对动作进行了边缘化处理——它关注的是环境的自然动态和均匀的探索策略，而不是特定的习得策略。

第 2 步: 状态占用分布

我们很少只关心智能体在确切的第 \(t\) 步在哪里。我们关心的是智能体在直到视界 \(h\) 的时间窗口内花时间在哪里。作者定义了 状态占用分布 \(\Psi^{(h)}\)，它表示给定起始状态 \(s\) 和视界 \(h\)，在状态 \(s'\) 上花费的时间比例。

状态占用分布方程。

该方程将时间步 \(1\) 到 \(h\) 的转移概率进行了平均。

第 3 步: Door(s) 度量

现在我们来到了该启发式方法的核心。我们如何将这个分布转换为代表“门属性 (door-ness)”的单一数值？我们使用 熵 (Entropy) 。

在信息论中，熵衡量分布的不确定性或“离散程度”。集中在单一点上的分布具有低熵 (0)。均匀分布在所有可能点上的分布具有最大熵。

如果一个状态是一扇“门”，通过它应该允许智能体访问各种各样的状态。因此，从门开始的状态占用分布应该具有高熵。

状态 \(s\) 的 Door(s) 值计算为从 1 到 \(H\) 的多个视界上的状态占用分布的平均熵。

Door(s) 方程: 视界 H 上的平均状态占用熵。

在这个方程中:

\(H\) 是最大视界 (一个超参数) 。
\(\mathcal{H}^{(h)}\) 是分布 \(\Psi^{(h)}\) 的熵。

为什么要使用多个视界？

你可能会想，为什么要对所有视界 \(h=1 \dots H\) 取平均？为什么不只看最大视界 \(H\)？

环境的动态随时间变化。一个状态可能是局部瓶颈 (在短期内重要) 或全局门户 (在长期内重要) 。通过平均，该度量捕捉了两者。

查询策略的比较: (a) 多个视界，(b) 单一长视界，(c) 中心性关注。

如上图 Figure 5 所示，查询多个视界 (上排) 提供了更清晰的信号。它准确地识别了枢纽 (a)，检测到了死胡同 (b)，并优先考虑了中心状态 (c)。仅使用最终视界 (下排) 往往会冲淡信号，使得难以区分真正的枢纽和开放空间。

第 4 步: 在连续空间中的实现

上面的数学推导对于可以计算离散状态的网格世界非常完美。但在机器人技术中，状态是连续向量 (位置、速度、角度) 。我们无法对无限的状态求和，也不容易计算精确的熵。

为了解决这个问题，作者采用了 混合密度网络 (Mixture Density Networks, MDNs) 。

MDN 是一种神经网络，它不输出单一值，而是输出高斯分布混合模型的参数 (均值 \(\mu\)、方差 \(\Sigma\) 和权重 \(\alpha\)) 。这使得网络能够逼近复杂的多模态概率分布。

近似的状态占用分布 \(\hat{\Psi}\) 定义为:

使用高斯混合模型的 MDN 近似状态占用分布。

在这里，神经网络接收当前状态 \(s\) 和视界 \(h\) 作为输入，并预测智能体可能最终到达的位置。

通过最小化智能体收集的真实轨迹的负对数似然来训练网络:

MDN 的损失函数。

一旦 MDN 训练完成，我们就可以估计熵。虽然高斯混合模型的熵没有闭式解，但可以有效地进行近似。作者使用各个高斯分量熵的加权和:

混合模型的近似熵计算。

这个实现细节至关重要。它允许 Door(s) 启发式方法扩展到高维空间 (如 30 维的机械臂状态) ，而在这些空间中，计数方法是失效的。

将连续近似与离散版本进行比较证实了该方法的有效性:

Door(s) 的离散与连续 (MDN) 近似的比较。

在 Figure 7 中，我们可以看到 MDN 方法 (c) 捕捉到了与离散真实值 (a) 和计算昂贵的“查询所有视界”方法 (b) 相同的动态，但效率显著提高。

实验与结果

作者在各种环境中测试了 Door(s)，包括简单的 Pendulum (倒立摆) 、复杂的 PointMaze (点迷宫) 和机器人 Fetch 机械臂操作任务。

1. 可视化奖励地形图

最能说明问题的实验之一是比较 Door(s) 与 Empowerment 生成的“热力图”。

迷宫中 Door(s) 和 Empowerment 热力图的比较。

在 Figure 2 中，我们看到了一个迷宫环境。

Door(s) (左) : 清楚地突出了中心交叉口和高速度状态。它给死胡同 (紫色区域) 分配了极低的值。
Empowerment (右) : 虽然它识别出了一些结构，但不一致。它给一些角落分配了高值，且未能清晰地区分主要走廊。

这突出了 Door(s) 在长视界 (\(H=500\)) 下的鲁棒性，而 Empowerment 却很挣扎，因为在那个深度下动作序列建模变得不可靠。

2. 关于“投掷”的洞察

在 FetchPickAndPlace (抓取和放置) 任务中出现了一个有趣的结果。在这个环境中，机械臂必须抓起一个物体。

物体距离与启发式值之间的关系。

Figure 3 绘制了启发式值与物体距离的关系图。

Door(s) (蓝线) : 即使在很远的距离也显示出高值。
Empowerment (橙/绿) : 随着距离增加而下降。

为什么? Door(s) 启发式方法意识到，如果机器人投掷物体，物体可以访问大量的状态 (飞过空中、弹跳、滚动) 。这产生了一个高熵的占用分布。然而，Empowerment 是基于控制的。一旦物体离开抓手，机器人就失去了对它的控制。因此，Empowerment 认为投掷是“坏的” (低值) 。

但是，对于探索来说，投掷是非常棒的！它有助于智能体学习环境的物理特性以及物体的运动方式。这说明了 Door(s) 如何捕捉“潜在的影响力”而不是严格的控制。

3. 探索效率

最大化 Door(s) 指标真的能带来更好的探索吗？

状态访问的变异系数 (越低越好) 。

Figure 4(a) 显示了迷宫中状态访问的“变异系数”。较低的值意味着智能体更均匀地访问状态 (良好的探索) 。

Door(s) (蓝) : 在训练初期实现了最佳 (最低) 的变异，有效地探索了迷宫。
Empowerment (橙) : 表现与没有内在奖励的基线相似。

4. 下游学习 (迁移)

最终的测试是这种探索是否有助于智能体稍后学习特定任务。研究人员预训练了一个智能体，使其仅仅最大化 Door(s) 奖励 (纯探索) ，然后微调它以解决特定任务，如推动 (Pushing) 或滑动 (Sliding) 冰球。

样本效率和收敛步数表。

Table 1 揭示了结果。

DIAYN: 一种流行的技能发现方法。它在预训练期间收敛很快，但在下游任务上完全失败 (0 次成功) 。
Door(s): 在预训练期间快速收敛，并且至关重要的是，在下游的抓取放置、推动和滑动任务中提供了稳定、成功的结果。它所需的步数明显少于从头开始学习。

这表明，通过最大化“Door 属性”学到的行为——与物体互动、穿过瓶颈——是高度可复用的基础技能。

局限性与未来工作

虽然前景广阔，但该方法并非银弹。

随机性: 在具有随机噪声的环境中 (例如，显示随机雪花点的“噪声电视”) ，熵度量可能会被欺骗，误认为噪声是有意义的多样性。
不连续性: MDN 假设平滑的高斯转移。它可能难以处理瞬移或状态空间中突然、尖锐的边界。
计算成本: 虽然比 Empowerment 更高效，但通过 MDN 估计熵仍然需要大量的计算，并且当前的实现在启发式计算中假设了均匀的动作分布。

结论

Door(s) 为强化学习中的探索问题提供了一个全新的视角。通过将焦点从“控制” (Empowerment) 转移到“潜在可达性” (枢纽状态) ，作者提供了一种在计算上可行且在长视界上具有鲁棒性的启发式方法。

该方法有效地识别了环境的“钥匙”——即解锁其余状态空间的狭窄通道和交互点。对于关注内在动机的学生和研究人员来说，这篇论文表明，有时你不需要知道如何精确控制旅程的每一步；仅仅知道该穿过哪扇门，就足以开启充满可能性的世界。

引言#

背景: 对内在动机的探索#

核心方法: 估计枢纽状态#

第 1 步: 环境模型#

第 2 步: 状态占用分布#

第 3 步: Door(s) 度量#

为什么要使用多个视界？#

第 4 步: 在连续空间中的实现#

实验与结果#

1. 可视化奖励地形图#

2. 关于“投掷”的洞察#

3. 探索效率#

4. 下游学习 (迁移)#

局限性与未来工作#

结论#

引言