为什么样本量至关重要：通用效用强化学习中的隐形陷阱

在强化学习 (RL) 的世界中，我们通常将问题设定为最大化奖励总和。你采取一个行动，获得奖励，并试图随着时间的推移获得尽可能多的奖励。但是，如果你的目标不仅仅是积累分数呢？如果你希望智能体尽可能多样化地探索环境，或者模仿人类专家的行为分布呢？

这些复杂的目标属于通用效用马尔可夫决策过程 (General-Utility Markov Decision Processes, GUMDPs) 的范畴。与标准 RL 不同 (其目标是线性的) ，GUMDPs 允许目标函数依赖于智能体行为的统计数据 (或占用率) 。

多年来，这些过程背后的理论中一直存在一个微妙的假设: 我们可以基于无限次试验来评估智能体。一篇新的研究论文——The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes (无限视界通用效用马尔可夫决策过程中的试验次数至关重要) ，挑战了这一假设。研究人员证明，在这些复杂的设置中，你测试智能体的次数 (即试验次数 \(K\)) 会从根本上改变计算出的性能。

在这篇文章中，我们将拆解为什么会发生这种情况，其背后的数学原理，以及你何时需要为此担忧。

问题所在: 超越标准奖励

为了理解这篇论文的贡献，我们需要首先确立标准 RL 和 GUMDPs 之间的区别。

标准 MDP 与 GUMDP

在标准马尔可夫决策过程 (MDP) 中，目标很简单: 最大化奖励的期望总和。目标函数是线性的。由于线性的数学性质，策略的期望回报无论是通过一次试验计算，还是通过一百万次试验平均计算，结果都是一样的 (用数学术语来说，和的期望等于期望的和) 。

然而，许多现代 AI 问题更加微妙。考虑以下例子:

纯探索 (Pure Exploration): 你希望智能体平等地访问所有状态。这需要最大化状态访问分布的熵。
模仿学习 (Imitation Learning): 你希望智能体的行为分布与教师的分布相匹配 (最小化 KL 散度) 。

这些就是通用效用 MDPs (GUMDPs) 。在这里，目标函数 \(f\) 应用于状态-动作占用率 (state-action occupancy) \(d_\pi\) (即访问状态和动作的长期频率) 。

GUMDP 示例图: 展示了熵最大化、模仿学习和二次最小化。

图 1: GUMDP 示例。(a) 熵最大化要求多样化地访问状态。(b) 模仿学习试图匹配目标策略 \(\beta\)。(c) 二次最小化惩罚特定的分布形状。

无限与有限的陷阱

这就是麻烦的开始。理论工作通常假设我们在优化无限试验目标 , 记为 \(f_\infty\)。这假设我们知道策略的真实期望占用率，实际上相当于在无限的片段上进行平均。

\[ \operatorname* { m i n } _ { \pi } f _ { \infty } ( \pi ) = \operatorname* { m i n } _ { \pi } f ( d _ { \pi } ) = \operatorname* { m i n } _ { \pi } f \left( \mathbb { E } _ { \mathcal { T } _ { K } } \left[ \hat { d } _ { \mathcal { T } _ { K } } \right] \right) , \]

然而在实践中，我们只能运行有限次数的试验 (\(K\))。我们从 \(K\) 条轨迹中收集数据，计算经验占用率 \(\hat{d}\)，然后将其代入我们的目标函数。这就是有限试验目标 , \(f_K\)。

\[ \operatorname* { m i n } _ { \pi } f _ { K } ( \pi ) = \operatorname* { m i n } _ { \pi } \mathbb { E } _ { \mathcal { T } _ { K } } \left[ f ( \hat { d } _ { \mathcal { T } _ { K } } ) \right] , \]

核心问题: 最小化 \(f_K\) (我们在实践中所做的) 是否等同于最小化 \(f_\infty\) (我们在理论上想要的) ？

在标准 RL 中，答案是肯定的。但在 GUMDPs 中，正如这篇论文所证明的，答案通常是否定的 。

数学根源: 詹森不等式 (Jensen’s Inequality)

为什么会出现这种不匹配？归根结底在于目标函数 \(f\) 的凸性。

如果 \(f\) 是线性的 (标准 RL) ，函数的期望等于期望的函数。然而，大多数 GUMDP 目标 (如熵或 KL 散度) 都是凸函数 。

根据凸函数 \(f\) 的詹森不等式 :

\[ \begin{array} { r } { f _ { \infty } ( \pi ) = f ( d _ { \pi } ) = f \left( \mathbb { E } _ { \mathcal { T } _ { K } \sim \zeta _ { \pi } } \left[ \hat { d } _ { \mathcal { T } _ { K } } \right] \right) } \\ { \leq \mathbb { E } _ { \mathcal { T } _ { K } \sim \zeta _ { \pi } } \left[ f \left( \hat { d } _ { \mathcal { T } _ { K } } \right) \right] = f _ { K } ( \pi ) , } \end{array} \]

这个不等式意味着 \(f_\infty(\pi) \leq f_K(\pi)\)。有限试验下的估计成本实际上会是对真实无限试验成本的高估。这种偏差意味着一个在 \(K=10\) 次试验下看起来最优的策略，在 \(K=1000\) 次试验下可能并非最优。

场景 1: 折扣 GUMDP

作者首先分析了折扣设置 (Discounted Setting) , 即我们关注由折扣因子 \(\gamma\) 加权的访问频率。这在当前行动比远期行动更重要的任务中很常见。

在这种设置下，论文证明如果目标是非线性的，试验次数总是至关重要 。单条轨迹的经验分布是高度随机的；它在很大程度上取决于智能体的起始位置和转换的随机性。

作者推导出了有限目标和无限目标之间误差的下界。请注意误差是如何与 \(K\) (试验次数) 成反比的:

\[ \begin{array} { l } { { f _ { K } ( \pi ) - f _ { \infty } ( \pi ) \displaystyle \geq \frac { c } { 2 K } \displaystyle \sum _ { \stackrel { s \in S } { a \in \mathcal { A } } } \mathrm { V a r } _ { { { \sim } \zeta _ { \pi } } } \left[ \hat { d } _ { T } ( s , a ) \right] } } \\ { { { } } } \\ { { { } = \displaystyle \frac { c ( 1 - \gamma ) ^ { 2 } } { 2 K } \displaystyle \sum _ { \stackrel { s \in \mathcal { S } } { a \in \mathcal { A } } } \mathrm { V a r } _ { { { \sim } \zeta _ { \pi } } } \left[ J _ { r _ { s , a } } ^ { \gamma , \pi } \right] , } } \end{array} \]

这意味着:

误差由占用率的方差驱动。如果你的环境非常嘈杂，测量值与真实值之间的差距就会更大。
误差以 \(1/K\) 的速度减小。要将误差减半，你需要双倍的试验次数。
\(c\) 代表目标函数的“弯曲” (强凸) 程度。目标越复杂，误差就越大。

场景 2: 平均 GUMDP

第二种设置是平均设置 (Average Setting) , 即我们要观察智能体随时间趋于无穷大 (\(H \to \infty\)) 时的长期平均行为。在这里，结果更加微妙，并且取决于环境的结构。

单链 (Unichain) 与多链 (Multichain)

论文区分了两种类型的 MDP 结构:

单链 GUMDPs (Unichain GUMDPs): 整个环境是“连通的”。无论你从哪里开始或做什么，最终都可以到达状态空间中任何重要的部分。只有一个“常返类 (recurrent class)”。
多链 GUMDPs (Multichain GUMDPs): 环境有分隔的孤岛。根据你的起始状态或早期的选择，你可能会被困在一个区域 (常返类 A) ，而永远看不到另一个区域 (常返类 B) 。

结论

作者针对平均设置提出了一个鲜明的对比结论:

对于单链 GUMDPs: 试验次数不重要 。因为智能体在一个连通的世界中运行无限长的时间 (\(H \to \infty\))，单条轨迹最终会根据真实分布访问每个状态。经验分布收敛于真实分布，所以 \(f_K = f_\infty\)。
对于多链 GUMDPs: 试验次数很重要 。如果你只运行 \(K=1\) 次试验，智能体可能会被卡在“A 岛”。经验分布看起来就像“100% 在 A 岛”。但真实的期望可能是“50% 在 A 岛，50% 在 B 岛”。由于目标函数 \(f\) 是非线性的，函数结果的平均值并不等于平均结果的函数值。

下表总结了这些发现:

表格总结: 对于线性目标，无限和有限试验表述是等价的，但对于非线性目标，它们在折扣设置和多链平均设置中是不同的。

对于多链模型，作者证明了类似的误差下界，该误差取决于被吸收进不同常返类的概率的方差:

\[ \begin{array} { l } { { f _ { K } ( \pi ) - f _ { \infty } ( \pi ) \ge } } \\ { { \displaystyle \frac { c } { 2 K } \sum _ { l = 1 } ^ { L } V a r _ { B \sim B e r ( \alpha _ { l } ) } \left[ B \right] \sum _ { s \in \mathcal { R } _ { l } } \sum _ { a \in \mathcal { A } } \pi ( a | s ) ^ { 2 } \mu _ { l } ( s ) ^ { 2 } } , } \end{array} \]

这个方程本质上是在说: 如果起始状态决定了你的命运 (你最终落在哪个“岛”上的方差很高) ，那么你的单次试验评估将是错误的。

实证证据

作者使用图 1 所示的环境验证了他们的理论界限。

折扣设置结果

在下图中，我们可以看到目标函数的值 (y 轴) 随着轨迹长度 \(H\) 的增加而变化。黑色虚线是“真实”的无限试验值 (\(f_\infty\))。

图表显示了折扣 GUMDP 的实证研究。随着 K 的增加 (红线) ，该值逼近真实的 f_pi (黑色虚线) 。

请注意，对于低 \(K\) (蓝线) ，估计值与黑色虚线相去甚远。随着 \(K\) 增加到 10 (红线) ，差距缩小。这证实了在折扣设置中，你仅仅需要足够的试验次数来获得准确的评估。

平均设置结果 (多链)

平均设置的结果可能是最有趣的。下图显示了当折扣因子 \(\gamma \to 1\) (接近平均设置) 时发生的情况。

图表显示了平均 GUMDP 的实证研究。对于 M_f,3，即使 gamma 逼近 1，低 K 值时的差距依然存在。

看第三个面板 (\(\mathcal{M}_{f,3}\))。这是一个多链环境。即使当 \(\gamma\) 逼近 1.0 时，低 \(K\) 值的曲线也没有收敛到黑色虚线。这证实了对于多链环境，仅仅长时间运行智能体 (高 \(H\)) 是不够的；你还需要高 \(K\) (多次试验) 来平滑由不同起始条件引起的方差。

为什么这很重要

这项研究强调了复杂强化学习中的一个“隐性成本”。当我们从简单的奖励转向多样性或模仿等复杂目标时，我们就失去了线性的便利。

如果你是研究 GUMDPs 的学生或研究员，请注意:

评估协议: 你不能依赖单次运行 (rollout) 来评估你的策略，即使那次运行非常长。
环境结构: 了解你的 MDP。它是单链还是多链？如果是多链，你的评估策略需要考虑到状态空间的不同“孤岛”。
样本效率: \(1/K\) 的收敛速度意味着高精度评估在计算上可能非常昂贵。

试验次数不仅仅是一个需要调整的超参数；在通用效用 MDP 中，它是目标函数本身的一个基本组成部分。

问题所在: 超越标准奖励#

标准 MDP 与 GUMDP#

无限与有限的陷阱#

数学根源: 詹森不等式 (Jensen’s Inequality)#

场景 1: 折扣 GUMDP#

场景 2: 平均 GUMDP#

单链 (Unichain) 与 多链 (Multichain)#

结论#

实证证据#

折扣设置结果#

平均设置结果 (多链)#

为什么这很重要#