引言

想象一下,你试图仅仅通过观看职业自行车手的视频来学习骑自行车。你从未亲自踩过踏板。如果你突然跳上一辆自行车,你可能会以为自己能像视频里那样表演独轮特技,但在现实中,你很可能会摔倒。

这就是 离线强化学习 (Offline Reinforcement Learning, Offline RL) 面临的核心挑战。我们要训练智能体仅使用预先收集的静态经验数据集来做出最优决策,而不让它们在训练期间与危险的现实世界进行交互。

问题在于神经网络是“乐观主义者”。当离线 RL 智能体考虑一个它在数据集中未见过的行为 (即分布外或 OOD 行为) 时,它经常会产生幻觉,认为该行为会带来巨大的回报。这种现象被称为 外推误差 (extrapolation error) 。 智能体的“Q 函数” (用于预测未来回报) 高估了未知行为的价值,导致智能体在部署时尝试危险或荒谬的操作。

在一篇题为 “Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data” 的新研究论文中,研究人员提出了一种非常有效的解决方案,称为 PARS 。 通过结合两种直观但强大的机制——带层归一化的奖励缩放 (RS-LN) 和不可行行为惩罚 (PA)——他们在不需要复杂新架构的情况下取得了最先进的结果。

在这篇文章中,我们将拆解外推误差,解释为什么标准神经网络在边界处会失效,并深入探讨 PARS 如何利用几何和信号处理的巧妙结合来解决这个问题。

问题: 线性外推的危险

要理解为什么离线 RL 很难,我们必须看看深度学习模型本质上是如何“猜测”未知领域发生的事情的。

在标准强化学习中,我们使用 Q 函数 \(Q(s, a)\) 来估计在状态 \(s\) 下采取行动 \(a\) 的预期回报。我们要找到使该值最大化的行动。

问题源于神经网络本身的架构。大多数现代网络使用 ReLU (修正线性单元) 激活函数。虽然有效,但 ReLU 网络有一个特殊的怪癖: 在其训练数据的范围之外,它们倾向于进行线性外推。如果 Q 值在数据集的边缘呈上升趋势,网络会假设它们将永远上升。

离线数据的构成以及真实 Q 值与学习到的 Q 函数之间的比较

如上图 2 所示,我们可以将行为分为三类:

  1. 分布内 (ID): 数据集中存在的行为 (绿色) 。
  2. OOD-in: 智能体未尝试过,但位于数据点之间的行为 (在数据的“凸包”内) (黄色) 。
  3. OOD-out: 完全超出有效行为范围的行为 (粉色) 。

红色虚线代表学习到的 Q 函数。注意在“OOD-out”区域,学习到的曲线是如何向上飙升的。这就是线性外推。智能体看到这条上升曲线会想: “如果我采取这个极端的行动,我将获得无限的回报!”实际上,真值 (蓝色虚线) 会下降,因为这些行为很可能会导致失败。这种差距就是外推误差。

为了解决这个问题,我们需要网络学习一种“山丘”形状: 数据好的地方值高,其他地方则向下倾斜。

PARS 解决方案

研究人员推出了 PARS (不可行行为惩罚与奖励缩放) 。它从两个角度解决外推问题:

  1. 软引导 (RS-LN): 改变网络感知“相似性”的方式,使其不再将高回报泛化到未知区域。
  2. 硬约束 (PA): 明确惩罚网络在不可能区域预测高值。

让我们逐一分解。

第一部分: 奖励缩放与层归一化 (RS-LN)

这是论文中最反直觉但也最迷人的部分。通常,在深度学习中,我们会缩小输入和输出的比例以保持训练稳定。PARS 对奖励做了相反的操作: 它大幅度地放大奖励。

分辨率类比

为什么放大奖励会有帮助?作者提供了一个涉及函数逼近的精彩类比。

想象一下,你试图使用阶梯函数 (直方图) 来逼近函数 \(y=x\)。如果你让函数更陡峭,比如 \(y=5x\),但保持输入范围不变,你的逼近误差会增加——除非你提高分辨率 (增加分箱的数量) 。

逼近 y = x 和 y = 5x 时的误差

如图 4 所示,更陡峭的斜率 (高奖励缩放) 需要更精细的分辨率才能准确逼近。

在神经网络的语境中,“更高的分辨率”意味着网络必须学习更多的高频特征。实际上,它必须使用更多的神经元来精确拟合数据。如果网络被迫为分布内 (ID) 数据学习非常具体、尖锐的峰值,它就不太可能懒惰地将这些高值涂抹到 OOD 区域。

层归一化 (LN) 的作用

然而,仅仅放大奖励会导致不稳定。这就是 层归一化 (LN) 发挥作用的地方。LN 将网络的内部特征向量约束在一个归一化的球体上。

高奖励缩放 (\(c_{reward}\)) + 层归一化 的组合产生了一种独特的效果:

  1. LN 保持“输入体积”有界。
  2. 高奖励缩放要求在该界限内具有高表达能力。
  3. 网络被迫将 OOD 区域视为与 ID 区域“不相似”,以保持拟合高回报所需的陡峭斜率。

这降低了有效数据点与异常值之间的 神经正切核 (NTK) 相似性。简单来说: 更新网络以预测有效行为的高回报,不再会意外地拉高远处无效行为的 Q 值。

使用 ReLU MLP 在玩具数据集上进行训练的结果,包含普通回归

视觉证据在图 5 中。请看“LN (Wider Range)”一列。

  • \(c_{reward}=1\): 网络学习到一个平缓的碗状。相对于中心,OOD 区域 (粉色) 仍然有些高。
  • \(c_{reward}=100\): 网络学习到一个尖锐、独特的形状。OOD 区域在零附近被压平,显著低于 ID 峰值。

通过增加奖励缩放,研究人员有效地迫使网络停止盲目泛化。这种“软引导”自然地压低了数据分布之外的 Q 值。

休眠神经元现象

论文中提到的一个有趣的副作用是“休眠神经元”的减少。在标准 RL 中,ReLU 网络中的许多神经元最终会完全停止激活 (死亡) 。使用 RS-LN 后,活跃神经元的百分比显着增加。网络利用其全部容量来拟合高振幅的奖励景观,从而实现更好的特征区分。

第二部分: 惩罚不可行行为 (PA)

RS-LN 防止 Q 值飙升至无穷大,但通常使它们保持平坦 (接近零) 。为了确保安全,我们希望 Q 值随着我们远离安全行为而主动下降。我们希望智能体知道,进入未知领域绝对比停留在已知领域更糟糕。

这就是第二个组件 惩罚不可行行为 (PA) 发挥作用的地方。

这个想法很简单: 选取绝对不可能 (不可行) 的点,并训练网络为它们输出一个低值 (\(Q_{min}\))。

定义不可行区域

我们不能简单地惩罚数据集之外的所有内容,因为我们要避免意外惩罚那些稍微偏离数据的良好行为 (OOD-in)。相反,PARS 定义了一个远离可行边界的 不可行行为区域 (\(\mathcal{A}_I\))

n = 1 时的 AF 和 AI

如图 8 所示,在可行行为区域 (\(\mathcal{A}_F\)) 和不可行区域 (\(\mathcal{A}_I\)) 之间有一个 保护间隔 (Guard Interval)

  • \(\mathcal{A}_F\): 行为的有效范围 (例如,电机扭矩在 -1 到 1 之间) 。
  • 保护间隔: 一个缓冲带,确保我们不干扰有效空间边缘的梯度。
  • \(\mathcal{A}_I\): 远处的区域 (例如,电机扭矩 > 100) ,我们在那里采样点进行惩罚。

PA 损失函数

算法向训练目标添加了一个特定的损失项:

PA 损失方程

这个方程的意思是: “对于从不可行区域采样的行为 \(a\),最小化预测 Q 值与 \(Q_{min}\) 之间的差异。”

通过将远处的点固定为最小值,并在中心保持高值 (归功于数据) ,神经网络的性质会在两者之间创建一条平滑的下降斜坡。这种“滑雪坡”形状确保如果智能体试图最大化 Q 值,梯度会自然地将其推回安全的、有数据支持的区域。

完整算法: PARS

结合这两个概念——RS-LN 的高分辨率特征学习和 PA 的边界强制——我们就得到了 PARS 算法。

总损失函数如下所示:

总损失方程

它建立在极简主义的 TD3+BC 框架之上。TD3 是一种标准的演员-评论家 (Actor-Critic) 算法,而 “+BC” 添加了一个行为克隆项以保持策略接近数据。PARS 增强了 评论家 (Critic) (即 Q 函数) ,以确保价值景观形状良好,这使得 演员 (Actor) (即策略) 能够找到更好的行为,而不会掉入外推误差的“悬崖”。

实现非常简单:

  1. 缩放奖励: 将传入的奖励乘以一个因子 (例如 10 或 100) 。
  2. 添加层归一化: 对 Q 网络层应用 LN。
  3. 采样不可行行为: 随机选取远超有效界限的行为。
  4. 应用惩罚: 将 PA 损失添加到标准贝尔曼更新中。

实验与结果

这种几何操作在复杂任务上真的有效吗?研究人员在 D4RL 基准 上评估了 PARS,其中包括控制各种机器人 (Ant, HalfCheetah, Walker) 和操纵物体 (Pen, Hammer, Door) 的任务。

离线性能

结果令人印象深刻。PARS 始终匹配或超越现有的最先进技术 (SOTA) 算法。

PARS 与之前 SOTA 的比较

图 1 展示了一个雷达图,比较了 PARS (橙色) 与之前的 SOTA 方法 (灰色) 。注意覆盖范围:

  • MuJoCo 运动控制: PARS 极具竞争力。
  • Adroit (灵巧操作): PARS 取得了非常高的分数,特别是在“克隆 (Cloned)”数据集上。
  • AntMaze Ultra: 这是最突出的结果。AntMaze 是一个臭名昭著的“稀疏奖励”任务,机器人蚂蚁必须在一个大迷宫中导航。“Ultra”版本非常巨大。大多数算法得分接近 0。PARS 在 play 和 diverse 数据集上分别取得了 66.451.4 的分数——这比以前的方法有了巨大的飞跃。

为什么是 AntMaze Ultra?

在 AntMaze Ultra 上的成功验证了 PARS 的核心假设。在具有长视野的稀疏奖励设置中,价值信号很弱。标准网络很容易将价值“泄露”到无效行为中,从而混淆智能体。PARS 的高奖励缩放迫使网络紧紧抓住那些稀疏的信号,而不可行惩罚则为智能体创建了一条清晰的走廊。

组件分析: 两者都需要吗?

作者进行了消融实验,以验证 RS-LN 和 PA 是否都是必要的。

不同 Creward 以及应用 LN 和 PA 下的 PARS 离线性能

图 9 揭示了协同效应:

  • 无 (None - 黄色): 随着奖励缩放 (\(c_{reward}\)) 增加,性能崩溃。网络变得不稳定。
  • 仅 LN (LN only - 蓝色): 随着奖励缩放增加,性能显著提高 (验证了 RS-LN 理论) 。
  • LN & PA (橙色): 添加惩罚产生了最佳性能,即使在较低的奖励缩放也能高起点,并保持稳健性。

离线到在线微调

RL 的圣杯之一是离线训练一个智能体,然后将其部署到在线环境中进行微调并变得更好。许多离线算法过于保守;它们将智能体紧紧地束缚在数据上,以至于它无法在线学习任何新东西。

PARS 在这方面表现出色。因为它塑造了价值景观 (下降斜坡) 而不仅仅是掩盖行为,所以它为探索提供了一个良好的起点。

在线微调的性能图表

在图 13 中 (寻找代表 PARS 的红线) ,我们看到了在线微调的性能。在像 AntMaze-Ultra (底行) 或 Walker2d 这样的困难任务中,PARS 适应迅速,通常比 CQL 或 IQL 等竞争对手上升得更快、更高。

结论

论文“Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data”为离线 RL 提供了一个令人耳目一新的视角。作者没有发明复杂的新损失函数或生成模型,而是着眼于 ReLU 网络的基本属性。

他们发现 线性外推 是敌人。他们的解决方案 PARS 用两种不同的武器对抗这个敌人:

  1. 奖励缩放 + 层归一化: 迫使网络提高其分辨率,防止有效的高值渗透到无效区域。
  2. 不可行行为惩罚: 将远处的区域锚定到低值,在有效数据周围创建一个安全的“吸引域”。

对于学生和从业者来说,PARS 表明,理解神经网络的归纳偏置 (比如它如何外推) 与 RL 算法本身一样重要。通过简单地缩放奖励并添加边界惩罚,我们可以将一个产生幻觉的智能体变成一个稳健的、最先进的决策者。