引言

在监督学习领域——涵盖大语言模型 (LLMs) 和计算机视觉——我们已经习惯了一个简单的真理: 规模制胜。 如果你想要一个更智能的模型,你就把它做大。增加更多层数,拓宽隐藏维度,并投喂更多数据。这种“扩展定律”推动了过去十年的 AI 革命。

然而,如果你试图将同样的逻辑应用于深度强化学习 (DRL) ,你会碰壁。

在 DRL 中,增加神经网络的规模往往会导致性能变差 。 更大的智能体非但没有变得更强,反而往往变得不稳定,遗忘所学内容,甚至根本无法学习。这种现象被称为“扩展障碍 (scaling barrier) ”,也是我们尚未在机器人技术或控制系统中看到“GPT 时刻”的主要原因之一。

为什么会发生这种情况?问题在于“优化病态 (optimization pathologies) ”——即困扰强化学习的根本性问题,如可塑性丧失和梯度干扰。

最近的一篇研究论文 “Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning” 提出了一个反直觉但强有力的解决方案。研究人员发现,通过在训练开始前移除网络中大量的连接,我们可以训练出实际上性能更好的超大模型。这种被称为静态网络稀疏性 (static network sparsity) 的概念,可能正是解锁下一代 DRL 智能体的关键。

在这篇文章中,我们将深入探讨为什么 DRL 难以扩展,简单的随机剪枝如何解决这个问题,以及为什么“稀疏的大脑”往往更聪明的迷人机制。


背景: 为何大型 RL 模型会失败

要理解解决方案,我们必须先理解问题所在。在监督学习中,数据分布通常是固定的 (平稳的) 。猫的照片永远是猫的照片。然而,在强化学习中,数据分布是非平稳的 (non-stationary)

随着智能体的学习和策略改变,它收集的数据也会改变。“基本事实 (ground truth) ”是一个移动的目标。这种不稳定性导致了几种优化病态,且随着神经网络变大,这些病态会显著恶化:

  1. 可塑性丧失 (Plasticity Loss) : 网络失去了从新经验中学习的能力。在初始学习阶段后,权重变得“僵化”,智能体停滞不前,无法适应新策略。
  2. 休眠神经元 (Dormant Neurons) : 网络中很大一部分神经元最终对所有输入都输出为零。它们本质上“死掉了”,浪费了计算资源并降低了模型的有效容量。
  3. 容量坍缩 (Capacity Collapse) : 即使模型很大,它学到的特征多样性 (其“秩”) 却在减少。它变成了一个干着小网络活儿的大网络。

现有的解决方案及其局限性

社区已经尝试修补这些漏洞。像周期性重置 (Periodic Resets) (每隔几百万步重置网络权重) 这样的技术有助于恢复可塑性,但这种手段激烈且具有破坏性。架构上的改进,如 SimBa (使用残差连接和层归一化) ,已将极限推至约 1000-2000 万参数。

但是,如果你想做得更大呢?

研究人员采用了最先进的 SimBa 架构并试图将其扩展。如下图所示,结果令人沮丧。

稀疏网络与密集网络在四个最难 DMC 任务上的模型扩展趋势。

在上图中,请看虚线 (密集网络,Dense Networks) 。当模型规模超过一定点 (约 17M 参数) 时,性能 (回合回报,Episode Return) 就会崩溃。这就是扩展障碍的实际表现。

现在,请看实线 (稀疏网络,Sparse Networks) 。随着规模变大,这些网络的性能持续提升。这是该论文的核心贡献: 稀疏性将扩展曲线从负转正。


核心方法: 静态稀疏训练

论文提出的解决方案优雅而简单。它不需要复杂的算法,不需要训练期间的动态拓扑调整,也不需要昂贵的计算。

该方法是带单次随机剪枝的静态稀疏训练 (Static Sparse Training, SST)

工作原理

  1. 初始化: 创建一个大型神经网络 (例如,一个巨大的 MLP 或 ResNet) 。
  2. 剪枝: 在进行任何训练步骤之前,随机移除预定义比例的权重 (例如 80% 或 90%) 。这些权重被置为零并冻结。
  3. 训练: 使用标准 RL 算法 (如 SAC 或 DDPG) 训练剩余的权重。网络的拓扑结构在训练期间从未改变。

稀疏分布

你可能会问: 我们是均匀地移除权重吗?作者使用了 Erdős-Rényi (ER) 核公式。简而言之,这种方法根据层的大小调整稀疏度。较小的层 (信息瓶颈) 剪枝较少,而较大的层剪枝较多。这确保了信息流不会在网络的狭窄点被切断。

假设

研究人员假设,标准网络中的密集连接在 RL 中实际上是有害的。它们充当了噪声和干扰的“高速公路”,导致整个网络耦合过紧并丧失可塑性。通过随机切断这些连接,我们迫使网络发展出独特、鲁棒且不易受干扰的子网络。


实验: 打破障碍

为了验证这一假设,作者在 DeepMind Control (DMC) 套件上测试了他们的方法,重点关注像 “Humanoid Run” (人形机器人奔跑) 和 “Dog Trot” (机器狗小跑) 这样的最难任务。他们使用了两种标准算法: 软演员-评论家 (SAC)深度确定性策略梯度 (DDPG)

1. 扩展宽度和深度

他们以基准 SimBa 网络为基础,在两个维度上进行扩展: 宽度 (每层更多神经元) 和深度 (更多层) 。

比较使用 SAC 和 DDPG 在 DMC Hard 任务上训练的密集与稀疏 SimBa 架构的网络扩展实验。

图 2 (上图) 的结果讲述了一个清晰的故事:

  • 密集网络 (灰线) : 随着宽度或深度的增加,性能很早就达到顶峰,然后下降。
  • 稀疏网络 (红星) : 随着模型扩展,性能保持稳定或有所提升。

至关重要的是,这不仅仅关于参数效率。即使稀疏网络拥有与密集网络相同数量的活跃参数 (意味着稀疏网络物理上大得多,但大部分是空的) ,它的表现也更好。这表明拓扑结构——稀疏结构本身——提供了密集连接无法比拟的优势。

2. 寻找最佳平衡点

网络应该多稀疏?作者对从 0.1 (剪枝 10%) 到 0.9 (剪枝 90%) 的稀疏率进行了扫描。

在四个最难 DMC 任务上使用 SAC 和 DDPG 通过网络稀疏性进行扩展。

图 3 (上图) 揭示了关于模型规模的一个重要见解:

  • 默认网络 (蓝线) : 对于较小的、标准尺寸的网络,高稀疏性会损害性能。你需要那些参数。
  • 大型网络 (橙线) : 对于巨大的网络 (约 100M 参数) ,性能随着稀疏性的增加而提升

这证实了“彩票假设 (Lottery Ticket Hypothesis) ”的直觉: 在一个巨大的、随机初始化的网络内部,存在一个高效的稀疏子网络。通过剪枝,我们隔离了该子网络,并防止其余的噪声权重破坏它。


诊断: 为什么稀疏性有效?

这篇论文不仅展示了它有效,还进行了深入诊断来解释为什么。他们确定了稀疏网络优于密集网络的四个关键机制。

1. 防止表征坍缩 (Srank)

大型密集网络的一个常见问题是不同数据点的表征变得过于相似。网络实际上失去了区分状态细微差别的能力。这是通过有效秩 (Srank) 来衡量的。

通过 Srank 指标在 Humanoid Run 任务上使用 SAC 分析网络表征容量。

图 4 (上图) 中,看右侧的 “Srank Progression” (Srank 进展) 。

  • 大型密集网络 (橙色) : 开始时秩很高,但很快坍缩 (线条下降) 。
  • 大型稀疏网络 (红色) : 在整个训练过程中保持高且稳定的秩。
  • 含义: 稀疏网络保留了对环境丰富、多样的理解,而密集网络则过度简化了其理解。

2. 保持可塑性 (“休眠神经元”问题)

可塑性是 RL 智能体的生命线。如果失去可塑性,它就会停止学习。可塑性丧失的一个强有力指标是休眠比例 (Dormant Ratio) ——即停止激活的神经元百分比。

可塑性测量和重置诊断比较。

图 5 (上图左侧) 令人震惊。

  • 密集网络 (蓝/灰色) : 休眠比例 (上排) 飙升,梯度范数 (下排) 坍缩至接近零。网络实际上正在死亡。
  • 稀疏网络 (橙色) : 休眠比例保持在低位,梯度保持健康。

上图右侧 (图 6) 展示了一个关于重置 (Resets) 的实验。通常,重置密集网络 (深蓝色) 会提升性能,因为它人为地恢复了可塑性。然而,稀疏网络 (红色) 在没有重置的情况下表现最好。它自然地保持了可塑性,使得外部干预变得不必要。

3. 控制参数增长

在不稳定的 RL 训练中,网络的权重可能会极度膨胀 (参数范数 Parameter Norm) ,导致算术问题和不稳定性。

演员和评论家网络的参数范数演变。

如上所示, 大型密集网络 (蓝色) 遭受参数范数爆炸的困扰。 稀疏网络 (橙色) 自然地对权重进行正则化,使其幅度保持在与更小网络相当的水平。这起到了一种隐式正则化的作用。

4. 缓解梯度干扰

这可能是稀疏性优势最直观的证明。 梯度干扰发生在对状态 A 的网络更新负面影响了对状态 B 的预测时。在密集网络中,万物互联,因此“串扰”不可避免。

研究人员可视化了梯度协方差矩阵 :

大型稀疏网络 (评论家) : 大型稀疏网络的梯度协方差矩阵。

大型密集网络 (评论家) : 大型密集网络的梯度协方差矩阵。

对比“最终 (Final) ”热图 (下排) 。

  • 密集网络是一片深红和深蓝,表明存在强烈的、复杂的关联和全面的干扰。
  • 稀疏网络保留了结构化、更清晰的模式。梯度更加正交,这意味着网络可以在不破坏对状态空间某一部分的认知的情况下,学习另一部分。

泛化: 视觉和流式 RL

为了证明这不仅仅是状态控制的一个特例,作者将评估扩展到了另外两个具有挑战性的领域。

视觉 RL (Visual RL)

在视觉 RL 中,智能体必须直接从原始像素中学习。这通常需要巨大的卷积神经网络 (CNNs) 。

在两个代表性视觉 RL 任务上通过网络稀疏性和评论家宽度进行扩展。

图 10中,我们看到随着评论家网络变宽 (从 512 到 4096) ,稀疏设置 (底行) 获得的得分显著高于更窄或更密集的对应设置。

流式 RL (Streaming RL)

流式 RL 是一种设置,其中智能体从连续的数据流中学习,没有大型经验回放缓冲区,这使得可塑性变得更加关键 (因为你无法重放旧数据来提醒网络它学到了什么) 。

流式 RL 网络扩展性能。

图 12 证实了这一趋势: 稀疏网络 (对应学习曲线中的红线) 始终优于密集网络,特别是在复杂运动所需的宽网络设置中。


结论与启示

论文 “Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning” 为 RL 中的扩展危机提供了一个令人信服的答案。研究结果表明,标准神经网络的密集性在强化学习这个混乱、非平稳的世界中实际上是一种负债。

主要收获:

  1. 稀疏性是特性,而非缺陷: 它不仅仅是为了节省内存;它是扩展的结构性必要条件。
  2. 不再需要重置: 适当的稀疏性自然地维持了可塑性,消除了像周期性重置这样复杂的干预技术的需求。
  3. 简单制胜: 所使用的方法——单次随机剪枝——实现起来极其简单。它不需要新的优化器或复杂的代码,只需在初始化时应用一个掩码。

这项工作预示着这样一个未来: DRL 智能体终于可以参与推动了 AI 其他领域发展的“规模之战”。通过简单地切断导致干扰和坍缩的连接,我们或许能够构建出比今天大几个数量级——也聪明几个数量级——的智能体。

对于 RL 领域的学生和研究人员来说,信息很明确: 在你尝试发明复杂的架构来修复训练不稳定性之前,试着简单地剪枝你的网络。你可能会发现,少真的即是多。