引言
在监督学习领域——涵盖大语言模型 (LLMs) 和计算机视觉——我们已经习惯了一个简单的真理: 规模制胜。 如果你想要一个更智能的模型,你就把它做大。增加更多层数,拓宽隐藏维度,并投喂更多数据。这种“扩展定律”推动了过去十年的 AI 革命。
然而,如果你试图将同样的逻辑应用于深度强化学习 (DRL) ,你会碰壁。
在 DRL 中,增加神经网络的规模往往会导致性能变差 。 更大的智能体非但没有变得更强,反而往往变得不稳定,遗忘所学内容,甚至根本无法学习。这种现象被称为“扩展障碍 (scaling barrier) ”,也是我们尚未在机器人技术或控制系统中看到“GPT 时刻”的主要原因之一。
为什么会发生这种情况?问题在于“优化病态 (optimization pathologies) ”——即困扰强化学习的根本性问题,如可塑性丧失和梯度干扰。
最近的一篇研究论文 “Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning” 提出了一个反直觉但强有力的解决方案。研究人员发现,通过在训练开始前移除网络中大量的连接,我们可以训练出实际上性能更好的超大模型。这种被称为静态网络稀疏性 (static network sparsity) 的概念,可能正是解锁下一代 DRL 智能体的关键。
在这篇文章中,我们将深入探讨为什么 DRL 难以扩展,简单的随机剪枝如何解决这个问题,以及为什么“稀疏的大脑”往往更聪明的迷人机制。
背景: 为何大型 RL 模型会失败
要理解解决方案,我们必须先理解问题所在。在监督学习中,数据分布通常是固定的 (平稳的) 。猫的照片永远是猫的照片。然而,在强化学习中,数据分布是非平稳的 (non-stationary) 。
随着智能体的学习和策略改变,它收集的数据也会改变。“基本事实 (ground truth) ”是一个移动的目标。这种不稳定性导致了几种优化病态,且随着神经网络变大,这些病态会显著恶化:
- 可塑性丧失 (Plasticity Loss) : 网络失去了从新经验中学习的能力。在初始学习阶段后,权重变得“僵化”,智能体停滞不前,无法适应新策略。
- 休眠神经元 (Dormant Neurons) : 网络中很大一部分神经元最终对所有输入都输出为零。它们本质上“死掉了”,浪费了计算资源并降低了模型的有效容量。
- 容量坍缩 (Capacity Collapse) : 即使模型很大,它学到的特征多样性 (其“秩”) 却在减少。它变成了一个干着小网络活儿的大网络。
现有的解决方案及其局限性
社区已经尝试修补这些漏洞。像周期性重置 (Periodic Resets) (每隔几百万步重置网络权重) 这样的技术有助于恢复可塑性,但这种手段激烈且具有破坏性。架构上的改进,如 SimBa (使用残差连接和层归一化) ,已将极限推至约 1000-2000 万参数。
但是,如果你想做得更大呢?
研究人员采用了最先进的 SimBa 架构并试图将其扩展。如下图所示,结果令人沮丧。

在上图中,请看虚线 (密集网络,Dense Networks) 。当模型规模超过一定点 (约 17M 参数) 时,性能 (回合回报,Episode Return) 就会崩溃。这就是扩展障碍的实际表现。
现在,请看实线 (稀疏网络,Sparse Networks) 。随着规模变大,这些网络的性能持续提升。这是该论文的核心贡献: 稀疏性将扩展曲线从负转正。
核心方法: 静态稀疏训练
论文提出的解决方案优雅而简单。它不需要复杂的算法,不需要训练期间的动态拓扑调整,也不需要昂贵的计算。
该方法是带单次随机剪枝的静态稀疏训练 (Static Sparse Training, SST) 。
工作原理
- 初始化: 创建一个大型神经网络 (例如,一个巨大的 MLP 或 ResNet) 。
- 剪枝: 在进行任何训练步骤之前,随机移除预定义比例的权重 (例如 80% 或 90%) 。这些权重被置为零并冻结。
- 训练: 使用标准 RL 算法 (如 SAC 或 DDPG) 训练剩余的权重。网络的拓扑结构在训练期间从未改变。
稀疏分布
你可能会问: 我们是均匀地移除权重吗?作者使用了 Erdős-Rényi (ER) 核公式。简而言之,这种方法根据层的大小调整稀疏度。较小的层 (信息瓶颈) 剪枝较少,而较大的层剪枝较多。这确保了信息流不会在网络的狭窄点被切断。
假设
研究人员假设,标准网络中的密集连接在 RL 中实际上是有害的。它们充当了噪声和干扰的“高速公路”,导致整个网络耦合过紧并丧失可塑性。通过随机切断这些连接,我们迫使网络发展出独特、鲁棒且不易受干扰的子网络。
实验: 打破障碍
为了验证这一假设,作者在 DeepMind Control (DMC) 套件上测试了他们的方法,重点关注像 “Humanoid Run” (人形机器人奔跑) 和 “Dog Trot” (机器狗小跑) 这样的最难任务。他们使用了两种标准算法: 软演员-评论家 (SAC) 和深度确定性策略梯度 (DDPG) 。
1. 扩展宽度和深度
他们以基准 SimBa 网络为基础,在两个维度上进行扩展: 宽度 (每层更多神经元) 和深度 (更多层) 。

图 2 (上图) 的结果讲述了一个清晰的故事:
- 密集网络 (灰线) : 随着宽度或深度的增加,性能很早就达到顶峰,然后下降。
- 稀疏网络 (红星) : 随着模型扩展,性能保持稳定或有所提升。
至关重要的是,这不仅仅关于参数效率。即使稀疏网络拥有与密集网络相同数量的活跃参数 (意味着稀疏网络物理上大得多,但大部分是空的) ,它的表现也更好。这表明拓扑结构——稀疏结构本身——提供了密集连接无法比拟的优势。
2. 寻找最佳平衡点
网络应该多稀疏?作者对从 0.1 (剪枝 10%) 到 0.9 (剪枝 90%) 的稀疏率进行了扫描。

图 3 (上图) 揭示了关于模型规模的一个重要见解:
- 默认网络 (蓝线) : 对于较小的、标准尺寸的网络,高稀疏性会损害性能。你需要那些参数。
- 大型网络 (橙线) : 对于巨大的网络 (约 100M 参数) ,性能随着稀疏性的增加而提升。
这证实了“彩票假设 (Lottery Ticket Hypothesis) ”的直觉: 在一个巨大的、随机初始化的网络内部,存在一个高效的稀疏子网络。通过剪枝,我们隔离了该子网络,并防止其余的噪声权重破坏它。
诊断: 为什么稀疏性有效?
这篇论文不仅展示了它有效,还进行了深入诊断来解释为什么。他们确定了稀疏网络优于密集网络的四个关键机制。
1. 防止表征坍缩 (Srank)
大型密集网络的一个常见问题是不同数据点的表征变得过于相似。网络实际上失去了区分状态细微差别的能力。这是通过有效秩 (Srank) 来衡量的。

在图 4 (上图) 中,看右侧的 “Srank Progression” (Srank 进展) 。
- 大型密集网络 (橙色) : 开始时秩很高,但很快坍缩 (线条下降) 。
- 大型稀疏网络 (红色) : 在整个训练过程中保持高且稳定的秩。
- 含义: 稀疏网络保留了对环境丰富、多样的理解,而密集网络则过度简化了其理解。
2. 保持可塑性 (“休眠神经元”问题)
可塑性是 RL 智能体的生命线。如果失去可塑性,它就会停止学习。可塑性丧失的一个强有力指标是休眠比例 (Dormant Ratio) ——即停止激活的神经元百分比。

图 5 (上图左侧) 令人震惊。
- 密集网络 (蓝/灰色) : 休眠比例 (上排) 飙升,梯度范数 (下排) 坍缩至接近零。网络实际上正在死亡。
- 稀疏网络 (橙色) : 休眠比例保持在低位,梯度保持健康。
上图右侧 (图 6) 展示了一个关于重置 (Resets) 的实验。通常,重置密集网络 (深蓝色) 会提升性能,因为它人为地恢复了可塑性。然而,稀疏网络 (红色) 在没有重置的情况下表现最好。它自然地保持了可塑性,使得外部干预变得不必要。
3. 控制参数增长
在不稳定的 RL 训练中,网络的权重可能会极度膨胀 (参数范数 Parameter Norm) ,导致算术问题和不稳定性。

如上所示, 大型密集网络 (蓝色) 遭受参数范数爆炸的困扰。 稀疏网络 (橙色) 自然地对权重进行正则化,使其幅度保持在与更小网络相当的水平。这起到了一种隐式正则化的作用。
4. 缓解梯度干扰
这可能是稀疏性优势最直观的证明。 梯度干扰发生在对状态 A 的网络更新负面影响了对状态 B 的预测时。在密集网络中,万物互联,因此“串扰”不可避免。
研究人员可视化了梯度协方差矩阵 :
大型稀疏网络 (评论家) :

大型密集网络 (评论家) :

对比“最终 (Final) ”热图 (下排) 。
- 密集网络是一片深红和深蓝,表明存在强烈的、复杂的关联和全面的干扰。
- 稀疏网络保留了结构化、更清晰的模式。梯度更加正交,这意味着网络可以在不破坏对状态空间某一部分的认知的情况下,学习另一部分。
泛化: 视觉和流式 RL
为了证明这不仅仅是状态控制的一个特例,作者将评估扩展到了另外两个具有挑战性的领域。
视觉 RL (Visual RL)
在视觉 RL 中,智能体必须直接从原始像素中学习。这通常需要巨大的卷积神经网络 (CNNs) 。

在图 10中,我们看到随着评论家网络变宽 (从 512 到 4096) ,稀疏设置 (底行) 获得的得分显著高于更窄或更密集的对应设置。
流式 RL (Streaming RL)
流式 RL 是一种设置,其中智能体从连续的数据流中学习,没有大型经验回放缓冲区,这使得可塑性变得更加关键 (因为你无法重放旧数据来提醒网络它学到了什么) 。

图 12 证实了这一趋势: 稀疏网络 (对应学习曲线中的红线) 始终优于密集网络,特别是在复杂运动所需的宽网络设置中。
结论与启示
论文 “Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning” 为 RL 中的扩展危机提供了一个令人信服的答案。研究结果表明,标准神经网络的密集性在强化学习这个混乱、非平稳的世界中实际上是一种负债。
主要收获:
- 稀疏性是特性,而非缺陷: 它不仅仅是为了节省内存;它是扩展的结构性必要条件。
- 不再需要重置: 适当的稀疏性自然地维持了可塑性,消除了像周期性重置这样复杂的干预技术的需求。
- 简单制胜: 所使用的方法——单次随机剪枝——实现起来极其简单。它不需要新的优化器或复杂的代码,只需在初始化时应用一个掩码。
这项工作预示着这样一个未来: DRL 智能体终于可以参与推动了 AI 其他领域发展的“规模之战”。通过简单地切断导致干扰和坍缩的连接,我们或许能够构建出比今天大几个数量级——也聪明几个数量级——的智能体。
对于 RL 领域的学生和研究人员来说,信息很明确: 在你尝试发明复杂的架构来修复训练不稳定性之前,试着简单地剪枝你的网络。你可能会发现,少真的即是多。
](https://deep-paper.org/en/paper/2506.17204/images/cover.png)