永不止步的学习——深入探索持续强化学习

想象一下，你教一个机器人煮咖啡。它学会了步骤，做得很好，你很高兴。接着你教它烤面包。几堂课后，它掌握了烤面包的技巧——但当你再让它煮咖啡时，它却忘了。这种“灾难性遗忘”——即学习新技能会抹去旧技能——仍然是现代人工智能的一大顽疾。

深度强化学习 (DRL) 近年来取得了令人瞩目的成果: 精通围棋和《星际争霸》，控制复杂物理系统，乃至帮助分子设计。然而，大多数 DRL 系统通常只针对静态环境中的单一任务进行训练。当环境或目标发生变化时，它们往往必须重新开始训练。持续强化学习 (CRL) 正处于试图解决这种问题的研究前沿: 目标是让智能体具备终身学习的能力，保留已掌握的技能，并利用这些技能在未来更高效地学习。

本文将引导你走进最近一篇关于 CRL 的综合性综述。我们将解读其主要思想和挑战，了解研究者的分类方式、常见基准测试，以及值得期待的未来方向。目标是帮助你建立对这一领域的清晰认知模型，从而能快速理解研究论文、选择合适的基线方法，或设计自己的实验。

图 1 展示了整体设定: 智能体依次遇到多个任务，并需在新任务和之前的任务上都保持良好表现。

一张图表演示了持续强化学习的设置，其中一个智能体学习一系列任务，并在每个训练阶段后，在所有先前见过的任务上进行测试。

图 1: 持续强化学习 (CRL) 的总体设定。智能体顺序学习任务，并根据其在所有已见任务上的表现进行评估。

接下来的内容结构清晰，你可以根据兴趣选择切入点:

快速回顾基础模块 (RL 与 CL)
CRL 与相关范式的区别
主要挑战: 三角权衡关系
如何评估终身学习者
实用分类法: 存储与迁移的知识类型
各类方法的概览与代表思想
基准、场景与应用
开放问题及未来方向

如果你是希望获得实用建议的从业者，重点关注分类法与基准部分；若你是学生，背景与度量指标将为你打下扎实基础。

简短但精确的入门介绍

在深入持续学习变体之前，我们先回顾一下强化学习的基本要素。

强化学习 (RL) 问题通常被建模为马尔可夫决策过程 (MDP) 。策略 π 将状态映射到动作，基本目标是最大化期望折扣回报。其形式为:

\[ V_\pi = \mathbb{E}_{\tau \sim P_\pi}\left[\sum_{t=0}^{H-1} \gamma^t R(s_t, a_t)\right], \]

其中 τ 是在策略 π 下采样的轨迹，γ 为折扣因子，H 为回合长度。算法通常分为两类:

基于价值的方法 : 学习价值函数，如 Q(s,a) (例如 Q-learning, DQN) 。
基于策略/演员-评论家方法 : 直接优化策略参数 (例如 PPO, SAC) 。

持续学习 (CL) 则专注于从任务序列中学习，而不会发生灾难性遗忘。它强调稳定性与可塑性之间的权衡: 既要足够稳定以保持旧知识，又要足够灵活以学习新技能。CL 的三大经典技术类别包括:

基于回放: 存储或生成过去的数据并在训练过程中重放。
基于正则化: 惩罚会破坏已有知识的参数更新。
参数隔离 (模块化/掩码基) : 为每个任务保留独立参数或选择性激活网络部分。

CRL 将上述 CL 思想引入到 RL 的交互式且通常非平稳的环境中。

CRL 与其他多任务方法的关系

CRL 位于多任务学习范式的谱系中。图 2 展示了各范式之间的异同。

四种强化学习范式的比较: 传统 RL (一个智能体，一个任务) 、多任务 RL (一个智能体同时学习多个任务) 、迁移 RL (顺序迁移) 以及持续 RL (一个智能体按时间顺序持续学习) 。

图 2: 不同强化学习范式的可视化对比。CRL 的独特之处在于其专注于单个智能体在持续的时间线上学习。

主要区别如下:

多任务强化学习 (MTRL) : 同时学习一组固定且已知的任务。任务身份明确，通常进行联合训练。
迁移强化学习 (TRL) : 聚焦于利用源任务经验加速目标任务学习，是否遗忘源任务并非重点。
持续强化学习 (CRL) : 任务按顺序到达，智能体需在持续适应的同时保持已有能力。这是更一般化的设定，包含迁移与保留两方面需求。

CRL 尤其适用于机器人与具身智能体领域，在这些场景中，环境不断变化，重复训练不切实际。

核心挑战: 三角平衡

在监督式 CL 中，我们通常讨论稳定性与可塑性的权衡，而 CRL 还引入第三个重要维度——可扩展性。设计一个持续强化学习系统需在以下三方面取得平衡:

稳定性 : 保持过去任务的表现，避免遗忘。
可塑性 : 高效学习新任务，实现前向迁移。
可扩展性 : 在有限资源下处理大量任务。

三者相互影响: 激进的参数隔离提升稳定性但限制可扩展性；庞大的回放缓冲区增强稳定性却占用资源；过强的正则化可保留旧知识但损害学习新任务的能力。权衡关系如图 3 所示。

一个三角图，说明了 CRL 中可塑性、稳定性和可扩展性之间的平衡。

图 3: CRL 的三角权衡关系。成功的 CRL 智能体必须在三者之间取得平衡。

如何在具体应用 (机器人、游戏、对话系统) 中设计出合适的平衡，是 CRL 的核心工程挑战。

衡量终身学习的指标

仅凭标准回合奖励无法充分评估持续学习行为。CRL 借鉴并扩展了 CL 中的指标。设 N 为任务数，p_{i,j} 表示在训练完任务 i 后，在任务 j 上的归一化性能。

主要指标包括:

平均性能 (A_i) :
\[ A_i := \frac{1}{i}\sum_{j=1}^i p_{i,j}, \]
A_N 表示所有 N 个任务的总体平均性能。
遗忘 (FG_i) :
\[ FG_i := \max(p_{i,i} - p_{N,i}, 0), \]
衡量任务 i 在后续训练后的性能下降程度。平均 FG 可得到总体遗忘分数。
前向迁移 (FT) : 判断早期任务是否有助于后续任务学习:
\[ FT_i := \frac{1}{N-i}\sum_{j=i+1}^N \left(p_{i,j} - p_{i-1,j}\right). \]
后向迁移 (BT) : 衡量后期任务是否促进早期任务表现。

此外，还应评估资源效率: 模型大小、样本效率 (达到目标性能所需环境步数) 及计算成本 (训练时间) 。在真实系统中，资源约束往往是最实际的评估标准。

任务、基准与现实场景

CRL 研究涉及多种任务套件，各自考察不同方面:

导航/网格世界 (MiniGrid) : 简单易扩展，适合快速原型。
连续控制/机器人 (MuJoCo、Meta-World、Continual World) : 处理连续状态-动作空间。
视频游戏 (Atari、Procgen、StarCraft) : 高维视觉输入与长期规划。
真实机器人与具身控制: 存在传感器噪声、硬件限制及安全问题。

基准在可观测性、任务数、任务长度和任务标识可用性等方面存在差异。图 4 比较了若干主流 CRL 基准。

一张表格，比较了各种持续强化学习基准在环境类型、任务数量和评估指标等方面的特性。

图 4: 现代 CRL 基准的比较。每个基准考察持续学习的不同方面。

重要场景类型 (综述中表 2) 包括:

终身适应 : 着重评估未来任务的适应能力。
非平稳性学习 : 奖励或动力学随时间变化，智能体需在所有任务上保持性能。
任务增量学习 : 任务标识已知 (较容易) 。
任务不可知学习 : 最具挑战——任务边界未知。

一张表格，根据学习和评估过程，对不同的 CRL 场景进行了形式化定义。

图 5: 常见 CRL 场景的形式化比较 (任务感知 vs 任务不可知、非平稳性形式以及评估协议) 。

现实部署中，任务不可知场景最贴近真实，但也最困难。

实用分类法: 存储与迁移的知识类型

该综述的核心思想是根据 CRL 方法存储或迁移的知识类型进行分类。在 RL 中，主要知识类型包括:

策略 (及价值函数)
经验 (轨迹、转移)
动力学 (环境模型)
奖励 (目标描述、塑形函数)

这一分类便于识别算法设计模式并发现潜在的组合方案。

一张图表演示了 CRL 方法的一般结构，展示了四种知识类型: 策略、经验、动力学、奖励。

图 6: CRL 方法的通用结构，围绕四类可存储和迁移的知识展开。

以下为四类方法概览:

1) 聚焦策略的方法

关注智能体策略或价值网络的存储与适应，分为三类:

策略复用 : 保存完整策略或策略库，用于初始化新任务、提升探索或组合新行为。优点是任务相似时能加速学习；缺点是存储开销较大。一种复用方案是基于 Q 值的乐观初始化:
\[ \hat{Q}_{\max}(s,a) = \max_{M \in \hat{\mathcal{M}}} Q_M(s,a), \]
其中 \(\hat{\mathcal{M}}\) 为已见任务集，鼓励乐观探索。
策略分解 : 将策略表示为共享部分与任务特定部分的组合，如潜在基 (PG-ELLA) 、多头架构、模块网络、分层技能库等。可实现迁移与扩展。示例如:
\[ \theta_k = L s_k, \]
其中 L 为共享基，s_k 为任务系数。
策略合并 : 通过蒸馏、掩码、超网络或正则化 (如 EWC) 将多个策略融合为单一模型。EWC 损失定义如下:
\[ \mathcal{L}_{\mathrm{EWC}} = \mathcal{L}_{\text{task}} + \sum_i \frac{\lambda}{2} F_i (\theta_i - \theta_i^\star)^2, \]
其中 F_i 为参数重要性估计。

聚焦策略的方法最常见: 任务相似时选复用或分解，资源有限或任务噪声大时用合并与正则化。

策略复用的框架: 存储一个策略库，并用它来初始化、探索或组合新策略。

图 7: 策略复用——保存旧策略，用于初始化或组合新策略。

策略分解的框架: 共享潜在基、多头、模块化和分层分解策略。

图 8: 策略分解——拆分共享与任务特定部分以增强迁移、降低干扰。

策略合并技术: 使用蒸馏、掩码、超网络将多个策略压缩成单一模型。

图 9: 策略合并——将多任务策略整合成紧凑表示。

2) 聚焦经验的方法

存储或生成经验样本以重演过去行为，分为:

直接回放 : 保留部分旧任务的转移并与新数据混合训练 (如 CLEAR) 。简单有效但存在内存与隐私问题。
生成式回放 : 利用生成模型 (VAE、GAN) 生成旧任务的伪经验以节省存储，但依赖生成质量。

经验方法常为首选方案，可直接提供训练分布；在隐私或存储受限场景中适用生成式变体。

聚焦经验的方法示意图: 短期和长期缓冲区，以及用于回放的可选生成模型。

图 10: 聚焦经验的方法——通过存储或生成经验回放以防遗忘。

3) 聚焦动力学的方法

学习环境动力学模型，适用于规则随时间变化的场景:

直接建模 : 明确学习转移函数 T(s’|s,a)，维护动力学模型库，用于检测变化与复用。
间接建模 : 通过潜在表示或上下文嵌入捕捉任务特征，而非完整建模转移。

在动力学变化但结构相似的环境中，这类方法表现优异。

聚焦动力学的方法: 要么直接对转移进行建模，要么学习能捕捉非平稳性的潜在表示。

图 11: 以动力学为核心的 CRL 方法。直接模型支持规划，潜在模型提升适应性。

4) 聚焦奖励的方法

围绕任务奖励展开迁移与塑造:

奖励塑形与势能迁移: 基于旧任务知识调整新任务奖励，加速学习。
内在奖励: 通过探索与好奇激励跨任务通用技能。
潜在奖励分解: 学习共享奖励组件并重组以适配新任务。

聚焦奖励的方法: 塑造和内在奖励组件，用于加速和指导跨任务学习。

图 12: 聚焦奖励的 CRL 方法。修改奖励信号是传递目标信息的有效路径。

超越基础: 任务检测、离线 RL 与模仿学习

最新 CRL 研究涵盖:

任务变化检测 : 在任务不可知场景中推断环境变化，方法包括新颖性检测、统计检验、重建误差或分布距离评估。
持续离线 RL 与模仿学习 : 从离线数据或演示中学习，减少交互成本与遗忘。
具身持续智能体 : 结合大型预训练模型 (LLM、多模态 PTM) 与 RL 策略，使语言或高层规划成为知识存储。

这些研究方向正缩短实验室与现实应用间的距离。

时间线与重要阶段

综述中的时间线展示了从早期模块化与渐进式方法到近期超网络、模型驱动和混合策略的演进。该领域正从仅关注稳定性向迁移与可扩展性并重的方向发展。

一个时间线，展示了 CRL 的主要发展和里程碑 (方法、基准、综述) 。

图 13: CRL 领域主要发展的时间线，展示其迅速成熟的进程。

关键应用领域

机器人 : 常用模块化、回放与策略分解方法；如 Continual World 专为机器人操作设计。
游戏 : Atari、Procgen、StarCraft 提供复杂环境验证 CRL 方法。
语言与具身智能体 : CRL 正用于持续学习对话与多任务场景。
真实控制任务 : 如数据中心冷却、车队调度、金融系统。

设计应用时需考虑: 持久化何种知识？资源限制？是否具备任务标识？

实践建议

若你正在构建或评估 CRL 系统，以下经验值得参考:

从简单开始 : 微调结合小型回放缓冲区是强基线；与 EWC、online-EWC 比较。
匹配方法与约束条件 :
内存充足、任务感知 → 策略复用或多头架构。
内存有限、任务不可知 → 紧凑回放 + 蒸馏或生成回放。
动力学变化 → 模型驱动或聚焦动力学方法。
奖励稀疏 → 奖励塑形和内在探索。
多基准测试 : 至少在一个简单环境 (如 MiniGrid) 和一个复杂环境 (如机器人或视觉游戏) 上测试，以捕捉迁移与可扩展性权衡。
同时评估性能与资源 : A_N、FG、FT、模型大小、样本效率、训练时间。

开放挑战与未来方向

综述指出若干值得关注的问题:

任务自由 CRL : 在无任务标签的非平稳环境中持续学习的智能体。
标准化评估 : 需统一基准与指标，并纳入资源与隐私约束。
可解释知识结构 : 从黑盒参数迈向可理解、可复用的知识表示。
大规模预训练模型整合 : PTM 作为 CRL 的知识库，同时通过 CRL 技术持续调整 PTM (如持续式 RLHF) 。
持续具身学习 : 真实世界中的长期学习，要求更强的鲁棒性与可扩展性。

总结

持续强化学习是连接单任务 DRL 与能够在长期变化任务中自适应发展的智能体之间的桥梁。该综述围绕一个实践问题组织内容——“存储和迁移什么知识？”。这一问题构成了策略、经验、动力学与奖励四类核心设计路线图。

请记住: 没有免费的午餐。CRL 方法在内存、计算与适应性之间权衡遗忘与迁移。艺术与科学的关键在于为你的问题选择合适平衡。随着新基准、生成式回放及 PTM+RL 混合系统的快速发展，未来将充满创新机会。若你关注具身智能体、对话系统或任何需持续学习的 AI，CRL 将是不可或缺的核心。

进一步阅读 : 原始综述《A Survey of Continual Reinforcement Learning》是入门佳选，包含各类方法的基础与前沿研究的详尽参考文献。

简短但精确的入门介绍#

CRL 与其他多任务方法的关系#

核心挑战: 三角平衡#

衡量终身学习的指标#

任务、基准与现实场景#

实用分类法: 存储与迁移的知识类型#

1) 聚焦策略的方法#

2) 聚焦经验的方法#

3) 聚焦动力学的方法#

4) 聚焦奖励的方法#

超越基础: 任务检测、离线 RL 与模仿学习#

时间线与重要阶段#

关键应用领域#

实践建议#

开放挑战与未来方向#

总结#