想象一下,你教一个机器人煮咖啡。它学会了步骤,做得很好,你很高兴。接着你教它烤面包。几堂课后,它掌握了烤面包的技巧——但当你再让它煮咖啡时,它却忘了。这种“灾难性遗忘”——即学习新技能会抹去旧技能——仍然是现代人工智能的一大顽疾。

深度强化学习 (DRL) 近年来取得了令人瞩目的成果: 精通围棋和《星际争霸》,控制复杂物理系统,乃至帮助分子设计。然而,大多数 DRL 系统通常只针对静态环境中的单一任务进行训练。当环境或目标发生变化时,它们往往必须重新开始训练。持续强化学习 (CRL) 正处于试图解决这种问题的研究前沿: 目标是让智能体具备终身学习的能力,保留已掌握的技能,并利用这些技能在未来更高效地学习。

本文将引导你走进最近一篇关于 CRL 的综合性综述。我们将解读其主要思想和挑战,了解研究者的分类方式、常见基准测试,以及值得期待的未来方向。目标是帮助你建立对这一领域的清晰认知模型,从而能快速理解研究论文、选择合适的基线方法,或设计自己的实验。

图 1 展示了整体设定: 智能体依次遇到多个任务,并需在新任务和之前的任务上都保持良好表现。

一张图表演示了持续强化学习的设置,其中一个智能体学习一系列任务,并在每个训练阶段后,在所有先前见过的任务上进行测试。

图 1: 持续强化学习 (CRL) 的总体设定。智能体顺序学习任务,并根据其在所有已见任务上的表现进行评估。

接下来的内容结构清晰,你可以根据兴趣选择切入点:

  • 快速回顾基础模块 (RL 与 CL)
  • CRL 与相关范式的区别
  • 主要挑战: 三角权衡关系
  • 如何评估终身学习者
  • 实用分类法: 存储与迁移的知识类型
  • 各类方法的概览与代表思想
  • 基准、场景与应用
  • 开放问题及未来方向

如果你是希望获得实用建议的从业者,重点关注分类法与基准部分;若你是学生,背景与度量指标将为你打下扎实基础。

简短但精确的入门介绍

在深入持续学习变体之前,我们先回顾一下强化学习的基本要素。

强化学习 (RL) 问题通常被建模为马尔可夫决策过程 (MDP) 。策略 π 将状态映射到动作,基本目标是最大化期望折扣回报。其形式为:

\[ V_\pi = \mathbb{E}_{\tau \sim P_\pi}\left[\sum_{t=0}^{H-1} \gamma^t R(s_t, a_t)\right], \]

其中 τ 是在策略 π 下采样的轨迹,γ 为折扣因子,H 为回合长度。算法通常分为两类:

  • 基于价值的方法 : 学习价值函数,如 Q(s,a) (例如 Q-learning, DQN) 。
  • 基于策略/演员-评论家方法 : 直接优化策略参数 (例如 PPO, SAC) 。

持续学习 (CL) 则专注于从任务序列中学习,而不会发生灾难性遗忘。它强调稳定性与可塑性之间的权衡: 既要足够稳定以保持旧知识,又要足够灵活以学习新技能。CL 的三大经典技术类别包括:

  • 基于回放: 存储或生成过去的数据并在训练过程中重放。
  • 基于正则化: 惩罚会破坏已有知识的参数更新。
  • 参数隔离 (模块化/掩码基) : 为每个任务保留独立参数或选择性激活网络部分。

CRL 将上述 CL 思想引入到 RL 的交互式且通常非平稳的环境中。

CRL 与其他多任务方法的关系

CRL 位于多任务学习范式的谱系中。图 2 展示了各范式之间的异同。

四种强化学习范式的比较: 传统 RL (一个智能体,一个任务) 、多任务 RL (一个智能体同时学习多个任务) 、迁移 RL (顺序迁移) 以及持续 RL (一个智能体按时间顺序持续学习) 。

图 2: 不同强化学习范式的可视化对比。CRL 的独特之处在于其专注于单个智能体在持续的时间线上学习。

主要区别如下:

  • 多任务强化学习 (MTRL) : 同时学习一组固定且已知的任务。任务身份明确,通常进行联合训练。
  • 迁移强化学习 (TRL) : 聚焦于利用源任务经验加速目标任务学习,是否遗忘源任务并非重点。
  • 持续强化学习 (CRL) : 任务按顺序到达,智能体需在持续适应的同时保持已有能力。这是更一般化的设定,包含迁移与保留两方面需求。

CRL 尤其适用于机器人与具身智能体领域,在这些场景中,环境不断变化,重复训练不切实际。

核心挑战: 三角平衡

在监督式 CL 中,我们通常讨论稳定性与可塑性的权衡,而 CRL 还引入第三个重要维度——可扩展性。设计一个持续强化学习系统需在以下三方面取得平衡:

  • 稳定性 : 保持过去任务的表现,避免遗忘。
  • 可塑性 : 高效学习新任务,实现前向迁移。
  • 可扩展性 : 在有限资源下处理大量任务。

三者相互影响: 激进的参数隔离提升稳定性但限制可扩展性;庞大的回放缓冲区增强稳定性却占用资源;过强的正则化可保留旧知识但损害学习新任务的能力。权衡关系如图 3 所示。

一个三角图,说明了 CRL 中可塑性、稳定性和可扩展性之间的平衡。

图 3: CRL 的三角权衡关系。成功的 CRL 智能体必须在三者之间取得平衡。

如何在具体应用 (机器人、游戏、对话系统) 中设计出合适的平衡,是 CRL 的核心工程挑战。

衡量终身学习的指标

仅凭标准回合奖励无法充分评估持续学习行为。CRL 借鉴并扩展了 CL 中的指标。设 N 为任务数,p_{i,j} 表示在训练完任务 i 后,在任务 j 上的归一化性能。

主要指标包括:

  • 平均性能 (A_i) :

    \[ A_i := \frac{1}{i}\sum_{j=1}^i p_{i,j}, \]

    A_N 表示所有 N 个任务的总体平均性能。

  • 遗忘 (FG_i) :

    \[ FG_i := \max(p_{i,i} - p_{N,i}, 0), \]

    衡量任务 i 在后续训练后的性能下降程度。平均 FG 可得到总体遗忘分数。

  • 前向迁移 (FT) : 判断早期任务是否有助于后续任务学习:

    \[ FT_i := \frac{1}{N-i}\sum_{j=i+1}^N \left(p_{i,j} - p_{i-1,j}\right). \]
  • 后向迁移 (BT) : 衡量后期任务是否促进早期任务表现。

此外,还应评估资源效率: 模型大小、样本效率 (达到目标性能所需环境步数) 及计算成本 (训练时间) 。在真实系统中,资源约束往往是最实际的评估标准。

任务、基准与现实场景

CRL 研究涉及多种任务套件,各自考察不同方面:

  • 导航/网格世界 (MiniGrid) : 简单易扩展,适合快速原型。
  • 连续控制/机器人 (MuJoCo、Meta-World、Continual World) : 处理连续状态-动作空间。
  • 视频游戏 (Atari、Procgen、StarCraft) : 高维视觉输入与长期规划。
  • 真实机器人与具身控制: 存在传感器噪声、硬件限制及安全问题。

基准在可观测性、任务数、任务长度和任务标识可用性等方面存在差异。图 4 比较了若干主流 CRL 基准。

一张表格,比较了各种持续强化学习基准在环境类型、任务数量和评估指标等方面的特性。

图 4: 现代 CRL 基准的比较。每个基准考察持续学习的不同方面。

重要场景类型 (综述中表 2) 包括:

  • 终身适应 : 着重评估未来任务的适应能力。
  • 非平稳性学习 : 奖励或动力学随时间变化,智能体需在所有任务上保持性能。
  • 任务增量学习 : 任务标识已知 (较容易) 。
  • 任务不可知学习 : 最具挑战——任务边界未知。

一张表格,根据学习和评估过程,对不同的 CRL 场景进行了形式化定义。

图 5: 常见 CRL 场景的形式化比较 (任务感知 vs 任务不可知、非平稳性形式以及评估协议) 。

现实部署中,任务不可知场景最贴近真实,但也最困难。

实用分类法: 存储与迁移的知识类型

该综述的核心思想是根据 CRL 方法存储或迁移的知识类型进行分类。在 RL 中,主要知识类型包括:

  • 策略 (及价值函数)
  • 经验 (轨迹、转移)
  • 动力学 (环境模型)
  • 奖励 (目标描述、塑形函数)

这一分类便于识别算法设计模式并发现潜在的组合方案。

一张图表演示了 CRL 方法的一般结构,展示了四种知识类型: 策略、经验、动力学、奖励。

图 6: CRL 方法的通用结构,围绕四类可存储和迁移的知识展开。

以下为四类方法概览:

1) 聚焦策略的方法

关注智能体策略或价值网络的存储与适应,分为三类:

  • 策略复用 : 保存完整策略或策略库,用于初始化新任务、提升探索或组合新行为。优点是任务相似时能加速学习;缺点是存储开销较大。 一种复用方案是基于 Q 值的乐观初始化:

    \[ \hat{Q}_{\max}(s,a) = \max_{M \in \hat{\mathcal{M}}} Q_M(s,a), \]

    其中 \(\hat{\mathcal{M}}\) 为已见任务集,鼓励乐观探索。

  • 策略分解 : 将策略表示为共享部分与任务特定部分的组合,如潜在基 (PG-ELLA) 、多头架构、模块网络、分层技能库等。可实现迁移与扩展。示例如:

    \[ \theta_k = L s_k, \]

    其中 L 为共享基,s_k 为任务系数。

  • 策略合并 : 通过蒸馏、掩码、超网络或正则化 (如 EWC) 将多个策略融合为单一模型。EWC 损失定义如下:

    \[ \mathcal{L}_{\mathrm{EWC}} = \mathcal{L}_{\text{task}} + \sum_i \frac{\lambda}{2} F_i (\theta_i - \theta_i^\star)^2, \]

    其中 F_i 为参数重要性估计。

聚焦策略的方法最常见: 任务相似时选复用或分解,资源有限或任务噪声大时用合并与正则化。

策略复用的框架: 存储一个策略库,并用它来初始化、探索或组合新策略。

图 7: 策略复用——保存旧策略,用于初始化或组合新策略。

策略分解的框架: 共享潜在基、多头、模块化和分层分解策略。

图 8: 策略分解——拆分共享与任务特定部分以增强迁移、降低干扰。

策略合并技术: 使用蒸馏、掩码、超网络将多个策略压缩成单一模型。

图 9: 策略合并——将多任务策略整合成紧凑表示。

2) 聚焦经验的方法

存储或生成经验样本以重演过去行为,分为:

  • 直接回放 : 保留部分旧任务的转移并与新数据混合训练 (如 CLEAR) 。简单有效但存在内存与隐私问题。
  • 生成式回放 : 利用生成模型 (VAE、GAN) 生成旧任务的伪经验以节省存储,但依赖生成质量。

经验方法常为首选方案,可直接提供训练分布;在隐私或存储受限场景中适用生成式变体。

聚焦经验的方法示意图: 短期和长期缓冲区,以及用于回放的可选生成模型。

图 10: 聚焦经验的方法——通过存储或生成经验回放以防遗忘。

3) 聚焦动力学的方法

学习环境动力学模型,适用于规则随时间变化的场景:

  • 直接建模 : 明确学习转移函数 T(s’|s,a),维护动力学模型库,用于检测变化与复用。
  • 间接建模 : 通过潜在表示或上下文嵌入捕捉任务特征,而非完整建模转移。

在动力学变化但结构相似的环境中,这类方法表现优异。

聚焦动力学的方法: 要么直接对转移进行建模,要么学习能捕捉非平稳性的潜在表示。

图 11: 以动力学为核心的 CRL 方法。直接模型支持规划,潜在模型提升适应性。

4) 聚焦奖励的方法

围绕任务奖励展开迁移与塑造:

  • 奖励塑形与势能迁移: 基于旧任务知识调整新任务奖励,加速学习。
  • 内在奖励: 通过探索与好奇激励跨任务通用技能。
  • 潜在奖励分解: 学习共享奖励组件并重组以适配新任务。

聚焦奖励的方法: 塑造和内在奖励组件,用于加速和指导跨任务学习。

图 12: 聚焦奖励的 CRL 方法。修改奖励信号是传递目标信息的有效路径。

超越基础: 任务检测、离线 RL 与模仿学习

最新 CRL 研究涵盖:

  • 任务变化检测 : 在任务不可知场景中推断环境变化,方法包括新颖性检测、统计检验、重建误差或分布距离评估。
  • 持续离线 RL 与模仿学习 : 从离线数据或演示中学习,减少交互成本与遗忘。
  • 具身持续智能体 : 结合大型预训练模型 (LLM、多模态 PTM) 与 RL 策略,使语言或高层规划成为知识存储。

这些研究方向正缩短实验室与现实应用间的距离。

时间线与重要阶段

综述中的时间线展示了从早期模块化与渐进式方法到近期超网络、模型驱动和混合策略的演进。该领域正从仅关注稳定性向迁移与可扩展性并重的方向发展。

一个时间线,展示了 CRL 的主要发展和里程碑 (方法、基准、综述) 。

图 13: CRL 领域主要发展的时间线,展示其迅速成熟的进程。

关键应用领域

  • 机器人 : 常用模块化、回放与策略分解方法;如 Continual World 专为机器人操作设计。
  • 游戏 : Atari、Procgen、StarCraft 提供复杂环境验证 CRL 方法。
  • 语言与具身智能体 : CRL 正用于持续学习对话与多任务场景。
  • 真实控制任务 : 如数据中心冷却、车队调度、金融系统。

设计应用时需考虑: 持久化何种知识?资源限制?是否具备任务标识?

实践建议

若你正在构建或评估 CRL 系统,以下经验值得参考:

  • 从简单开始 : 微调结合小型回放缓冲区是强基线;与 EWC、online-EWC 比较。
  • 匹配方法与约束条件 :
  • 内存充足、任务感知 → 策略复用或多头架构。
  • 内存有限、任务不可知 → 紧凑回放 + 蒸馏或生成回放。
  • 动力学变化 → 模型驱动或聚焦动力学方法。
  • 奖励稀疏 → 奖励塑形和内在探索。
  • 多基准测试 : 至少在一个简单环境 (如 MiniGrid) 和一个复杂环境 (如机器人或视觉游戏) 上测试,以捕捉迁移与可扩展性权衡。
  • 同时评估性能与资源 : A_N、FG、FT、模型大小、样本效率、训练时间。

开放挑战与未来方向

综述指出若干值得关注的问题:

  • 任务自由 CRL : 在无任务标签的非平稳环境中持续学习的智能体。
  • 标准化评估 : 需统一基准与指标,并纳入资源与隐私约束。
  • 可解释知识结构 : 从黑盒参数迈向可理解、可复用的知识表示。
  • 大规模预训练模型整合 : PTM 作为 CRL 的知识库,同时通过 CRL 技术持续调整 PTM (如持续式 RLHF) 。
  • 持续具身学习 : 真实世界中的长期学习,要求更强的鲁棒性与可扩展性。

总结

持续强化学习是连接单任务 DRL 与能够在长期变化任务中自适应发展的智能体之间的桥梁。该综述围绕一个实践问题组织内容——“存储和迁移什么知识?”。这一问题构成了策略、经验、动力学与奖励四类核心设计路线图。

请记住: 没有免费的午餐。CRL 方法在内存、计算与适应性之间权衡遗忘与迁移。艺术与科学的关键在于为你的问题选择合适平衡。随着新基准、生成式回放及 PTM+RL 混合系统的快速发展,未来将充满创新机会。若你关注具身智能体、对话系统或任何需持续学习的 AI,CRL 将是不可或缺的核心。

进一步阅读 : 原始综述《A Survey of Continual Reinforcement Learning》是入门佳选,包含各类方法的基础与前沿研究的详尽参考文献。