深度强化学习 (RL) 取得了非凡的成果——从能够精通复杂电子游戏的智能体,到学会行走和操纵物体的机器人。标准方法是训练一个权重固定的神经网络,通过数百万次试验并使用梯度下降进行优化。尽管这种方法很强大,但过程缓慢,且生成的智能体高度特化。就像一位不会下跳棋的国际象棋大师,这些智能体在严格定义的任务中表现出色,但当规则变化时却无法适应。
相比之下,生物大脑在适应性方面表现卓越。我们的突触——神经元之间的连接——并非静止不变。它们通过突触可塑性不断增强或减弱,使我们能够在几秒钟内学习新技能并适应变化的环境。那么,如果人工智能体也能以这种灵活的方式学习呢?
这个问题正是 NeurIPS 2022 发表的论文 《基于自修改网络的元强化学习》 的核心。研究人员提出了 **MetODS **(Meta-Optimized Dynamical Synapses,元优化的动态突触) : 一种能够即时修改自身权重的神经网络。MetODS 不依赖于缓慢的外部优化,而是利用内置的自我参照更新规则,根据经验执行自我重塑。其结果是一个通用的元强化学习系统,能够实现单次学习、在未知环境中导航,以及在连续控制任务中快速适应。
元强化学习的目标: 学会如何学习
在深入了解 MetODS 之前,我们先明确什么是元强化学习 (Meta-RL) 。其目标不仅是学习一个任务,而是学会如何学习——构建一个能在一系列相关任务中高效适应的智能体。
形式化地说,假设我们有一个任务分布 \( \mu_{\mathbb{T}} \),并且对于每个任务,存在一个最优策略 \( \pi^* \)。最终目标是找到一个映射,它能够接受任意任务 \( \tau \),并立即生成对应的最优策略 \( \pi^*_{\tau} \)。作者巧妙地将此问题表述为一个最优传输问题,即寻求将“质量”从任务分布传输到最优策略分布。
图 1a: 理想但难以处理的情况——将任何任务匹配到其最优策略,这可以看作任务分布与策略分布之间的最优传输问题。
由于直接求得这个映射在计算上不可行,元强化学习改为学习一个学习过程——一个参数化的过程,能够快速将通用的初始策略转化为针对特定任务的高性能策略。如图 1b 所示,该过程在策略空间中定义了一个由参数 \( \theta \) 引导的随机流:
\[ \max_{\boldsymbol{\theta}} \mathbb{E}_{\tau \sim \mu_{\mathbb{T}}} \left[ \mathbb{E}_{\pi \sim \mu_{\pi}^{\boldsymbol{\theta}, \tau, t}} \left[ \mathcal{R}(\tau, \pi) \right] \right] \]一个成功的元强化学习智能体应具备以下三个核心特性:
- 效率 (Efficiency) : 能在极少的交互中快速适应新任务——最小化遗憾,实现单次学习。
- 能力 (Capacity) : 对任务结构具有敏感性,能将上下文信息转化为高性能策略状态。
- 泛化性 (Generality) : 能将学到的学习规则推广到未见过的环境、任务和动态之中。
MetODS 的设计目标是在这三方面都表现突出。
MetODS 的核心: 自我重构的网络
传统的神经网络通过反向传播等外部优化算法来更新权重。其更新规则是静态的——每一步都应用相同的梯度公式。MetODS 打破了这一范式: 如果网络能依据自身的内部状态决定如何修改权重,会怎样?
该模型提出了一种自我参照的权重更新规则:
\[ \forall t \le T,\quad \Delta(\boldsymbol{W}_t) = \mathcal{F}_{\theta}(\boldsymbol{W}_t) \Big|_{\boldsymbol{W} = \boldsymbol{W}_t} \]这使得学习规则变得动态——随网络当前配置变化而调整,从而实现上下文敏感的更新。其机制通过交织的读与写操作来实现,模仿神经通信与突触可塑性。
读写操作
在每一步中,智能体将当前的感知状态 \( s_t \)、前一动作 \( a_{t-1} \) 以及奖励 \( r_{t-1} \) 编码为一个激活向量 \( v_t \)。这两个操作定义如下:
\[ \begin{cases} \phi(\boldsymbol{W}, \boldsymbol{v}) = \sigma(\boldsymbol{W}\boldsymbol{v}) & \text{(读)} \\ \psi(\boldsymbol{v}) = \boldsymbol{\alpha} \odot (\boldsymbol{v} \otimes \boldsymbol{v}) & \text{(写)} \end{cases} \]- 读 (Read) : 将激活值通过权重进行投影并施加非线性函数 \( \sigma \),类似神经元对输入模式的响应。
- 写 (Write) : 借助激活值间的乘积实现类赫布可塑性,从而加强共同激活的神经连接。一个可学习的掩码 \( \alpha \) 调节此过程,决定哪些突触具有可塑性及其程度。
递归更新循环
单次读写周期表达能力有限,因此该过程被递归地应用。从 \( v^{(0)} \) 和 \( W^{(0)} = W_{t-1} \) 开始,MetODS 在 \( S \) 个递归步骤中更新激活值与权重:
图 2: 递归读写机制——动态权重通过神经激活与突触痕迹的迭代交互不断演化。
每次迭代汇聚来自先前状态与新计算的读/写结果:
\[ s \in [1, S] : \begin{cases} \boldsymbol{v}^{(s)} = \sum_{l=0}^{s-1} \kappa_s^{(l)}\boldsymbol{v}^{(l)} + \kappa_s^{(s)}\phi(\boldsymbol{W}^{(s-1)}, \boldsymbol{v}^{(s-1)}) \\ \boldsymbol{W}^{(s)} = \sum_{l=0}^{s-1} \beta_s^{(l)}\boldsymbol{W}^{(l)} + \beta_s^{(s)}\psi(\boldsymbol{v}^{(s-1)}) \end{cases} \]其中,\( \kappa \) 和 \( \beta \) 是通过外层优化进行元学习的标量系数,使系统能够探索复杂的递归模式。经过 \( S \) 步后,激活值 \( v^{(S)} \) 生成智能体动作 \( a_t \),突触状态 \( W^{(S)} \) 成为更新后的 \( W_t \)。
从计算角度看,这构建了一个类似现代 Hopfield 网络 的联想记忆系统,能动态存储与检索信息。在 MetODS 中,记忆存在于权重本身而非激活值,从而在持续交互中实现快速压缩与上下文检索。
MetODS 的实践: 实验与结果
作者将 MetODS 的效率、能力和泛化性与顶级元强化学习算法——**MAML **(基于梯度) 、**RL² **(基于记忆的循环网络) 和 **PEARL **(基于概率推断) 进行了比较。
效率: 单次学习与快速运动控制
为评估学习速度,研究团队使用了两个经典元强化学习任务。
1. Harlow 任务——这一源自神经科学的测试用于探查单次学习能力。智能体面前呈现两个物体: 一个带来奖励,一个带来惩罚。在后续回合中,这两个物体的位置会随机变化。智能体必须立即识别正确的物体,并在后续试验中记住它。
图 3: 在 Harlow 实验中,MetODS 迅速识别出正确物体并保持最优性能。Ant-dir 机器人任务中,它展示了运动策略的快速在线改进。
MetODS 仅用一个包含 20 个神经元的网络便完美学会了这种关联。在递归步数 \( S=4 \) 且具有可学习的可塑性参数 \( \alpha \) 的条件下,性能显著优于删减版本。通过主成分分析对突触权重的投影结果揭示出两种涌现模式——分别对应首轮试验结果后形成的不同策略,证明了单步适应能力的存在。
2. MuJoCo Ant-dir 任务——一个模拟的四足机器人需在仅 200 个时间步内学会沿随机奖励方向移动。MetODS 能迅速调整运动策略,在极少步数内获得高奖励。其性能与基于记忆的 RL² 模型相当,但明显优于基于梯度的 MAML,后者需多次试验才能适应。
能力: 探索复杂迷宫
随后,研究人员测试了 MetODS 在需要记忆与推理能力的结构化任务中的表现。智能体在随机生成的迷宫中导航,仅通过一个 \( 3 \times 3 \) 像素窗口进行部分观察。当在隐藏的目标处获得奖励后,其位置会被重置并继续探索。
图 4: 迷宫环境与性能比较曲线。MetODS 持续实现更高的累积奖励与更高的探索效率。
尽管感知范围有限、奖励稀缺,MetODS 仍展现出稳健的探索行为。与 MAML 和 RL² 相比,它获得了更高的累积奖励与更快的成功率。消融实验验证了元素级可塑性 (\( \alpha \)) 与更深的递归步数 (\( S>1 \)) 对于最优结果的必要性。在写操作中使用线性变换的变体效果进一步提升。
智能体 | 首次奖励 (↓) | 成功率 (↑) | 累积奖励 (↑) | 大型迷宫中的累积奖励 (↑) |
---|---|---|---|---|
Random | 96.8 ± 0.5 | 5% | 3.8 ± 8.9 | 3.7 ± 6.4 |
MAML | 64.3 ± 39.3 | 45.2% | 14.95 ± 4.5 | 5.8 ± 10.3 |
RL² | 16.2 ± 1.1 | 96.2% | 77.7 ± 46.5 | 28.1 ± 29.7 |
MetODS | 14.7 ± 1.4 | 96.6% | 86.5 ± 46.8 | 34.9 ± 34.9 |
图 5: 收敛阶段 (10⁷ 环境步数) 的定量结果。MetODS 在找到奖励与保持高任务成功率方面均超越基线模型,即使面对未见过的大型迷宫亦如此。
泛化性: 灵巧操作与稳健运动控制
泛化性在两个方面进行了验证——机器人操作与物理损伤。
图 6: 左图: MetaWorld 元训练任务 (Reach、Push、ML10) 的成功率。MetODS 学习更快且泛化更优。右图: 关节受限的机器人 (Ant、Cheetah) 在采用 MetODS 策略时保持更高的奖励。
1. Meta-World 基准测试: 在涉及 Sawyer 机械臂执行推和抓取等操作任务中,与 MAML、RL² 和 PEARL 相比,MetODS 在训练初期即取得更高的成功率,保持优良的样本效率,并展示出卓越的任务泛化能力。
2. 机器人损伤测试: 当经过训练的运动智能体遇到意外物理限制 (如某个关节被冻结) ,MetODS 相较基线模型保留了更多性能。其动态突触可快速适应并进行补偿,表明学习规则具备韧性与固有的稳健性。
结论: 迈向自适应智能
MetODS 在强化学习领域提出了一个革命性概念——网络可以学会自我修改。通过将经验与策略编码进自调节的突触权重,模型实现了快速且多样的适应,而无需依赖外部的梯度下降。
这些研究结果指向未来的动态可塑人工系统——可进行单次学习、抽象推理与稳健控制。MetODS 展示了一个可能: 智能的本质或许不在于更大的数据集或更深的网络架构,而在于自组织与自反式的计算——真正能学会如何学习的网络。