深度强化学习 (RL) 取得了令人瞩目的成果——人工智能系统已经掌握了电子游戏、能在模拟世界中导航,甚至能够媲美人类专家。然而,这些成功故事背后隐藏着一个关键弱点:** 过度专业化**。大多数强化学习智能体仅能在其训练环境的狭窄范围内表现出色。一旦改变规则、上下文或目标,它们的性能便迅速崩塌。它们没有学会如何学习。
相比之下,人类在不断变化的环境中能够游刃有余。我们可以瞬间适应——几分钟内学会新游戏,在突发情况下安全驾驶,或无需说明书就掌握新设备。这种抽象并迁移学习规律的能力,是智能的决定性特征之一。问题是: 我们该如何构建出具有同样灵活性的机器?
来自 NeurIPS 2022 的一篇论文——“元强化学习与自修改网络”——给出了一个深刻的答案。作者受生物学中持续学习机制——突触可塑性——的启发,提出了 MetODS (元优化动态突触,Meta-Optimized Dynamical Synapses) ,一种能够持续修改自身连接的神经网络。换句话说,它学会了自己的学习规则。其结果是一个可以实时适应新任务的元强化学习系统——能够解决陌生问题、探索未见过的迷宫,甚至在机器人肢体失效时仍能重新平衡并继续运作。
本文将深入解析 MetODS 背后的关键概念,并解释一个网络如何真正成为自己的优化器。
元强化学习: 将任务映射到最优策略
传统的强化学习专注于为单个特定任务找到最优策略——即从状态到动作的映射。元强化学习 (Meta-RL) 拓展了这一理念,目标是学习一个系统,使其能为一系列相关问题中的新任务快速发现高效策略。本质上,它学习的是如何学习。
作者将元强化学习建模为一个最优传输 (Optimal Transport) 问题: 想象两个空间,一个表示任务分布 \(\mathbb{T}\),另一个表示可能策略的空间 \(\Pi\)。对于每个任务 \(\tau\),在第二个空间中都存在一个最优策略 \(\pi^*\)。元强化学习要做的,就是学习一个映射 \(\gamma\),能高效地将概率质量从任务分布 \(\mu_{\mathbb{T}}\) 传输到对应的最优策略分布 \(\mu_{\pi^*}\)。
图 1: 作为最优传输问题的元强化学习。(a) 理想情况下,每个任务 \(\tau\) 都应直接映射到其最优策略 \(\pi^*\),但这种完美的传输方案在计算上是不可行的。(b) 元强化学习改为学习一个随机流,将初始策略 \(\pi_0\) 推向高性能策略。(c) MetODS 的可视化展示了动态权重在学习过程中如何聚类,表明在不同回合中涌现出不同的适应策略。
由于显式地求解这个理想传输方案在计算上不可行,元强化学习转而优化策略随时间改进的过程。系统学习控制这一过程的元参数 \(\boldsymbol{\theta}\),决定初始策略如何随着经验演化:
\[ \max_{\boldsymbol{\theta}} \mathbb{E}_{\tau \sim \mu_{\mathbb{T}}} \left[ \mathbb{E}_{\pi \sim \mu_{\pi}^{\boldsymbol{\theta},\tau,t}} \left[ \mathcal{R}(\tau,\pi) \right] \right] \]这一公式捕捉了元学习的精髓: 系统本身成为优化器,学会在与新任务交互时策略应如何变化。
一个高效的元强化学习框架应满足三点:
- 效率 – 只需极少的交互即可迅速适应,理想情况下实现一次学习 (one-shot learning) 。
- 容量 – 能够编码并利用复杂的任务结构。
- 泛化性 – 能在训练分布之外的场景中仍保持良好表现。
接下来,我们将探讨 MetODS 如何同时实现这三点。
MetODS 架构: 一个能自我重写的网络
传统的神经网络在训练结束后权重是固定的。MetODS 打破了这一模式。在 MetODS 中,权重 \(W_t\) 会随时间动态演化,使得智能体在整个生命周期中能够持续学习。
在每一时刻,策略不仅依赖于感知输入 \(s_t\),还取决于当前的突触配置 \(W_t\):
\[ \forall t \leq T, \qquad \pi(\boldsymbol{a}|\boldsymbol{s},\boldsymbol{W}_t) \sim \mu_{\pi}^{\boldsymbol{\theta},\tau,t} \]不同于应用单一固定学习规则的梯度下降,MetODS 学习一种自引用更新: 即根据权重自身状态来调整权重的映射。
\[ \forall t \leq T,\quad \Delta(\boldsymbol{W}_t) = \mathcal{F}_{\theta}(\boldsymbol{W}_t) \Big|_{\boldsymbol{W} = \boldsymbol{W}_t} \]这使得学习具有“反身性”: 网络检视自己的突触记忆,以判断它应该如何改变。更新规则 \(\mathcal{F}_{\theta}\) 在元训练阶段获得。
读写操作: 突触计算的基础
MetODS 的自修改机制依赖两个受生物启发的基本操作——读 (read) 与写 (write) ,它们模拟了神经元调整连接的方式。
\[ \begin{cases} \phi(\boldsymbol{W}, \boldsymbol{v}) = \sigma(\boldsymbol{W} \cdot \boldsymbol{v}) & \text{read}\\\\[3pt] \psi(\boldsymbol{v}) = \boldsymbol{\alpha}\odot(\boldsymbol{v}\otimes\boldsymbol{v}) & \text{write} \end{cases} \]- 读 (\(\phi\)) – 标准的前向传播: 将当前权重作用于激活向量 \(v\),并计算非线性变换 \(\sigma\),生成新的激活。
- 写 (\(\psi\)) – 学习步骤: 构建外积 \(v \otimes v\) (表示神经元的共激活) ,并通过学习到的可塑性矩阵 \(\alpha\) 逐元素缩放。每个突触都有自身自适应的学习率。
这种局部逐元素调整与生物突触过程高度一致,为表示学习型行为提供了灵活途径。
递归自修改
单次读写循环的表达力有限。MetODS 通过递归重复这些操作若干次 \((S)\) 来增强能力。
图 2: MetODS 层通过递归读写操作更新。神经激活 (\(v^{(s)}\)) 与突触权重 (\(W^{(s)}\)) 被迭代更新,在生成新策略前不断优化网络内部状态。
递归更新方程如下:
\[ \begin{cases} \boldsymbol{v}^{(s)} = \sum_{l=0}^{s-1} \boldsymbol{\kappa}_s^{(l)} \boldsymbol{v}^{(l)} + \boldsymbol{\kappa}_s^{(s)} \boldsymbol{\phi}(\boldsymbol{W}^{(s-1)}, \boldsymbol{v}^{(s-1)}) \\ \boldsymbol{W}^{(s)} = \sum_{l=0}^{s} \boldsymbol{\beta}_s^{(l)} \boldsymbol{W}^{(l)} + \boldsymbol{\beta}_s^{(s)} \boldsymbol{\psi}(\boldsymbol{v}^{(s-1)}) \end{cases} \]每次迭代都通过系数 \(\kappa\) 和 \(\beta\) 来优化神经激活与突触状态,这些系数决定它们的时间影响。这种递归融合了记忆与适应,使系统能够持续整合过去经验与新信息。
直觉上,网络在更新连接权重以进行下一次交互之前,会经历多个内部思考步骤。最终状态 \((v^{(S)}, W^{(S)})\) 决定了下一策略输出以及更新后的突触配置。
实验评估: 效率、容量与泛化性
研究人员在多种强化学习情境下评估了 MetODS——每个实验都针对元强化学习的三大核心属性之一。
1. 效率: 单次学习与快速运动适应
为衡量快速适应能力,研究者使用了两个截然不同的任务:
- 哈洛任务 (Harlow Task) : 一个经典心理学实验,用于衡量单次学习。智能体在两个选项间选择 (一个奖励,一个惩罚) ,并且必须在后续试次中记住正确选择,即使刺激物的位置发生改变。
- 蚂蚁定向任务 (Ant-dir) : 一个四足“蚂蚁”机器人在每个回合中必须学会沿随机指定方向奔跑。
图 3: (a–b) 哈洛任务与蚂蚁定向任务的示意图。(c–d) 奖励曲线显示完整的 MetODS (蓝色,S = 4) 能快速取得成功,而移除递归或可塑性参数 \(\alpha\) 的版本则失败。(f) 在蚂蚁定向任务中,MetODS 比 MAML 与 RL² 适应更快、奖励更高。
在哈洛任务中,即便仅含 20 个神经元的最小 MetODS 网络,也能在单次试验后学会正确映射——展现出真正的单次学习。去除递归深度或可塑性参数会严重损害表现。
在蚂蚁定向任务中,MetODS 的表现与基于记忆的系统 RL² 相当或更佳,并明显优于基于梯度的 MAML。短短几个时间步内,它无需显式重新训练即可将运动方向重新调整至目标方向,体现出持续即时的适应能力。
2. 容量: 迷宫导航中的记忆与推理
接着,模型在一个部分可观测的迷宫探索任务中接受测试。智能体只能看到随机生成迷宫的一个 3×3 局部窗口,并需抵达隐藏的目标,只能获得稀疏奖励。每次成功后,起始位置随机重置。
图 4: (a) 生成的迷宫示例。(b–c) MetODS 持续获得最高的累计奖励,并得益于递归深度 S 和学习到的可塑性参数 \(\alpha\)。
尽管没有显式的地图编码或记忆模块,MetODS 在累计奖励、成功率和泛化性方面均超越强基线。
图 5: 迷宫性能比较。MetODS 比 MAML 与 RL² 更高效地找到目标并累积更多奖励,验证了其卓越的记忆与探索能力。
在消融实验中,递归 Hebbian 更新的各个组成部分——递归深度、逐元素学习率和线性投影——均显著提升性能。更令人惊讶的是,同样的导航策略能够迁移到更大、未见过的迷宫中,体现出真正的空间泛化。
3. 泛化性: 鲁棒运动控制与任务迁移
最后,通过机器人操控和物理损伤实验来检验其泛化性。
Meta-World 基准测试评估了元强化学习算法在不同任务上的表现——如推物 (Push) 、抓取 (Reach) 及多任务学习 (ML10) 。
MetODS 在训练早期即取得更高成功率,并持续稳定提升。
图 6: 左图 — 在 Reach-v2 与 Push-v2 等任务的元训练成功曲线中,MetODS (蓝色) 领先其他方法。右图 — 当机器人的一条腿被禁用时,MetODS 保留了更高的原始性能,体现出强大的鲁棒适应能力。
在机器人损伤测试中,研究者先训练机器人正常运动行为,随后禁用其中一个马达——这一情况在训练期间从未出现。MetODS 能迅速重新平衡策略,恢复有效运动,并保留较高奖励,明显优于 MAML 与 RL²。其动态突触机制赋予了真实的抗干扰与自适应能力。
讨论: 迈向能够学习如何学习的网络
MetODS 证明了人工智能体不仅能够元学习行为,还可以元学习自身的学习动态。通过将适应性编码在依赖经验与网络状态的动态突触中,MetODS 在交互过程中实现持续优化。
这个系统融合了理论的优雅与生物学的合理性:
- 展示了快速、局部的可塑性能够产生涌现的高级智能行为;
- 桥接了强化学习与联想记忆理论,类似于能根据奖励编辑和检索记忆的现代霍普菲尔德网络;
- 在离散与连续控制任务中均能泛化,无需更改网络结构。
核心洞见极为深刻:** 优化本身可以被学习。** 网络能够自主发现最能提升奖励的连接修改规则,从而实现自我演化。
展望未来
未来的研究或将扩展 MetODS 至多层架构,集成注意力机制或循环策略模块,或与先进的强化学习优化器结合。这些方向将进一步增强其自适应能力。
更广泛而言,自修改网络的理念为真正实现终身学习系统铺平道路——这些智能体能持续演化,存储、重组与复用经验,以应对无限多样的挑战。
设想一下,机器人能在受损后立即自行校准,或人工智能助手可以无缝适应新的用户偏好而无需重新训练。这一愿景已不再遥远——其基础正在当下逐渐形成。
MetODS 提醒我们,真正的智能或许并非源自更多的数据或更大的模型,而是源自那些让系统能够持续自我变革的机制。通过教会网络重写自己的规则,我们正在迈向定义生命智能的适应性——也可能是未来人工智能的关键特征。