学习如何学习：自修改网络如何解锁真正的人工智能适应性

深度强化学习 (RL) 取得了令人瞩目的成果——人工智能系统已经掌握了电子游戏、能在模拟世界中导航，甚至能够媲美人类专家。然而，这些成功故事背后隐藏着一个关键弱点:** 过度专业化**。大多数强化学习智能体仅能在其训练环境的狭窄范围内表现出色。一旦改变规则、上下文或目标，它们的性能便迅速崩塌。它们没有学会如何学习。

相比之下，人类在不断变化的环境中能够游刃有余。我们可以瞬间适应——几分钟内学会新游戏，在突发情况下安全驾驶，或无需说明书就掌握新设备。这种抽象并迁移学习规律的能力，是智能的决定性特征之一。问题是: 我们该如何构建出具有同样灵活性的机器？

来自 NeurIPS 2022 的一篇论文——“元强化学习与自修改网络”——给出了一个深刻的答案。作者受生物学中持续学习机制——突触可塑性——的启发，提出了 MetODS (元优化动态突触，Meta-Optimized Dynamical Synapses) ，一种能够持续修改自身连接的神经网络。换句话说，它学会了自己的学习规则。其结果是一个可以实时适应新任务的元强化学习系统——能够解决陌生问题、探索未见过的迷宫，甚至在机器人肢体失效时仍能重新平衡并继续运作。

本文将深入解析 MetODS 背后的关键概念，并解释一个网络如何真正成为自己的优化器。

元强化学习: 将任务映射到最优策略

传统的强化学习专注于为单个特定任务找到最优策略——即从状态到动作的映射。元强化学习 (Meta-RL) 拓展了这一理念，目标是学习一个系统，使其能为一系列相关问题中的新任务快速发现高效策略。本质上，它学习的是如何学习。

作者将元强化学习建模为一个最优传输 (Optimal Transport) 问题: 想象两个空间，一个表示任务分布 \(\mathbb{T}\)，另一个表示可能策略的空间 \(\Pi\)。对于每个任务 \(\tau\)，在第二个空间中都存在一个最优策略 \(\pi^*\)。元强化学习要做的，就是学习一个映射 \(\gamma\)，能高效地将概率质量从任务分布 \(\mu_{\mathbb{T}}\) 传输到对应的最优策略分布 \(\mu_{\pi^*}\)。

图 1 展示了元强化学习过程。(a)

图 1: 作为最优传输问题的元强化学习。(a) 理想情况下，每个任务 \(\tau\) 都应直接映射到其最优策略 \(\pi^*\)，但这种完美的传输方案在计算上是不可行的。(b) 元强化学习改为学习一个随机流，将初始策略 \(\pi_0\) 推向高性能策略。(c) MetODS 的可视化展示了动态权重在学习过程中如何聚类，表明在不同回合中涌现出不同的适应策略。

由于显式地求解这个理想传输方案在计算上不可行，元强化学习转而优化策略随时间改进的过程。系统学习控制这一过程的元参数 \(\boldsymbol{\theta}\)，决定初始策略如何随着经验演化:

\[ \max_{\boldsymbol{\theta}} \mathbb{E}_{\tau \sim \mu_{\mathbb{T}}} \left[ \mathbb{E}_{\pi \sim \mu_{\pi}^{\boldsymbol{\theta},\tau,t}} \left[ \mathcal{R}(\tau,\pi) \right] \right] \]

这一公式捕捉了元学习的精髓: 系统本身成为优化器，学会在与新任务交互时策略应如何变化。

一个高效的元强化学习框架应满足三点:

效率 – 只需极少的交互即可迅速适应，理想情况下实现一次学习 (one-shot learning) 。
容量 – 能够编码并利用复杂的任务结构。
泛化性 – 能在训练分布之外的场景中仍保持良好表现。

接下来，我们将探讨 MetODS 如何同时实现这三点。

MetODS 架构: 一个能自我重写的网络

传统的神经网络在训练结束后权重是固定的。MetODS 打破了这一模式。在 MetODS 中，权重 \(W_t\) 会随时间动态演化，使得智能体在整个生命周期中能够持续学习。

在每一时刻，策略不仅依赖于感知输入 \(s_t\)，还取决于当前的突触配置 \(W_t\):

\[ \forall t \leq T, \qquad \pi(\boldsymbol{a}|\boldsymbol{s},\boldsymbol{W}_t) \sim \mu_{\pi}^{\boldsymbol{\theta},\tau,t} \]

不同于应用单一固定学习规则的梯度下降，MetODS 学习一种自引用更新: 即根据权重自身状态来调整权重的映射。

\[ \forall t \leq T,\quad \Delta(\boldsymbol{W}_t) = \mathcal{F}_{\theta}(\boldsymbol{W}_t) \Big|_{\boldsymbol{W} = \boldsymbol{W}_t} \]

这使得学习具有“反身性”: 网络检视自己的突触记忆，以判断它应该如何改变。更新规则 \(\mathcal{F}_{\theta}\) 在元训练阶段获得。

读写操作: 突触计算的基础

MetODS 的自修改机制依赖两个受生物启发的基本操作——读 (read) 与写 (write) ，它们模拟了神经元调整连接的方式。

\[ \begin{cases} \phi(\boldsymbol{W}, \boldsymbol{v}) = \sigma(\boldsymbol{W} \cdot \boldsymbol{v}) & \text{read}\\\\[3pt] \psi(\boldsymbol{v}) = \boldsymbol{\alpha}\odot(\boldsymbol{v}\otimes\boldsymbol{v}) & \text{write} \end{cases} \]

读 (\(\phi\)) – 标准的前向传播: 将当前权重作用于激活向量 \(v\)，并计算非线性变换 \(\sigma\)，生成新的激活。
写 (\(\psi\)) – 学习步骤: 构建外积 \(v \otimes v\) (表示神经元的共激活) ，并通过学习到的可塑性矩阵 \(\alpha\) 逐元素缩放。每个突触都有自身自适应的学习率。

这种局部逐元素调整与生物突触过程高度一致，为表示学习型行为提供了灵活途径。

递归自修改

单次读写循环的表达力有限。MetODS 通过递归重复这些操作若干次 \((S)\) 来增强能力。

图 2 可视化了 MetODS 的递归更新周期。

图 2: MetODS 层通过递归读写操作更新。神经激活 (\(v^{(s)}\)) 与突触权重 (\(W^{(s)}\)) 被迭代更新，在生成新策略前不断优化网络内部状态。

递归更新方程如下:

\[ \begin{cases} \boldsymbol{v}^{(s)} = \sum_{l=0}^{s-1} \boldsymbol{\kappa}_s^{(l)} \boldsymbol{v}^{(l)} + \boldsymbol{\kappa}_s^{(s)} \boldsymbol{\phi}(\boldsymbol{W}^{(s-1)}, \boldsymbol{v}^{(s-1)}) \\ \boldsymbol{W}^{(s)} = \sum_{l=0}^{s} \boldsymbol{\beta}_s^{(l)} \boldsymbol{W}^{(l)} + \boldsymbol{\beta}_s^{(s)} \boldsymbol{\psi}(\boldsymbol{v}^{(s-1)}) \end{cases} \]

每次迭代都通过系数 \(\kappa\) 和 \(\beta\) 来优化神经激活与突触状态，这些系数决定它们的时间影响。这种递归融合了记忆与适应，使系统能够持续整合过去经验与新信息。

直觉上，网络在更新连接权重以进行下一次交互之前，会经历多个内部思考步骤。最终状态 \((v^{(S)}, W^{(S)})\) 决定了下一策略输出以及更新后的突触配置。

实验评估: 效率、容量与泛化性

研究人员在多种强化学习情境下评估了 MetODS——每个实验都针对元强化学习的三大核心属性之一。

1. 效率: 单次学习与快速运动适应

为衡量快速适应能力，研究者使用了两个截然不同的任务:

哈洛任务 (Harlow Task) : 一个经典心理学实验，用于衡量单次学习。智能体在两个选项间选择 (一个奖励，一个惩罚) ，并且必须在后续试次中记住正确选择，即使刺激物的位置发生改变。
蚂蚁定向任务 (Ant-dir) : 一个四足“蚂蚁”机器人在每个回合中必须学会沿随机指定方向奔跑。

图 3 展示了 MetODS 的效率与适应性。

图 3: (a–b) 哈洛任务与蚂蚁定向任务的示意图。(c–d) 奖励曲线显示完整的 MetODS (蓝色，S = 4) 能快速取得成功，而移除递归或可塑性参数 \(\alpha\) 的版本则失败。(f) 在蚂蚁定向任务中，MetODS 比 MAML 与 RL² 适应更快、奖励更高。

在哈洛任务中，即便仅含 20 个神经元的最小 MetODS 网络，也能在单次试验后学会正确映射——展现出真正的单次学习。去除递归深度或可塑性参数会严重损害表现。

在蚂蚁定向任务中，MetODS 的表现与基于记忆的系统 RL² 相当或更佳，并明显优于基于梯度的 MAML。短短几个时间步内，它无需显式重新训练即可将运动方向重新调整至目标方向，体现出持续即时的适应能力。

2. 容量: 迷宫导航中的记忆与推理

接着，模型在一个部分可观测的迷宫探索任务中接受测试。智能体只能看到随机生成迷宫的一个 3×3 局部窗口，并需抵达隐藏的目标，只能获得稀疏奖励。每次成功后，起始位置随机重置。

图 4 展示了迷宫设置及结果比较。

图 4: (a) 生成的迷宫示例。(b–c) MetODS 持续获得最高的累计奖励，并得益于递归深度 S 和学习到的可塑性参数 \(\alpha\)。

尽管没有显式的地图编码或记忆模块，MetODS 在累计奖励、成功率和泛化性方面均超越强基线。
图 5 展示了不同智能体在迷宫任务中的表现对比。

图 5: 迷宫性能比较。MetODS 比 MAML 与 RL² 更高效地找到目标并累积更多奖励，验证了其卓越的记忆与探索能力。

在消融实验中，递归 Hebbian 更新的各个组成部分——递归深度、逐元素学习率和线性投影——均显著提升性能。更令人惊讶的是，同样的导航策略能够迁移到更大、未见过的迷宫中，体现出真正的空间泛化。

3. 泛化性: 鲁棒运动控制与任务迁移

最后，通过机器人操控和物理损伤实验来检验其泛化性。

Meta-World 基准测试评估了元强化学习算法在不同任务上的表现——如推物 (Push) 、抓取 (Reach) 及多任务学习 (ML10) 。
MetODS 在训练早期即取得更高成功率，并持续稳定提升。

图 6 展示了在 Meta-World 和受损机器人中的迁移与鲁棒性。

图 6: 左图 — 在 Reach-v2 与 Push-v2 等任务的元训练成功曲线中，MetODS (蓝色) 领先其他方法。右图 — 当机器人的一条腿被禁用时，MetODS 保留了更高的原始性能，体现出强大的鲁棒适应能力。

在机器人损伤测试中，研究者先训练机器人正常运动行为，随后禁用其中一个马达——这一情况在训练期间从未出现。MetODS 能迅速重新平衡策略，恢复有效运动，并保留较高奖励，明显优于 MAML 与 RL²。其动态突触机制赋予了真实的抗干扰与自适应能力。

讨论: 迈向能够学习如何学习的网络

MetODS 证明了人工智能体不仅能够元学习行为，还可以元学习自身的学习动态。通过将适应性编码在依赖经验与网络状态的动态突触中，MetODS 在交互过程中实现持续优化。

这个系统融合了理论的优雅与生物学的合理性:

展示了快速、局部的可塑性能够产生涌现的高级智能行为；
桥接了强化学习与联想记忆理论，类似于能根据奖励编辑和检索记忆的现代霍普菲尔德网络；
在离散与连续控制任务中均能泛化，无需更改网络结构。

核心洞见极为深刻:** 优化本身可以被学习。** 网络能够自主发现最能提升奖励的连接修改规则，从而实现自我演化。

展望未来

未来的研究或将扩展 MetODS 至多层架构，集成注意力机制或循环策略模块，或与先进的强化学习优化器结合。这些方向将进一步增强其自适应能力。

更广泛而言，自修改网络的理念为真正实现终身学习系统铺平道路——这些智能体能持续演化，存储、重组与复用经验，以应对无限多样的挑战。

设想一下，机器人能在受损后立即自行校准，或人工智能助手可以无缝适应新的用户偏好而无需重新训练。这一愿景已不再遥远——其基础正在当下逐渐形成。

MetODS 提醒我们，真正的智能或许并非源自更多的数据或更大的模型，而是源自那些让系统能够持续自我变革的机制。通过教会网络重写自己的规则，我们正在迈向定义生命智能的适应性——也可能是未来人工智能的关键特征。

元强化学习: 将任务映射到最优策略#

MetODS 架构: 一个能自我重写的网络#

读写操作: 突触计算的基础#

递归自修改#

实验评估: 效率、容量与泛化性#

1. 效率: 单次学习与快速运动适应#

2. 容量: 迷宫导航中的记忆与推理#

3. 泛化性: 鲁棒运动控制与任务迁移#

讨论: 迈向能够学习如何学习的网络#

展望未来#