人脑是适应性的杰作。从学习一门新语言到掌握一种乐器,人类可以在一生中不断获得复杂的技能。这种被称为“终身学习”的卓越能力,与大多数人工神经网络的工作方式形成鲜明对比。通常,一个人工智能模型在大型数据集上只训练一次,然后其连接 (即突触权重) 就被固定下来并用于部署。如果希望它学习新的内容,往往需要重新训练整个系统——这个过程既缓慢又昂贵,而且容易出现灾难性遗忘——丢失先前学到的知识。
那么,大脑的秘密是什么?关键在于突触可塑性: 神经元之间的连接能够根据经验增强或减弱。这种动态调整构成了学习和记忆的生物学基础。但大脑并不会盲目地强化所有活跃的连接——它有机制来决定在哪些地方以及何时修改这些连接。这种控制由被称为神经调质的化学物质精确调节,其中最著名的例子是多巴胺,它与奖励和动机密切相关。
大脑能够控制自身可塑性,这是一种元学习——学习如何学习。多年来,研究人员一直努力在人工网络中实现这种能力。虽然用进化算法训练的小型网络展示了潜力,但以梯度下降为核心的现代深度学习在处理这类动态自修改方面一直存在困难。
直到现在。
在 Uber AI 实验室的一篇里程碑论文 《BACKPROPAMINE: 使用可微分神经调控可塑性训练自修改神经网络》 中,作者提出了一个框架,将神经调控可塑性纳入可微分训练的体系。该方法被命名为 Backpropamine,巧妙地融合了*反向传播 (backpropagation) 与多巴胺 *(dopamine) 。这种新方法使神经网络能够学习如何控制自己的连接,从而在强化学习以及诸如语言建模等复杂监督任务上取得显著的性能提升。
背景: 让可塑性变得可微分
在网络能够控制自身学习之前,首先需要一种与梯度下降兼容的可塑性形式。Backpropamine 建立在 Miconi 等人提出的**可微分赫布可塑性 **(differentiable Hebbian plasticity) 概念之上。
赫布学习可以用著名的格言“共同激活的神经元会连接在一起”来概括,解释了神经元共同激活时突触如何增强。可微分可塑性框架则将这种思想改编为深度学习中的可微分操作。
在标准神经网络中,神经元 \( j \) 的输出取决于所有输入 \( i \) 的加权和,每个输入都乘以固定权重 \( w_{i,j} \)。在一个可微分可塑性网络中,每个连接包含两个部分: 一个固定权重 \( w_{i,j} \) 和一个可塑权重 \( \alpha_{i,j} \mathrm{Hebb}_{i,j} \)。
图: 定义可微分赫布可塑性的核心方程。
让我们来解析这个机制:
- \( x_j(t) \) – 神经元 \( j \) 在时间 \( t \) 的活动,取决于由固定和可塑性部分共同缩放的输入。
- \( w_{i,j} \) – 在不同回合 (episode) 之间通过反向传播缓慢学习的固定权重。
- \( \mathrm{Hebb}_{i,j}(t) \) – 赫布痕迹,存储神经元 \( i \) 与 \( j \) 之间相关激活的短期记忆。
- \( \alpha_{i,j} \) – 可训练的可塑性系数,控制赫布痕迹的影响程度。
- \( \eta \) – 生命周期内学习率,决定赫布痕迹累积的速度。
这些组件共同形成了一个双速学习系统。跨越多个回合,梯度下降调整结构参数 (\( w_{i,j} \)、\( \alpha_{i,j} \)、\( \eta \)) ;在单个回合中,赫布更新使网络能快速适应新信息。这种设计优雅地模拟了缓慢的结构学习和快速的经验学习。不过,到目前为止,这种可塑性仍然是被动的——它只是根据神经活动自动触发。
下一步,就是让可塑性变得主动,使网络能够决定何时学习。
核心创新: Backpropamine 与神经调控
Backpropamine 引入了一个神经调控信号 \( M(t) \),由网络在每个时间步计算。这个信号控制可塑性的展开过程。论文提出两种控制机制:** 简单神经调控与追溯性神经调控**。
1. 简单神经调控
在最简单的形式中,神经调控信号直接控制可塑性变化速率。网络不再使用固定学习率 \( \eta \),而是通过 \( M(t) \) 动态调整学习强度。
图: 在简单神经调控中,赫布更新速率由内部生成的 \( M(t) \) 决定。
这种机制使网络的可塑性具备情境依赖性。当重要事件发生时 (比如奖励信号激增) ,它可以提高 \( M(t) \) 来促进学习;在稳定或无关时期,它可以降低 \( M(t) \),以保留已有知识。简单神经调控为网络提供了一个动态的“学习强度调节器”,它可以自行开关。
2. 追溯性神经调控与资格迹
生物系统中还有更复杂的机制。在大脑里,多巴胺并不总是即时起效——它可以追溯地“批准”或“拒绝”近期活动引发的突触变化。这种机制由*资格迹 *(eligibility traces) 实现。
资格迹记录神经元间的瞬时相关性。当多巴胺脉冲到达时,它将这些痕迹转化为永久的突触更新。Backpropamine 框架通过两个耦合方程模拟这一过程:
图: 追溯性神经调控允许突触保留短期活动记忆,仅在类似奖励的信号门控时应用可塑性变化。
简单来说,网络保留潜在更新的“草图” (\( E_{i,j} \)) ,只有当 \( M(t) \) 发出学习信号时,才将这些草图永久化。这种时间分离与生物强化学习过程类似,使模型能够将行为与延迟奖励关联。
实验: 检验 Backpropamine
研究人员在三个递增难度的任务中测试了 Backpropamine: 线索–奖励关联、迷宫导航以及大规模语言建模。
任务 1: 线索–奖励关联
此强化学习实验模拟动物的条件反射。在每个回合中,四个输入线索中随机选一个作为“奖励线索”。智能体在看到线索对后需判断奖励线索是否出现。
图 1: 线索–奖励关联任务及结果。神经调控网络迅速学会正确的关联;非调控网络表现不如随机猜测。
非可塑性网络和仅被动可塑性网络表现不佳,而采用简单或追溯性神经调控的模型能够快速识别奖励线索并获得高回报。这说明主动控制可塑性能够有效地适应复杂高维刺激。
任务 2: 迷宫导航
接着是更具挑战性的空间探索任务。智能体需在一个 9×9 的迷宫中找到一个不可见的奖励。每个回合的奖励位置固定,但回合间随机变换,迫使智能体持续适应。
图 2: 迷宫导航任务。简单和追溯性神经调控均显著优于非调控的可塑性模型。
所有可塑性网络最终都能学习环境,但神经调控版本获得了更高且更稳定的奖励。即便中等程度调控也能提高探索效率,表明 Backpropamine 能很好地扩展到更复杂的动态任务。
任务 3: 语言建模
最后,研究人员在经典的监督任务中测试了 Backpropamine: 使用宾夕法尼亚树库 (PTB) 数据集进行下一词预测——这是语言模型的标杆测试。他们比较了四种 LSTM 变体:
- 基线模型 (标准 LSTM)
- 带可微分可塑性的 LSTM
- 带简单神经调控的 LSTM
- 带追溯性神经调控的 LSTM
为保证公平,所有模型的参数数量相同。
表 1: PTB 测试困惑度结果。值越低越好。神经调控 LSTM 的性能始终优于基线模型和仅可塑性模型。
结果非常明确:
- 添加可微分可塑性略微改善了测试困惑度;
- 引入神经调控带来了额外且显著的提升;
- 追溯性调控 (带资格迹) 取得了最佳结果;
- 即使是拥有 2400 万参数的大模型也表现出改进,证明了 Backpropamine 的可扩展性。
这一结果意义重大——在像 LSTM 这样的核心结构上提升性能,意味着该方法对于翻译、摘要和聊天系统等自然语言任务具有现实应用潜力。
网络的调控器究竟在做什么?
为了理解神经调控器 \( M(t) \) 的行为,研究人员绘制了它在成功的线索–奖励训练回合中的数值变化。
图 3: 学习到的神经调控动态。不同网络展现出独特的响应模式——有些在奖励后增强调控,有些则抑制或呈双相变化。
这些模式令人惊叹。部分智能体在奖励后提升调控,另一些则相反或呈多阶段反应。这些个体化策略表明,Backpropamine 并未预设固定的学习规则,而是通过梯度下降自主发现适合任务的学习策略。每个网络都形成了针对任务优化的内部元学习算法。
结论: 迈向自修改智能
Backpropamine 代表了向能够自我调节学习的神经网络迈出的大胆一步。它将神经调控的生物学原理与现代深度学习的可微特性相结合,使大型网络架构能够学习何时以及如何重塑自身。
本研究的关键洞见:
- 可微分的自修改: 网络能够通过梯度优化主动控制自身可塑性。
- 性能提升: 主动可塑性在强化学习和成熟模型 (如 LSTM) 中均显著提高性能。
- 元元学习: 该方法体现更深层的学习层级——梯度下降设计出一个能设计自身学习规则的系统,类似进化如何塑造大脑的奖励调控机制。
展望未来,Backpropamine 启示出多项有趣方向:
- 引入具有不同功能的多种神经调控信号;
- 用此机制缓解灾难性遗忘;
- 通过元训练进化的不仅是参数,还包括神经调控系统的结构。
人工智能的未来可能不仅取决于规模,还取决于适应性。Backpropamine 预示着一个新的时代——神经网络如同生物大脑,可以学习如何学习,从而开启更灵活、更强韧的智能形态。