在过去十年中,深度学习在一种“蛮力”理念下蓬勃发展: 构建一个庞大且固定的网络,并为其提供海量数据集。这种方法取得了显著成果——计算机如今能够看、说,甚至进行创造性生成。然而,这种成功也带来了两个严重问题: 低效和健忘 。 多数 AI 模型的参数远超所需,而当被要求学习新任务时,它们常常会忘记之前所学的一切——这就是所谓的灾难性遗忘。
若我们不再训练静态架构,而是让 AI 模型能够成长——仅在必要时添加新的连接,就像树木为适应环境而长出新枝那样,会是什么效果?如果这样的模型能够在学习新技能时保持旧知识,实现持续、终身的学习,又将如何?
EPFL 人工智能实验室的研究人员最近发表的论文正是提出了这一理念。论文介绍了 DIRAD——一种有目的地增长网络的方法,以及 PREVAL——一个利用这种定向生长实现持续学习的框架,且无需外部提示任务变化。
让我们来解析其原理。
静态的弊端
现代神经网络通过对数据批次中的误差进行平均,并通过反向传播调整权重实现自适应。当批次样本在统计上高度一致时,这种微调工作良好。但现实世界的数据远不如此整齐。
信号冲突的难题
以经典的异或 (XOR) 问题为例。在不同样本下,同一条边可能收到互相矛盾的梯度信号——一个推动其权重增加,另一个则推动其权重减少。跨整个数据集,这些信号相互抵消,使净梯度为零。尽管单个样本都要求调整,这条连接却无法更新。这就是作者所谓的统计冲突 。 当出现这种冲突时,适应过程停止,系统陷入僵局,无法改进。
传统深度网络的应对方式是增加大量参数,以期冗余通路能规避冲突。此举导致网络极度庞大,计算代价高昂,却仍在顺序学习中受限。
遗忘的加剧
当固定网络按序学习新任务时,其已有权重被覆盖,旧任务性能骤降。这种“灾难性遗忘”——或作者称之为破坏性自适应——阻碍了持续学习。对需在开放环境运行的系统而言,这是致命障碍。
DIRAD: 有目的的网络生长
作者提出了 DIRAD (Directed Adaptation,定向自适应) ——一种从极简结构开始,仅在必要时才增长的网络演化方法。不同于随机进化式扩展,DIRAD 通过梯度及可学习信号来有方向地驱动结构变化。
其核心理念为自适应潜力 (Adaptive Potential, AP) ,用以衡量每个组件尚具备的适应能量。
- 即时 AP (Immediate AP) : 批次中节点或边的净梯度。若接近零,则表示适应停滞——网络遇到统计冲突。
- 总 AP (Total AP) : 各样本梯度绝对值的总和。若该值很高,即便平均梯度为零,样本仍要求显著改变。
当即时 AP 耗尽而总 AP 仍高时,网络处于一种“停滞但渴望改变”的状态,此时 DIRAD 会创建新组件并触发两类生成过程 (Generative Processes, GPs) 。
生成过程 1: 边生成
若节点的即时 AP 耗尽但总 AP 很高,说明当前输入无助于其适应。DIRAD 会寻找一个激活最符合所需变化方向的节点——意即“谁能最有效帮助我?”——并形成新的入边。新边初始权重为零,确保中性 (新增结构不会立即影响输出) ,之后通过梯度更新逐步激活。
生成过程 2: 边-节点转换 (ENC)
当某条边陷入统计冲突 (即时 AP 为零但总 AP 仍高) 时,单纯调整权重已无效。此时 DIRAD 执行边-节点转换 (Edge–Node Conversion, ENC) : 将问题边 (i → j) 替换为一个微型模块——新节点 k,连接为 (i → k → j)。节点 k 起调制作用: 利用两个内部项的乘法交互来转换路径信号。

图 1: 带符号 XOR 问题的简化自适应路径。DIRAD 动态引入边和节点以解决统计冲突。
让我们逐步梳理 XOR 示例:
- 初始状态 (a): 输出节点
y需在不同样本间调整响应,但无输入——即时 AP 已耗尽,总 AP 不为零。 - 边生成 (b): 节点
y从x1引入新入边。梯度发生冲突,形成局部最优,适应受阻。 - 边-节点转换 (c): 饱和边
(x1, y)转为(x1, h, y),被困的梯度传递至节点h的误差信号,使原边级对立化为节点级多样性。 - 调制 (d): 节点
h寻找新的输入以化解冲突。它发现x0的误差方向完美匹配,遂添加边(x0 → h),通过调制机制自适应地翻转梯度符号。 - 稳定 (e): 梯度重新对齐,适应恢复,网络成功学会 XOR,仅使用真正所需结构。

方程: 调制节点的激活是两个信号项的乘积,使一路信号可调制另一条路径,从而化解冲突的梯度动态。
这种乘法机制是核心所在。它使原本对立的梯度得以协同,保证只要梯度向量与输入信号组合间存在任何相关性,自适应便能持续——此条件远弱于固定架构所需。
借助这些原理,DIRAD 构建的网络具有高自适应性、结构紧凑且无冲突,将生长从随机扩张变为定向结构演化。
PREVAL: 终身学习框架
当 DIRAD 实现了有目的的网络生长,下一步挑战便是持续学习 。 系统如何识别新事物并在不破坏已有知识的情况下学习它?
答案是 PREVAL (Prediction Validation,预测验证) ,它将 DIRAD 生长的模型与分层自预测机制结合。
L0 与 L1 网络
每项任务包括两个网络:
- L0 网络: 主任务网络,经 DIRAD 自适应与稳定,性能达标。
- L1 网络: 后续建立的次级网络,用以预测 L0 中各节点的激活。L1 使用 L0 的高层输出作为输入,学习预测低层节点的动态。
此机制形成预测层级: 模型不仅学会执行任务,还学会预期自身内部行为。
新数据检测
当新数据进入,PREVAL 通过已稳定模型处理:
- 若 L1 的预测与 L0 的实际激活吻合,数据符合已有知识——模型被验证通过 。
- 若偏差超过阈值,模型被验证失败——意味着出现了新任务。

图 2: PREVAL 的适应与部署流程。训练阶段,批次数据验证或否定模型;新任务触发新模型创建。测试阶段,各样本由最匹配的模型处理。
PREVAL 维护一个动态模型集合,每个模型对应一个已学任务:
- 自适应阶段: 每个输入批次,系统检查所有现有模型。
- 若某模型验证通过,则继续学习。
- 若无模型通过,PREVAL 判定为新任务,并利用 DIRAD 生成新的 L0/L1 对。
- 部署阶段: 推理时,样本依次测试各模型,由预测冲突最小者负责处理。
这一机制自然实现持续学习: 无需任务标签,也无需手动重置。各模型保留自身知识,新任务仅生成新模型,从而消除了破坏性自适应。
实验: 在 MNIST 上的学习与成长
为评估性能,作者在持续版 MNIST 数字数据集上进行实验。每项任务包括对两位数字分类 (例如任务 1: 1 vs. 7;任务 2: 3 vs. 8;任务 3: 0 vs. 9) 。任务稳定后引入新数字,系统自适应扩展模型。
DIRAD 的效率
DIRAD 能快速学会每项任务,并构建极为紧凑的网络。

图 3: 单个数字对分类任务的错误率与复杂度变化。在解决任务 1 后,L1 网络开始预测训练,结构复杂度上升。
平均而言,DIRAD 仅用不足 20 个隐藏节点和少于 50 条边即可解决双数字分类任务;而同类的全连接网络通常需超过 3000 条边。这意味着通过定向结构增长实现了百倍复杂度降低 , 不依赖过参数化。
PREVAL 的持续学习表现
接着,研究人员测量了回溯预测准确率: 在学习三项任务后,系统能否仍正确分类此前的所有数字?

表 1: 多次运行的平均测试准确率。括号内值剔除了未能检测新任务的情况。即使任务累积,准确率仍保持高水平。
学习一个任务后,平均准确率约 90% 。 学习三个任务 (共六类) 后,最佳设置仍保持超过 70% 的准确率——显著高于随机猜测 (约 17%) 或只记最近任务 (约 33%) 。

表 2: 新任务引入前后准确率比率。接近 1 表示强知识保持能力。
跨任务的性能保持率常超过 85–90% , 说明系统在学习新任务后仍保留大部分已学能力。能成功检测全部新任务的运行表现尤佳,显示验证机制的稳健性。
重要意义
传统网络将学习视为一次性优化——调整权重直至损失收敛。DIRAD 与 PREVAL 则将学习重新定义为一个终身性的结构过程。
- DIRAD 通过仅在梯度需求时扩展网络拓扑,实现冲突下的自适应能力。
- PREVAL 构建对内部状态的高级自预测模型,使系统具备新奇性检测与自主任务管理能力。
二者结合表明: 持续学习可在无监督、无任务标签、无暴力扩展的情况下自然涌现——这是迈向自进化 AI 系统的里程碑。
挑战与前路
尽管理念革新显著,实践中仍有局限:
- 计算开销: 搜索新边与节点增加训练复杂度。现有为固定矩阵运算优化的 GPU 体系难以高效处理动态拓扑。
- 任务可辨识性: 若新任务检测不清晰,PREVAL 性能会下降。提升新奇性识别仍是关键挑战。
- 硬件适配: 未来或需专为结构自适应设计的架构或加速器,正如 GPU 促成了深度学习的崛起。
尽管存在障碍,该框架指向新一代 AI——系统成长而非构建,适应而非调优,记忆而非遗忘 。
总结
这项 EPFL 的研究挑战了现代 AI 的静态基础,引入了能够:
- 通过引导机制进行结构演化;
- 自主检测并吸收新任务;
- 自然保留已有知识。
DIRAD 展示了自适应能力如何源自结构演化, PREVAL 说明自预测如何将成长转化为持续学习。
最终,这描绘出一种如生命般的 AI 愿景——能够不断变化与积累经验,实现永续学习。
](https://deep-paper.org/en/paper/2412.04190/images/cover.png)