超越固定架构：AI 模型如何通过成长实现终身学习

在过去十年中，深度学习在一种“蛮力”理念下蓬勃发展: 构建一个庞大且固定的网络，并为其提供海量数据集。这种方法取得了显著成果——计算机如今能够看、说，甚至进行创造性生成。然而，这种成功也带来了两个严重问题: 低效和健忘。多数 AI 模型的参数远超所需，而当被要求学习新任务时，它们常常会忘记之前所学的一切——这就是所谓的灾难性遗忘。

若我们不再训练静态架构，而是让 AI 模型能够成长——仅在必要时添加新的连接，就像树木为适应环境而长出新枝那样，会是什么效果？如果这样的模型能够在学习新技能时保持旧知识，实现持续、终身的学习，又将如何？

EPFL 人工智能实验室的研究人员最近发表的论文正是提出了这一理念。论文介绍了 DIRAD——一种有目的地增长网络的方法，以及 PREVAL——一个利用这种定向生长实现持续学习的框架，且无需外部提示任务变化。

让我们来解析其原理。

静态的弊端

现代神经网络通过对数据批次中的误差进行平均，并通过反向传播调整权重实现自适应。当批次样本在统计上高度一致时，这种微调工作良好。但现实世界的数据远不如此整齐。

信号冲突的难题

以经典的异或 (XOR) 问题为例。在不同样本下，同一条边可能收到互相矛盾的梯度信号——一个推动其权重增加，另一个则推动其权重减少。跨整个数据集，这些信号相互抵消，使净梯度为零。尽管单个样本都要求调整，这条连接却无法更新。这就是作者所谓的统计冲突 。当出现这种冲突时，适应过程停止，系统陷入僵局，无法改进。

传统深度网络的应对方式是增加大量参数，以期冗余通路能规避冲突。此举导致网络极度庞大，计算代价高昂，却仍在顺序学习中受限。

遗忘的加剧

当固定网络按序学习新任务时，其已有权重被覆盖，旧任务性能骤降。这种“灾难性遗忘”——或作者称之为破坏性自适应——阻碍了持续学习。对需在开放环境运行的系统而言，这是致命障碍。

DIRAD: 有目的的网络生长

作者提出了 DIRAD (Directed Adaptation，定向自适应) ——一种从极简结构开始，仅在必要时才增长的网络演化方法。不同于随机进化式扩展，DIRAD 通过梯度及可学习信号来有方向地驱动结构变化。

其核心理念为自适应潜力 (Adaptive Potential, AP) ，用以衡量每个组件尚具备的适应能量。

即时 AP (Immediate AP) : 批次中节点或边的净梯度。若接近零，则表示适应停滞——网络遇到统计冲突。
总 AP (Total AP) : 各样本梯度绝对值的总和。若该值很高，即便平均梯度为零，样本仍要求显著改变。

当即时 AP 耗尽而总 AP 仍高时，网络处于一种“停滞但渴望改变”的状态，此时 DIRAD 会创建新组件并触发两类生成过程 (Generative Processes, GPs) 。

生成过程 1: 边生成

若节点的即时 AP 耗尽但总 AP 很高，说明当前输入无助于其适应。DIRAD 会寻找一个激活最符合所需变化方向的节点——意即“谁能最有效帮助我？”——并形成新的入边。新边初始权重为零，确保中性 (新增结构不会立即影响输出) ，之后通过梯度更新逐步激活。

生成过程 2: 边-节点转换 (ENC)

当某条边陷入统计冲突 (即时 AP 为零但总 AP 仍高) 时，单纯调整权重已无效。此时 DIRAD 执行边-节点转换 (Edge–Node Conversion, ENC) : 将问题边 (i → j) 替换为一个微型模块——新节点 k，连接为 (i → k → j)。节点 k 起调制作用: 利用两个内部项的乘法交互来转换路径信号。

一张五部分图示，展示了使用 DIRAD 解决 XOR 问题的网络生长分步过程。

图 1: 带符号 XOR 问题的简化自适应路径。DIRAD 动态引入边和节点以解决统计冲突。

让我们逐步梳理 XOR 示例:

初始状态 (a): 输出节点 y 需在不同样本间调整响应，但无输入——即时 AP 已耗尽，总 AP 不为零。
边生成 (b): 节点 y 从 x1 引入新入边。梯度发生冲突，形成局部最优，适应受阻。
边-节点转换 (c): 饱和边 (x1, y) 转为 (x1, h, y)，被困的梯度传递至节点 h 的误差信号，使原边级对立化为节点级多样性。
调制 (d): 节点 h 寻找新的输入以化解冲突。它发现 x0 的误差方向完美匹配，遂添加边 (x0 → h)，通过调制机制自适应地翻转梯度符号。
稳定 (e): 梯度重新对齐，适应恢复，网络成功学会 XOR，仅使用真正所需结构。

调制节点激活函数方程。

方程: 调制节点的激活是两个信号项的乘积，使一路信号可调制另一条路径，从而化解冲突的梯度动态。

这种乘法机制是核心所在。它使原本对立的梯度得以协同，保证只要梯度向量与输入信号组合间存在任何相关性，自适应便能持续——此条件远弱于固定架构所需。

借助这些原理，DIRAD 构建的网络具有高自适应性、结构紧凑且无冲突，将生长从随机扩张变为定向结构演化。

PREVAL: 终身学习框架

当 DIRAD 实现了有目的的网络生长，下一步挑战便是持续学习 。系统如何识别新事物并在不破坏已有知识的情况下学习它？

答案是 PREVAL (Prediction Validation，预测验证) ，它将 DIRAD 生长的模型与分层自预测机制结合。

L0 与 L1 网络

每项任务包括两个网络:

L0 网络: 主任务网络，经 DIRAD 自适应与稳定，性能达标。
L1 网络: 后续建立的次级网络，用以预测 L0 中各节点的激活。L1 使用 L0 的高层输出作为输入，学习预测低层节点的动态。

此机制形成预测层级: 模型不仅学会执行任务，还学会预期自身内部行为。

新数据检测

当新数据进入，PREVAL 通过已稳定模型处理:

若 L1 的预测与 L0 的实际激活吻合，数据符合已有知识——模型被验证通过 。
若偏差超过阈值，模型被验证失败——意味着出现了新任务。

一张图示，说明了 PREVAL 的自适应和部署工作流程。

图 2: PREVAL 的适应与部署流程。训练阶段，批次数据验证或否定模型；新任务触发新模型创建。测试阶段，各样本由最匹配的模型处理。

PREVAL 维护一个动态模型集合，每个模型对应一个已学任务:

自适应阶段: 每个输入批次，系统检查所有现有模型。

若某模型验证通过，则继续学习。
若无模型通过，PREVAL 判定为新任务，并利用 DIRAD 生成新的 L0/L1 对。

部署阶段: 推理时，样本依次测试各模型，由预测冲突最小者负责处理。

这一机制自然实现持续学习: 无需任务标签，也无需手动重置。各模型保留自身知识，新任务仅生成新模型，从而消除了破坏性自适应。

实验: 在 MNIST 上的学习与成长

为评估性能，作者在持续版 MNIST 数字数据集上进行实验。每项任务包括对两位数字分类 (例如任务 1: 1 vs. 7；任务 2: 3 vs. 8；任务 3: 0 vs. 9) 。任务稳定后引入新数字，系统自适应扩展模型。

DIRAD 的效率

DIRAD 能快速学会每项任务，并构建极为紧凑的网络。

一张图表，展示了单任务自适应过程中的错误率和网络复杂度 (节点和边的数量) 。

图 3: 单个数字对分类任务的错误率与复杂度变化。在解决任务 1 后，L1 网络开始预测训练，结构复杂度上升。

平均而言，DIRAD 仅用不足 20 个隐藏节点和少于 50 条边即可解决双数字分类任务；而同类的全连接网络通常需超过 3000 条边。这意味着通过定向结构增长实现了百倍复杂度降低 , 不依赖过参数化。

PREVAL 的持续学习表现

接着，研究人员测量了回溯预测准确率: 在学习三项任务后，系统能否仍正确分类此前的所有数字？

表格展示了 PREVAL 在学习 1、2、3 个任务后的平均测试准确率。

表 1: 多次运行的平均测试准确率。括号内值剔除了未能检测新任务的情况。即使任务累积，准确率仍保持高水平。

学习一个任务后，平均准确率约 90% 。学习三个任务 (共六类) 后，最佳设置仍保持超过 70% 的准确率——显著高于随机猜测 (约 17%) 或只记最近任务 (约 33%) 。

表格展示了引入新任务前后任务准确率的比率，用于衡量性能保持情况。

表 2: 新任务引入前后准确率比率。接近 1 表示强知识保持能力。

跨任务的性能保持率常超过 85–90% , 说明系统在学习新任务后仍保留大部分已学能力。能成功检测全部新任务的运行表现尤佳，显示验证机制的稳健性。

重要意义

传统网络将学习视为一次性优化——调整权重直至损失收敛。DIRAD 与 PREVAL 则将学习重新定义为一个终身性的结构过程。

DIRAD 通过仅在梯度需求时扩展网络拓扑，实现冲突下的自适应能力。
PREVAL 构建对内部状态的高级自预测模型，使系统具备新奇性检测与自主任务管理能力。

二者结合表明: 持续学习可在无监督、无任务标签、无暴力扩展的情况下自然涌现——这是迈向自进化 AI 系统的里程碑。

挑战与前路

尽管理念革新显著，实践中仍有局限:

计算开销: 搜索新边与节点增加训练复杂度。现有为固定矩阵运算优化的 GPU 体系难以高效处理动态拓扑。
任务可辨识性: 若新任务检测不清晰，PREVAL 性能会下降。提升新奇性识别仍是关键挑战。
硬件适配: 未来或需专为结构自适应设计的架构或加速器，正如 GPU 促成了深度学习的崛起。

尽管存在障碍，该框架指向新一代 AI——系统成长而非构建，适应而非调优，记忆而非遗忘 。

总结

这项 EPFL 的研究挑战了现代 AI 的静态基础，引入了能够:

通过引导机制进行结构演化；
自主检测并吸收新任务；
自然保留已有知识。

DIRAD 展示了自适应能力如何源自结构演化, PREVAL 说明自预测如何将成长转化为持续学习。

最终，这描绘出一种如生命般的 AI 愿景——能够不断变化与积累经验，实现永续学习。

静态的弊端#

信号冲突的难题#

遗忘的加剧#

DIRAD: 有目的的网络生长#

生成过程 1: 边生成#

生成过程 2: 边-节点转换 (ENC)#

PREVAL: 终身学习框架#

L0 与 L1 网络#

新数据检测#

实验: 在 MNIST 上的学习与成长#

DIRAD 的效率#

PREVAL 的持续学习表现#

重要意义#

挑战与前路#

总结#