引言: 人工智能领域的静态巨人
诸如 GPT‑4、Llama 4 和 Gemini 等基础模型,已经彻底改变了人工智能的能力范畴。它们能写诗、生成复杂代码、回答复杂问题,甚至合成逼真的图像。这些都是划时代的成就,然而,这些系统中的每一个都存在一个近乎悖论的缺陷——它们的知识被冻结在时间里 。
一个基础模型就像是在其训练数据收集完毕那一刻记录下的世界快照。一旦训练和部署完成,它就停止了学习。它无法经历截止日期之后的新事件、新趋势或新事实。一个在 2023 年训练的模型对 2024 年的事情一无所知。世界在不断变化,而我们最强大的人工智能系统却保持静止。
从头开始重新训练这些庞大的模型已不再可行。训练一个前沿级模型的成本如今高达数千万美元,消耗大量能源并造成巨大的碳排放。不断“重置”并不是一个可持续的解决方案。
人工智能的未来是否注定成为一连串不断过时的快照——规模越来越大却迅速陈旧? 最近的一篇研究论文《基础模型时代下持续学习的未来: 三大关键方向》给出了不同的答案。论文指出, 持续学习 (Continual Learning,CL) ——系统在不抹除先前知识的前提下增量学习的能力——并不是一个小众的研究领域,而是下一代人工智能的必要前提。
作者提出要实现这一愿景,需要三大关键支柱:
- 持续预训练 (CPT) —— 让基础模型持续与不断演变的数据保持同步;
- 持续微调 (CFT) —— 高效地实现专业化与个性化;
- 持续组合与编排 (CCO) —— 构建由协作型 AI 智能体组成的模块化生态系统。
本文将深入探讨这三个支柱、它们的重要性,以及它们如何帮助当今静态的模型演化为持续自我更新的智能系统。
背景: 永无止境学习的挑战
人类是持续学习的。每一次新体验都建立在已有知识之上,而不会抹去过去所学。神经网络却常常呈现相反倾向——这被称为灾难性遗忘 。 当一个训练于某任务的模型学习新任务时,新学习会覆盖旧知识。就像学会了国际象棋,却忘了如何玩跳棋。
持续学习研究旨在避免这种问题,平衡两种相互竞争的需求:
- 可塑性 —— 快速学习和适应新信息的能力。
- 稳定性 —— 保留已有知识不被覆盖或遗忘的能力。
这种张力被称为稳定性—可塑性困境 。
历史上,研究者提出了三种主要策略来应对这种权衡:
- 基于正则化的方法 : 约束权重更新,使已有知识不被覆盖。
- 动态架构 : 扩展或重组网络以容纳新任务,同时冻结旧组件。
- 基于记忆的方法 : 保存过去数据的代表样本,在训练时进行复习,提醒模型所掌握的知识。
这些方法主要为中小规模神经网络设计。而拥有数千亿参数的基础模型则是完全不同的挑战。它们在多样化的互联网级数据上一次性训练,成为强大的通才——但也因此脆弱并静止 , 容易过时,并在细粒度领域知识上出现平均化问题。应用持续学习的理念,能帮助它们保持适应性、高效性与可持续性。
终身人工智能的三大支柱
论文提出应将持续学习贯穿基础模型的整个生命周期。模型不再是一次性训练,而是通过三个互补的过程演化: 持续预训练 (CPT) 、持续微调 (CFT) 和持续组合与编排 (CCO) 。

图 1: 从持续预训练到微调再到动态编排。基础模型通过 CPT 保持最新,通过 CFT 进行专业化,在推理阶段由编排器在专家模块间路由查询,生成连贯的响应。
支柱 1 – 持续预训练 (CPT) : 巩固模型基础
目的: CPT 在基础模型初始预训练后,通过新的广谱数据流进行增量更新。它确保模型的世界理解与现实同步——是一种持续更新的知识“订阅”,而非一次性下载。
重要性
- 应对模型老化: 随着领域变化,静态模型逐渐失去准确性。CPT 动态整合新信息,使模型保持长期有效性。
- 提升资源效率: 对万亿参数模型进行完全重训的成本高昂且不环保。CPT 仅对新增或变化的部分数据进行更新,大幅节省计算与能源。
- 减少灾难性遗忘: 研究显示,自监督的持续更新 (如掩码预测) 比监督式方法更稳定,能够更好保留泛化能力。
- 选择性遗忘: CPT 还能移除过时或敏感知识——这一“机器遗忘”新领域可防止有害或不合时宜内容长期滞留。
挑战
- 模型漂移与稳定性缺口: 快速更新可能暂时降低性能,如何实现平稳过渡仍是难题。
- 伦理数据整合: 持续摄入未经筛选的网络数据可能放大偏见或错误信息,因此负责的数据管理与公平性审计至关重要。
- 计算平衡: 如何在保持模型稳定的同时实现高效的部分更新仍需策略。
支柱 2 – 持续微调 (CFT) : 为当前任务专精化
目的: CFT 让模型在通用知识之外进一步适应特定任务。部署后,模型会接触特定领域的数据——公司文档、用户交互、传感器日志等——这些数据有助于持续优化表现。CFT 使这种微调从“一次性操作”转变为“持续适配”。
重要性
- 个性化与专业化: 通过微调,模型能针对不同用户或行业进行定制,使输出更相关、更高效。
- 数据隐私: 组织可在本地对专属数据进行微调,无需暴露隐私信息。
- 快速响应漂移: 当数据分布变化时,持续微调可立即校准模型,无需等待耗时的预训练周期。
主要挑战
平衡特异性与泛化能力最为关键: 过度专注于某一领域可能削弱模型的通用能力。 同时,有限的高质量数据与隐私约束也使持续更新面临难度。
CFT 的新兴解决方案
参数高效微调 (PEFT) : PEFT 方法并非修改所有参数,而是仅更新少量权重或增加轻量模块。
一种突破性技术是 LoRA – 低秩自适应 , 其通过引入可训练的矩阵 \(A\) 和 \(B\) 来调整冻结的权重 \(W_0\):

图 2: 低秩自适应 (LoRA) 通过仅更新紧凑的矩阵 \(A\) 和 \(B\),实现对大型模型的高效微调。
更新这一小组件即可显著降低计算和内存成本,使增量微调在普通硬件上也可行。
模型合并: 多个专业专家模型——如代码、医学、金融领域——可使用 TIES‑MERGING 或 DARE 等算法进行参数合并,在整合能力的同时避免性能损失。
元学习: 元学习框架教模型如何学习——寻找能以最少数据快速适应并最小遗忘的最佳初始化。AutoLoRA、Meta‑LoRA 等方法通过加入元目标,使持续更新动态优化成为可能。
联邦与去中心化微调: 联邦学习允许跨组织协作地进行持续适应,且无需共享数据。FATE‑LLM 和 FedRewind 等框架能分布处理微调过程并安全聚合更新,为可扩展、合规的适配提供前景。
支柱 3 – 持续组合与编排 (CCO) : 构建动态 AI 生态系统
目的: CPT 与 CFT 强化了单一模型,而 CCO 则重新定义智能——它是由多个协作型智能体组成的网络,而不是一个单一系统。多个领域专家模型协同组合与协调,可实时解决复杂任务。
重要性
- 突破规模瓶颈: 单纯增大模型规模带来边际递减。协调多个更小、更专业的智能体可获得超越单体极限的高层推理能力。
- 模块化与可持续性: 独立的专家模块可独立更新或替换,无需重训整个系统,促进去中心化开发与共享创新。
- 高频自适应: 日常变化——法规、工具、数据源——要求模型即时调整。通过编排,AI 系统可在数秒内重构工作流程。
待克服的挑战
- 任务自动分解: 如何将复杂目标拆解为各专家可解决的子任务?
- 高效通信与角色分配: 智能体必须能可靠协同、协商与相互反馈。
- 错误传播: 某一智能体的失误可能会级联至整个系统,需要鲁棒的监控与纠正机制。
迈向解决方案
CCO 基于多智能体系统与混合专家架构的进展,融合记忆模块、基于角色的协作机制及长上下文窗口,支持持续推理。 LangGraph 与 AutoGen 等框架展示了早期编排模式,而近期研究则探索去中心化通信协议,使跨模态智能体——视觉、语音、代码与逻辑——能够安全、透明地协作。
结论: 从静态快照到活体系统
当今的基础模型令人惊叹,却依旧是惰性的。它们像百科全书而非学习者。持续学习是从静态到活性 AI的桥梁——让系统能够随时间、任务与用户不断演化。
三大支柱揭示了这一转型的层次:
- 持续预训练 (CPT) : 让大型模型与变化世界保持同步,降低老化风险。
- 持续微调 (CFT) : 实现高效、私密、个性化的特定领域适应。
- 持续组合与编排 (CCO) : 建立动态的生态系统,使多个专家智能体协同、适应与推理。
CPT 与 CFT 可能更多由拥有海量计算与数据资源的实验室执行。而 CCO 则为学术界与开源社区提供了肥沃的土壤——设计协议、协调策略与合作架构,构建真正去中心化、具韧性的 AI。
通过拥抱持续学习,我们可以让人工智能从冻结的庞然巨物,变为与人类共同进化的适应性集合体。 AI 的未来不必是静态、陈旧的快照序列,而应是一个不断学习的网络——一个智能、可持续、协作并与世界共同成长的系统。
](https://deep-paper.org/en/paper/2506.03320/images/cover.png)