永不止步：我们如何让大型语言模型保持最新

像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 功能极其强大，但它们有一个根本性的缺陷: 它们被困在时间里。它们在一个庞大、静态的互联网快照上进行训练，训练停止的那一刻，它们的知识就定格了。与此同时，世界在不断运转: 新的事实涌现，编程语言演变，社会价值观也在变化。每次有新变化就从零开始重新训练这些庞然大物，无论在计算上还是经济上都几乎不可能实现。

那么，我们该如何在不耗费巨资的情况下，让旧模型学会新技能，同时又不会忘记已经掌握的知识？答案就在于持续学习 (Continual Learning, CL)——这是人工智能的一个子领域，专注于让模型能够从连续的新信息流中按顺序学习。

然而，将持续学习应用于大型语言模型并非易事。它们庞大的规模和复杂、分阶段的训练过程要求我们采用全新的视角。最近的综述论文《大型语言模型的持续学习》首次对这一快速发展的研究领域进行了全面梳理。本篇博客将解析其中的关键见解，探讨持续学习如何让大型语言模型保持最新，并强调研究人员必须克服的挑战。

首先，了解一些背景知识

在深入新概念之前，了解大型语言模型的构建方式，以及“传统”持续学习的典型做法，会有所帮助。这样的基础能让两者结合更容易理解。

LLM 生命的三个阶段

绝大多数现代 LLM 通常经历 三个主要训练阶段 :

预训练 (Pre-training): 模型通过在海量文本语料库上进行自监督学习，掌握语言基础——语法、推理以及通用世界知识。它通过预测被掩盖的词或序列中的下一个词元，逐步建立对语言模式的深刻理解。
指令微调 (Instruction Tuning): 在预训练之后，模型虽然“懂语言”，但还不擅长遵循人类指令。指令微调通过在指令-输出对的数据集上进行微调，教会模型如何执行任务，例如总结、问答或编写代码。
对齐 (Alignment): 最后，模型需确保其输出符合人类期望与价值观。通过如基于人类反馈的强化学习 (RLHF) 等技术，人类评估者对模型响应打分，引导模型生成有益且无害的内容。

什么是持续学习？为什么它如此困难？

持续学习 (又称终身学习) 让模型能够顺序地从新任务或数据流中学习。最大障碍是灾难性遗忘 (catastrophic forgetting) : 当新训练覆盖旧知识时，模型在早期任务上的表现会急剧下降。

为解决这一问题，研究发展出了三大类方法:

经验回放 (Experience Replay): 将一部分快照的旧数据存入小型“记忆缓冲区”，并与新数据一起回放。
正则化方法 (Regularization Methods): 在损失函数中添加惩罚项，以防止对过去任务关键参数的剧烈修改。
动态架构 (Dynamic Architectures): 为新任务分配新的模型参数，同时冻结已有参数。

不仅仅是更新数据库

你可能会问: “不能直接用检索增强生成 (RAG) 或模型编辑来更新事实吗？”虽然这些方法很有效，但其目的不同。RAG 将 LLM 连接到外部知识源；模型编辑则用于精确修改特定事实。

持续学习更深层次。 它致力于提升模型的核心能力——语言理解、推理能力，以及对人类价值观的对齐——而非仅仅修补个别事实。

一张表格，比较了 RAG、模型编辑和持续学习可以更新的信息类型。持续学习涵盖了更广泛的更新范围，包括语言、任务、技能、价值观和偏好。

表1: 与 RAG 和模型编辑不同，持续学习不仅更新事实和领域知识，还更新技能、语言和人类价值对齐。

一个新框架: 三阶段持续学习

这篇综述的核心洞察是，大型语言模型的持续学习必须映射到其多阶段的训练流程。这不是小型模型 CL 的简单延伸，而是一个复杂得多的生态系统。

一张图表，比较了三种学习路径。传统的 CL 从随机模型到训练好的模型。针对较小预训练语言模型 (PLM) 的 CL 增加了一个预训练步骤。而针对 LLM 的 CL 则涉及一个四步过程: 随机初始化、预训练、指令微调和对齐。

图1: LLM 的持续学习遵循多阶段设计——随机初始化、预训练、指令微调和对齐——使得适应远比小型模型复杂。

该框架将 LLM 的持续学习分为三个相互关联的阶段:

持续预训练 (Continual Pre-training, CPT): 持续在新语料上训练，扩展通用知识并适应新领域。
持续指令微调 (Continual Instruction Tuning, CIT): 定期在新指令数据集上微调，使模型学习新任务与技能。
持续对齐 (Continual Alignment, CA): 持续调整以反映不断演变的人类价值、伦理规范和用户偏好。

这些阶段动态互联。模型可能先通过 CPT 学习医学文本，再通过 CIT 应答临床问题，最后用 CA 确保回答安全。

但这种迭代灵活性带来了跨阶段遗忘 (cross-stage forgetting) : 例如，模型在经过指令微调后再进行额外的预训练，可能会失去遵循命令的能力。

一张图表，展示了 LLM 学习的三个阶段 (预训练、指令微调、对齐) ，以及持续学习如何在阶段内部和阶段之间发生，并强调跨阶段遗忘的风险。

图2: 持续学习可在阶段内或跨阶段进行。跨阶段迭代虽强大，但可能抹去先前获得的能力。

为理清庞大的研究格局，作者将现有工作按阶段及更新信息类型映射为清晰的分类体系。

一个分类体系图，展示了 LLM 持续学习的分解，分为预训练、指令微调和对齐，并为每个类别提供进一步的子类。

图3: LLM 持续学习方法的高层分类体系，展示了研究如何涵盖预训练、指令微调和对齐。

阶段一: 持续预训练 (CPT) —— 保持知识新鲜

持续预训练专注于丰富模型的通用理解与专业知识。可以把它看作送 LLM 回“学校”，以赶上世界的最新发展。研究主要涉及三个方向:

更新事实 (Updating Facts): 不断从新闻或科学论文等动态源整合新知识。ERNIE 2.0 和持续知识学习 (continual knowledge learning) 等技术，使模型能高效更新事实数据并尽量减少遗忘。
更新领域 (Updating Domains): 利用领域增量或领域特定预训练，将通用 LLM 转化为领域专家。FinPythia、EcomGPT-CT 和可回收调优 (recyclable tuning) 展示了模型如何在保持广泛语言能力的同时实现专业化。
语言扩展 (Language Expansion): 拓展 LLM 所覆盖的语言范围，融入方言、俚语和文化差异。这也包括编程语言，通过持续代码学习 (continual code learning)，如 CodeTask-CL、CERT，模型可掌握新的库和编程模式。

阶段二: 持续指令微调 (CIT) —— 学习新技能

当 LLM 获得更新知识后, CIT 让它能通过任务指令应用这些知识。该阶段包含三种类型:

任务增量 CIT (Task-incremental CIT): 依次学习新任务，如先摘要再翻译，且不遗忘旧任务。策略包括经验回放缓冲区、正交参数更新 (O-LoRA) 及渐进式提示 (progressive prompts)，以平衡学习效率与防止遗忘。
领域增量 CIT (Domain-incremental CIT): 帮助模型掌握特定领域的新指令类型。ConPET 和 AdaptLLM 等方法在优化领域任务表现的同时保持了通用性。
工具增量 CIT (Tool-incremental CIT): 使 LLM 持续适应不断发展的外部工具，如计算器、数据库、搜索 API。ToolkenGPT 和 Llemma 将工具使用直接编码到词元中，促进持续技能学习。

一张表格，显示了在持续学习的各个阶段 (预训练、指令微调、对齐) 中，哪些类型的信息 (事实、领域、语言等) 被更新。

表2: 信息类型与持续学习阶段映射——事实与领域在预训练阶段演化，任务与工具在指令微调阶段演化，价值与偏好则在对齐阶段更新。

阶段三: 持续对齐 (CA) —— 与人类保持同步

持续对齐可能是最复杂的阶段，它确保模型持续与变化中的文化、伦理和个人价值保持一致。

持续价值对齐 (Continual Value Alignment): 更新伦理规则与文化规范以反映社会变迁，帮助模型消除过时偏见并保持安全。
持续偏好对齐 (Continual Preference Alignment): 调整模型以适应用户的多样化偏好，如简洁、创造力或语气，同时保证安全和有用性。CPPO 与持续 DPO (continual DPO) 等技术在反馈循环中平衡策略更新与知识保留。

我们如何衡量成功？——基准与评估

持续学习的进展需要严格的基准与指标，验证模型是否真正保留、迁移与扩展其知识。

各阶段基准

CPT 基准: TemporalWiki 使用连续的维基百科快照测试模型能否在保持旧事实的同时积累新知识。Firehose 与 CKL 将此扩展至网页与社交数据。
CIT 基准: CITB 与 ConTinTin 包含数百个指令跟随任务，涵盖多种自然语言处理类别，是检验多任务保留的理想选择。
CA 基准: 斯坦福人类偏好 (SHP) 与 有益与无害 (HH) 数据集用于评估模型对变化用户价值的适应。该领域仍缺乏标准化的持续对齐基准，这是一大机遇。

核心评估指标

用于任务序列学习评估:

平均性能 (Average Performance): \[ ACC = \frac{1}{T}\sum_{i=1}^{T}A_{T,i} \] 衡量完成所有任务后的整体表现。
前向迁移 (Forward Transfer, FWT): \[ FWT = \frac{1}{T-1}\sum_{i=2}^{T-1}(A_{T,i}-\tilde{b}_i) \] 衡量前期学习对后续任务提升的程度。
后向迁移 (Backward Transfer, BWT): \[ BWT = \frac{1}{T-1}\sum_{i=1}^{T-1}(A_{T,i}-A_{i,i}) \] 量化遗忘程度——负值越大，知识流失越严重。

用于衡量 LLM 特有的跨阶段遗忘 , 新指标如下:

通用能力变化量 (General Ability Delta, GAD): \[ GAD = \frac{1}{T}\sum_{i=1}^{T}(R_{t,i}^G - R_{0,i}^G) \] 捕捉经过后续微调后通用知识的退化情况。
指令遵循能力变化量 (Instruction Following Delta, IFD): \[ IFD = \frac{1}{T}\sum_{i=1}^{T}(R_{t,i}^I - R_{0,i}^I) \] 追踪持续更新后指令执行能力的变化。
安全性变化量 (Safety Delta, SD): \[ SD = \frac{1}{T}\sum_{i=1}^{T}(R_{t,i}^S - R_{0,i}^S) \] 评估后续训练中模型安全性是否保持稳定。

这些指标共同提供全局视角，评估 LLM 在保持基础能力与伦理一致性的前提下能否持续演进。

前路展望: 挑战与未来方向

LLM 持续学习仍处在早期阶段，但存在数个亟待攻克且前景广阔的研究方向:

计算效率 (Computation Efficiency): 设计轻量且能耗低的算法，使持续训练在超大规模 LLM 上可行。
社会公益 (Social Good): 确保模型在持续处理敏感数据时仍维护隐私与伦理安全。
自动化 (Automation): 构建能自主规划、学习并适应的自驱型 LLM 系统。
可控遗忘 (Controllable Forgetting): 建立可选择性遗忘过时或有害信息的机制。
理论发展 (Theory Development): 深入理解多阶段训练如何影响模型的持续学习能力与长期稳定性。

结论

大型语言模型重塑了人类与信息的互动方式——但要持续发挥作用，它们必须不断学习。持续学习为实现终身人工智能系统铺平道路——这些系统能吸收新知识、掌握新工具，并始终与人类价值观保持一致。

综述论文《大型语言模型的持续学习》首次全面描绘了这一前沿领域。通过围绕 LLM 的三大阶段——预训练、指令微调与对齐——构建研究框架，它揭示挑战所在及潜在解法。

随着持续学习的成熟，我们正迈向这样的大型语言模型: 它们不再是静态的百科全书，而是动态的伙伴——永远学习、永远进化，并与人类共同成长。

首先，了解一些背景知识#

LLM 生命的三个阶段#

什么是持续学习？为什么它如此困难？#

不仅仅是更新数据库#

一个新框架: 三阶段持续学习#

阶段一: 持续预训练 (CPT) —— 保持知识新鲜#

阶段二: 持续指令微调 (CIT) —— 学习新技能#

阶段三: 持续对齐 (CA) —— 与人类保持同步#

我们如何衡量成功？——基准与评估#

各阶段基准#

核心评估指标#

前路展望: 挑战与未来方向#

结论#