Deep Paper

[Maintaining Plasticity in Deep Continual Learning 🔗](https://arxiv.org/abs/2306.13812)

深度学习的阿喀琉斯之踵：为什么神经网络会忘记如何学习

现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本，它们在经过海量数据集训练后，展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。 ...

深度强化学习智能体为何会忘记如何学习：可塑性丧失问题

深度强化学习 (RL) 已经取得了令人难以置信的成就——从精通高难度视频游戏、设计计算机芯片，到控制核聚变反应堆。这些成功通常涉及训练一个智能体来解决单一、固定的问题。一旦训练完成，智能体的策略就会被部署，并且很少再改变。 ...

[In-Context Learning can Perform Continual Learning Like Humans 🔗](https://arxiv.org/abs/2509.22764)

大语言模型能像我们一样持续学习吗？深入探讨情境持续学习

如果你曾尝试教一个神经网络新技巧，你可能遇到过一个令人沮丧的问题: 它常常会忘记旧的。这种现象被称为灾难性遗忘 , 是人工智能发展中的一个根本障碍。当模型学习任务 B 时，它在已掌握的任务 A 上的表现会急剧下滑——就像一个学生考前抱佛脚背历史，结果第二天把所有数学都忘了。 ...

[The Future of Continual Learning in the Era of Foundation Models: Three Key Directions 🔗](https://arxiv.org/abs/2506.03320)

基础模型困于往昔——持续学习能否使其与时俱进？

引言: 人工智能领域的静态巨人诸如 GPT‑4、Llama 4 和 Gemini 等基础模型，已经彻底改变了人工智能的能力范畴。它们能写诗、生成复杂代码、回答复杂问题，甚至合成逼真的图像。这些都是划时代的成就，然而，这些系统中的每一个都存在一个近乎悖论的缺陷——它们的知识被冻结在时间里。 ...

[ALLEVIATING CATASTROPHIC FORGETTING USING CONTEXT-DEPENDENT GATING AND SYNAPTIC STABILIZATION 🔗](https://arxiv.org/abs/1802.01569)

解锁 AI 的终身学习：受大脑启发的门控机制如何防止灾难性遗忘

你学会了骑自行车，却不会忘记如何行走。你掌握了一门新的编程语言，但仍记得自己的母语。人类和动物是天生的持续学习者——我们可以在一生中不断获取新技能，而不会抹去已有的知识。 ...

[Scalable Recollections for Continual Lifelong Learning 🔗](https://arxiv.org/abs/1711.06761)

用可扩展的回忆解决人工智能的“失忆症”

想象一下，你每周都教一个学生一门新课程。你从代数开始，再到几何，然后是微积分。但每到周一，当你开始新主题时，学生却把之前学过的一切都彻底忘掉。代数？没了。几何？消失了。 ...

[HyperNetworks 🔗](https://arxiv.org/abs/1609.09106)

超网络——当一个神经网络学会构建另一个网络

如果一个神经网络能够设计另一个神经网络，会怎么样？在传统的深度学习中，我们手动设计网络架构，然后让梯度下降等优化算法为这个固定结构学习数百万个权重参数。但如果生成这些权重的过程本身也可以被学习呢？ ...

[Learning to learn by gradient descent 🔗](https://arxiv.org/abs/1606.04474)

统领全场的 AI：训练神经网络成为优化器

几十年来，机器学习不断前进，用学习的系统取代了人类手工制作的系统。我们从为图像识别手动设计特征，发展到让神经网络从数据中自动发现特征；从基于规则的语言系统，转向能够隐式学习语法和语义的大规模语言模型。这场革命带来了颠覆性的变革。 ...

[Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights 🔗](https://arxiv.org/abs/1801.06519)

Piggyback：让老网络掌握新技巧而不遗忘

想象一下，你有一位训练有素的专家——一位精通意大利菜的大厨。现在，你让他去学习法餐。在机器学习中，典型的方法称为微调 (fine-tuning)，这就像让大厨覆盖掉部分意大利菜的知识，以便腾出空间学习法餐技巧。一段时间后，他或许能成为出色的法餐厨师，但他的拿手意面却不再那么美味了。这个问题被称为灾难性遗忘 (catastrophic forgetting) , 它是构建能够持续学习新技能的人工智能系统时的一大挑战。 ...

[PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning 🔗](https://arxiv.org/abs/1711.05769)

对抗 AI 遗忘症：PackNet 如何在不忘记旧知识的情况下教会网络新技巧

想象一下，你教一个聪明的学生一项新技能。你从微积分开始，他掌握得很好。然后你教他化学，他也学得很出色。但当你问他一个微积分问题时，他却茫然地看着你。在学习化学的过程中，他完全忘记了微积分。 ...

[Progressive Neural Networks 🔗](https://arxiv.org/abs/1606.04671)

基于经验构建：渐进式网络如何在不遗忘的情况下进行序列学习

想象一下学习骑自行车的过程。一旦掌握了它，当你学习驾驶汽车时，你并不会忘记如何骑行。事实上，你对平衡和动量的理解甚至可能有所帮助。人类拥有一个非凡的能力: 可以连续学习新的技能，在旧知识的基础上不断构建而不抹去它。对于人工神经网络而言，这一能力长期以来却是一个棘手的挑战。 ...

[GRADIENT PROJECTION MEMORY FOR CONTINUAL LEARNING 🔗](https://arxiv.org/abs/2103.09762)

终身学习：梯度投影记忆如何战胜灾难性遗忘

人类是天生的终身学习者。从学习走路、骑自行车到掌握一门新语言，我们不断获取新技能，而不会抹去旧技能。这种按顺序累积学习的能力是智力的基础。然而，人工神经网络 (ANN) 尽管取得了巨大成功，记忆力却出了名的差。当你用一个新任务训练标准神经网络时，它往往会覆盖之前学到的知识。这种现象被称为灾难性遗忘或灾难性干扰 , 是创造真正自适应人工智能的最大障碍之一。想象一下，一个智能助手学会了你新同事的名字，却因此忘记了你的名字——这可不太智能！ ...

[iCaRL: Incremental Classifier and Representation Learning 🔗](https://arxiv.org/abs/1611.07725)

永不遗忘：iCaRL 如何让深度学习模型持续学习

想象一下教一个幼儿认识动物。你从“狗”和“猫”开始。几周后，你带他去动物园，向他介绍“狮子”和“老虎”。这个孩子并不会突然忘记狗是什么——他只是把新动物加入自己不断增长的心智目录中。这种在不覆盖旧概念的前提下持续学习新概念的能力，是人类智能的显著特征。 ...

[EFFICIENT LIFELONG LEARNING WITH A-GEM 🔗](https://arxiv.org/abs/1812.00420)

终身学习，既不遗忘（也不破产）：深入解析 A-GEM

想象一下，教一个孩子认识猫。他学会了。然后你再教他认识狗。他同样学会了——而且还记得猫的样子。再后来，你教他关于鸟、汽车和房子的知识。随着每一个新概念的学习，他的知识不断扩展，并且能够利用旧的理解更快地掌握新内容。这就是人类学习的理想状态。 ...

[Gradient Episodic Memory for Continual Learning 🔗](https://arxiv.org/abs/1706.08840)

永不忘记任务：深入解析梯度情节记忆 (GEM)

想象一下，你训练了一个尖端的 AI 模型来识别不同种类的鸟。它成了一名专家，能够以完美的准确率区分麻雀和雀鸟。现在，你决定教它识别鱼的种类。你给它看了成千上万张三文鱼、金枪鱼和小丑鱼的图片。在这次新训练之后，你再次用鸟类图片对它进行测试。令你惊讶的是，它竟然完全忘记了麻雀长什么样。就好像它关于鸟类的知识被完全抹去，以便为鱼类的知识腾出空间。 ...

[Learning without Forgetting 🔗](https://arxiv.org/abs/1606.09282)

如何教 AI 新技能，同时不让它忘记旧本领

想象一下，你有一个训练有素的机器人助手。它非常擅长识别你家中的日常物品——椅子、桌子、杯子，应有尽有。某天，你带回一株稀有奇特的植物，想让你的机器人学会识别它。但问题来了: 让机器人变得如此聪明的原始训练数据——数百万张对象图像——早已存储在一台被弃用的服务器上。 ...

[Continual Learning Through Synaptic Intelligence 🔗](https://arxiv.org/abs/1703.04200)

神经网络能终身学习吗？深入解析突触智能

想象一下学习弹钢琴。你花了几个月的时间练习音阶和简单的曲子。然后，你决定学习西班牙语。当你变得流利时，你会突然忘记如何弹奏《一闪一闪小星星》吗？当然不会。人类拥有一种非凡的持续学习能力——我们在一生中不断获取新知识和技能，而不会抹去之前学到的一切。 ...

AI为何会遗忘：深入探索持续学习的世界

想象一下，你先教一个孩子认识猫，然后是狗，再然后是鸟。每认识一种新动物，他们对世界的理解都会加深——当他们学习狗的时候，并不会忘记猫是什么。事实上，学习狗甚至可能会优化他们对“四条腿的宠物”这一概念的理解。这种能够在不抹去旧知识的基础上逐步构建新知识的能力，是人类智能的基础。 ...

[Titans: Learning to Memorize at Test Time 🔗](https://arxiv.org/abs/2501.00663)

遇见 Titans：一种能在运行时学习记忆的新型 AI

在过去十年里，人工智能一直在探索一种更好的记忆方式。从循环神经网络 (RNN) 的紧凑隐藏状态，到 Transformer 的广阔上下文窗口，研究人员不断寻找能够在长序列上存储和回忆信息的模型。Transformer 凭借其复杂的注意力机制成为主流，使模型能够审视窗口中的每个词，并直接建模整个序列的依赖关系。 ...

[Overcoming catastrophic forgetting in neural networks 🔗](https://arxiv.org/abs/1612.00796)

解决 AI 的“失忆症”：深入解析弹性权重巩固

想象一下，你教一个天才学生下国际象棋。他很快就掌握了，轻松击败了经验丰富的棋手。然后你教他下围棋——他又成了围棋神童。但当你再请他下国际象棋时，他却茫然地看着你。所有辛苦学来的国际象棋知识——开局、残局、策略——都完全被围棋的规则所取代了。 ...