[Maintaining Plasticity in Deep Continual Learning 🔗](https://arxiv.org/abs/2306.13812)

深度学习的阿喀琉斯之踵:为什么神经网络会忘记如何学习

现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本,它们在经过海量数据集训练后,展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。 ...

2023-06 · 7 分钟 · 3426 字

深度强化学习智能体为何会忘记如何学习:可塑性丧失问题

深度强化学习 (RL) 已经取得了令人难以置信的成就——从精通高难度视频游戏、设计计算机芯片,到控制核聚变反应堆。这些成功通常涉及训练一个智能体来解决单一、固定的问题。一旦训练完成,智能体的策略就会被部署,并且很少再改变。 ...

7 分钟 · 3374 字
[In-Context Learning can Perform Continual Learning Like Humans 🔗](https://arxiv.org/abs/2509.22764)

大语言模型能像我们一样持续学习吗?深入探讨情境持续学习

如果你曾尝试教一个神经网络新技巧,你可能遇到过一个令人沮丧的问题: 它常常会忘记旧的。这种现象被称为灾难性遗忘 , 是人工智能发展中的一个根本障碍。当模型学习任务 B 时,它在已掌握的任务 A 上的表现会急剧下滑——就像一个学生考前抱佛脚背历史,结果第二天把所有数学都忘了。 ...

2025-09 · 7 分钟 · 3139 字
[The Future of Continual Learning in the Era of Foundation Models: Three Key Directions 🔗](https://arxiv.org/abs/2506.03320)

基础模型困于往昔——持续学习能否使其与时俱进?

引言: 人工智能领域的静态巨人 诸如 GPT‑4、Llama 4 和 Gemini 等基础模型,已经彻底改变了人工智能的能力范畴。它们能写诗、生成复杂代码、回答复杂问题,甚至合成逼真的图像。这些都是划时代的成就,然而,这些系统中的每一个都存在一个近乎悖论的缺陷——它们的知识被冻结在时间里 。 ...

2025-06 · 7 分钟 · 3202 字
[ALLEVIATING CATASTROPHIC FORGETTING USING CONTEXT-DEPENDENT GATING AND SYNAPTIC STABILIZATION 🔗](https://arxiv.org/abs/1802.01569)

解锁 AI 的终身学习:受大脑启发的门控机制如何防止灾难性遗忘

你学会了骑自行车,却不会忘记如何行走。你掌握了一门新的编程语言,但仍记得自己的母语。人类和动物是天生的持续学习者——我们可以在一生中不断获取新技能,而不会抹去已有的知识。 ...

2018-02 · 7 分钟 · 3246 字
[Scalable Recollections for Continual Lifelong Learning 🔗](https://arxiv.org/abs/1711.06761)

用可扩展的回忆解决人工智能的“失忆症”

想象一下,你每周都教一个学生一门新课程。你从代数开始,再到几何,然后是微积分。但每到周一,当你开始新主题时,学生却把之前学过的一切都彻底忘掉。代数?没了。几何?消失了。 ...

2017-11 · 8 分钟 · 3513 字
[HyperNetworks 🔗](https://arxiv.org/abs/1609.09106)

超网络——当一个神经网络学会构建另一个网络

如果一个神经网络能够设计另一个神经网络,会怎么样? 在传统的深度学习中,我们手动设计网络架构,然后让梯度下降等优化算法为这个固定结构学习数百万个权重参数。 但如果生成这些权重的过程本身也可以被学习呢? ...

2016-09 · 7 分钟 · 3164 字
[Learning to learn by gradient descent 🔗](https://arxiv.org/abs/1606.04474)

统领全场的 AI:训练神经网络成为优化器

几十年来,机器学习不断前进,用学习的系统取代了人类手工制作的系统。我们从为图像识别手动设计特征,发展到让神经网络从数据中自动发现特征;从基于规则的语言系统,转向能够隐式学习语法和语义的大规模语言模型。这场革命带来了颠覆性的变革。 ...

2016-06 · 7 分钟 · 3129 字
[Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights 🔗](https://arxiv.org/abs/1801.06519)

Piggyback:让老网络掌握新技巧而不遗忘

想象一下,你有一位训练有素的专家——一位精通意大利菜的大厨。现在,你让他去学习法餐。在机器学习中,典型的方法称为 微调 (fine-tuning),这就像让大厨覆盖掉部分意大利菜的知识,以便腾出空间学习法餐技巧。一段时间后,他或许能成为出色的法餐厨师,但他的拿手意面却不再那么美味了。这个问题被称为 灾难性遗忘 (catastrophic forgetting) , 它是构建能够持续学习新技能的人工智能系统时的一大挑战。 ...

2018-01 · 7 分钟 · 3293 字
[PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning 🔗](https://arxiv.org/abs/1711.05769)

对抗 AI 遗忘症:PackNet 如何在不忘记旧知识的情况下教会网络新技巧

想象一下,你教一个聪明的学生一项新技能。你从微积分开始,他掌握得很好。然后你教他化学,他也学得很出色。但当你问他一个微积分问题时,他却茫然地看着你。在学习化学的过程中,他完全忘记了微积分。 ...

2017-11 · 7 分钟 · 3430 字
[Progressive Neural Networks 🔗](https://arxiv.org/abs/1606.04671)

基于经验构建:渐进式网络如何在不遗忘的情况下进行序列学习

想象一下学习骑自行车的过程。一旦掌握了它,当你学习驾驶汽车时,你并不会忘记如何骑行。事实上,你对平衡和动量的理解甚至可能有所帮助。人类拥有一个非凡的能力: 可以连续学习新的技能,在旧知识的基础上不断构建而不抹去它。对于人工神经网络而言,这一能力长期以来却是一个棘手的挑战。 ...

2016-06 · 3 分钟 · 1168 字
[GRADIENT PROJECTION MEMORY FOR CONTINUAL LEARNING 🔗](https://arxiv.org/abs/2103.09762)

终身学习:梯度投影记忆如何战胜灾难性遗忘

人类是天生的终身学习者。从学习走路、骑自行车到掌握一门新语言,我们不断获取新技能,而不会抹去旧技能。这种按顺序累积学习的能力是智力的基础。 然而,人工神经网络 (ANN) 尽管取得了巨大成功,记忆力却出了名的差。当你用一个新任务训练标准神经网络时,它往往会覆盖之前学到的知识。这种现象被称为灾难性遗忘或灾难性干扰 , 是创造真正自适应人工智能的最大障碍之一。想象一下,一个智能助手学会了你新同事的名字,却因此忘记了你的名字——这可不太智能! ...

2021-03 · 7 分钟 · 3289 字
[iCaRL: Incremental Classifier and Representation Learning 🔗](https://arxiv.org/abs/1611.07725)

永不遗忘:iCaRL 如何让深度学习模型持续学习

想象一下教一个幼儿认识动物。你从“狗”和“猫”开始。几周后,你带他去动物园,向他介绍“狮子”和“老虎”。这个孩子并不会突然忘记狗是什么——他只是把新动物加入自己不断增长的心智目录中。这种在不覆盖旧概念的前提下持续学习新概念的能力,是人类智能的显著特征。 ...

2016-11 · 7 分钟 · 3028 字
[EFFICIENT LIFELONG LEARNING WITH A-GEM 🔗](https://arxiv.org/abs/1812.00420)

终身学习,既不遗忘(也不破产):深入解析 A-GEM

想象一下,教一个孩子认识猫。他学会了。然后你再教他认识狗。他同样学会了——而且还记得猫的样子。再后来,你教他关于鸟、汽车和房子的知识。随着每一个新概念的学习,他的知识不断扩展,并且能够利用旧的理解更快地掌握新内容。这就是人类学习的理想状态。 ...

2018-12 · 7 分钟 · 3353 字
[Gradient Episodic Memory for Continual Learning 🔗](https://arxiv.org/abs/1706.08840)

永不忘记任务:深入解析梯度情节记忆 (GEM)

想象一下,你训练了一个尖端的 AI 模型来识别不同种类的鸟。它成了一名专家,能够以完美的准确率区分麻雀和雀鸟。现在,你决定教它识别鱼的种类。你给它看了成千上万张三文鱼、金枪鱼和小丑鱼的图片。在这次新训练之后,你再次用鸟类图片对它进行测试。令你惊讶的是,它竟然完全忘记了麻雀长什么样。就好像它关于鸟类的知识被完全抹去,以便为鱼类的知识腾出空间。 ...

2017-06 · 7 分钟 · 3336 字
[Learning without Forgetting 🔗](https://arxiv.org/abs/1606.09282)

如何教 AI 新技能,同时不让它忘记旧本领

想象一下,你有一个训练有素的机器人助手。它非常擅长识别你家中的日常物品——椅子、桌子、杯子,应有尽有。某天,你带回一株稀有奇特的植物,想让你的机器人学会识别它。但问题来了: 让机器人变得如此聪明的原始训练数据——数百万张对象图像——早已存储在一台被弃用的服务器上。 ...

2016-06 · 6 分钟 · 2732 字
[Continual Learning Through Synaptic Intelligence 🔗](https://arxiv.org/abs/1703.04200)

神经网络能终身学习吗?深入解析突触智能

想象一下学习弹钢琴。你花了几个月的时间练习音阶和简单的曲子。然后,你决定学习西班牙语。当你变得流利时,你会突然忘记如何弹奏《一闪一闪小星星》吗?当然不会。人类拥有一种非凡的持续学习能力——我们在一生中不断获取新知识和技能,而不会抹去之前学到的一切。 ...

2017-03 · 7 分钟 · 3496 字

AI为何会遗忘:深入探索持续学习的世界

想象一下,你先教一个孩子认识猫,然后是狗,再然后是鸟。每认识一种新动物,他们对世界的理解都会加深——当他们学习狗的时候,并不会忘记猫是什么。事实上,学习狗甚至可能会优化他们对“四条腿的宠物”这一概念的理解。这种能够在不抹去旧知识的基础上逐步构建新知识的能力,是人类智能的基础。 ...

7 分钟 · 3186 字
[Titans: Learning to Memorize at Test Time 🔗](https://arxiv.org/abs/2501.00663)

遇见 Titans:一种能在运行时学习记忆的新型 AI

在过去十年里,人工智能一直在探索一种更好的记忆方式。从循环神经网络 (RNN) 的紧凑隐藏状态,到 Transformer 的广阔上下文窗口,研究人员不断寻找能够在长序列上存储和回忆信息的模型。Transformer 凭借其复杂的注意力机制成为主流,使模型能够审视窗口中的每个词,并直接建模整个序列的依赖关系。 ...

2025-01 · 7 分钟 · 3383 字
[Overcoming catastrophic forgetting in neural networks 🔗](https://arxiv.org/abs/1612.00796)

解决 AI 的“失忆症”:深入解析弹性权重巩固

想象一下,你教一个天才学生下国际象棋。他很快就掌握了,轻松击败了经验丰富的棋手。然后你教他下围棋——他又成了围棋神童。但当你再请他下国际象棋时,他却茫然地看着你。所有辛苦学来的国际象棋知识——开局、残局、策略——都完全被围棋的规则所取代了。 ...

2016-12 · 7 分钟 · 3419 字