](https://deep-paper.org/en/paper/2306.13812/images/cover.png)
深度学习的阿喀琉斯之踵:为什么神经网络会忘记如何学习
现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本,它们在经过海量数据集训练后,展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。 ...
](https://deep-paper.org/en/paper/2306.13812/images/cover.png)
现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本,它们在经过海量数据集训练后,展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。 ...

深度强化学习 (RL) 已经取得了令人难以置信的成就——从精通高难度视频游戏、设计计算机芯片,到控制核聚变反应堆。这些成功通常涉及训练一个智能体来解决单一、固定的问题。一旦训练完成,智能体的策略就会被部署,并且很少再改变。 ...
](https://deep-paper.org/en/paper/2509.22764/images/cover.png)
如果你曾尝试教一个神经网络新技巧,你可能遇到过一个令人沮丧的问题: 它常常会忘记旧的。这种现象被称为灾难性遗忘 , 是人工智能发展中的一个根本障碍。当模型学习任务 B 时,它在已掌握的任务 A 上的表现会急剧下滑——就像一个学生考前抱佛脚背历史,结果第二天把所有数学都忘了。 ...
](https://deep-paper.org/en/paper/2506.03320/images/cover.png)
引言: 人工智能领域的静态巨人 诸如 GPT‑4、Llama 4 和 Gemini 等基础模型,已经彻底改变了人工智能的能力范畴。它们能写诗、生成复杂代码、回答复杂问题,甚至合成逼真的图像。这些都是划时代的成就,然而,这些系统中的每一个都存在一个近乎悖论的缺陷——它们的知识被冻结在时间里 。 ...
](https://deep-paper.org/en/paper/1802.01569/images/cover.png)
你学会了骑自行车,却不会忘记如何行走。你掌握了一门新的编程语言,但仍记得自己的母语。人类和动物是天生的持续学习者——我们可以在一生中不断获取新技能,而不会抹去已有的知识。 ...
](https://deep-paper.org/en/paper/1711.06761/images/cover.png)
想象一下,你每周都教一个学生一门新课程。你从代数开始,再到几何,然后是微积分。但每到周一,当你开始新主题时,学生却把之前学过的一切都彻底忘掉。代数?没了。几何?消失了。 ...
](https://deep-paper.org/en/paper/1609.09106/images/cover.png)
如果一个神经网络能够设计另一个神经网络,会怎么样? 在传统的深度学习中,我们手动设计网络架构,然后让梯度下降等优化算法为这个固定结构学习数百万个权重参数。 但如果生成这些权重的过程本身也可以被学习呢? ...
](https://deep-paper.org/en/paper/1606.04474/images/cover.png)
几十年来,机器学习不断前进,用学习的系统取代了人类手工制作的系统。我们从为图像识别手动设计特征,发展到让神经网络从数据中自动发现特征;从基于规则的语言系统,转向能够隐式学习语法和语义的大规模语言模型。这场革命带来了颠覆性的变革。 ...
](https://deep-paper.org/en/paper/1801.06519/images/cover.png)
想象一下,你有一位训练有素的专家——一位精通意大利菜的大厨。现在,你让他去学习法餐。在机器学习中,典型的方法称为 微调 (fine-tuning),这就像让大厨覆盖掉部分意大利菜的知识,以便腾出空间学习法餐技巧。一段时间后,他或许能成为出色的法餐厨师,但他的拿手意面却不再那么美味了。这个问题被称为 灾难性遗忘 (catastrophic forgetting) , 它是构建能够持续学习新技能的人工智能系统时的一大挑战。 ...
](https://deep-paper.org/en/paper/1711.05769/images/cover.png)
想象一下,你教一个聪明的学生一项新技能。你从微积分开始,他掌握得很好。然后你教他化学,他也学得很出色。但当你问他一个微积分问题时,他却茫然地看着你。在学习化学的过程中,他完全忘记了微积分。 ...
](https://deep-paper.org/en/paper/1606.04671/images/cover.png)
想象一下学习骑自行车的过程。一旦掌握了它,当你学习驾驶汽车时,你并不会忘记如何骑行。事实上,你对平衡和动量的理解甚至可能有所帮助。人类拥有一个非凡的能力: 可以连续学习新的技能,在旧知识的基础上不断构建而不抹去它。对于人工神经网络而言,这一能力长期以来却是一个棘手的挑战。 ...
](https://deep-paper.org/en/paper/2103.09762/images/cover.png)
人类是天生的终身学习者。从学习走路、骑自行车到掌握一门新语言,我们不断获取新技能,而不会抹去旧技能。这种按顺序累积学习的能力是智力的基础。 然而,人工神经网络 (ANN) 尽管取得了巨大成功,记忆力却出了名的差。当你用一个新任务训练标准神经网络时,它往往会覆盖之前学到的知识。这种现象被称为灾难性遗忘或灾难性干扰 , 是创造真正自适应人工智能的最大障碍之一。想象一下,一个智能助手学会了你新同事的名字,却因此忘记了你的名字——这可不太智能! ...
](https://deep-paper.org/en/paper/1611.07725/images/cover.png)
想象一下教一个幼儿认识动物。你从“狗”和“猫”开始。几周后,你带他去动物园,向他介绍“狮子”和“老虎”。这个孩子并不会突然忘记狗是什么——他只是把新动物加入自己不断增长的心智目录中。这种在不覆盖旧概念的前提下持续学习新概念的能力,是人类智能的显著特征。 ...
](https://deep-paper.org/en/paper/1812.00420/images/cover.png)
想象一下,教一个孩子认识猫。他学会了。然后你再教他认识狗。他同样学会了——而且还记得猫的样子。再后来,你教他关于鸟、汽车和房子的知识。随着每一个新概念的学习,他的知识不断扩展,并且能够利用旧的理解更快地掌握新内容。这就是人类学习的理想状态。 ...
](https://deep-paper.org/en/paper/1706.08840/images/cover.png)
想象一下,你训练了一个尖端的 AI 模型来识别不同种类的鸟。它成了一名专家,能够以完美的准确率区分麻雀和雀鸟。现在,你决定教它识别鱼的种类。你给它看了成千上万张三文鱼、金枪鱼和小丑鱼的图片。在这次新训练之后,你再次用鸟类图片对它进行测试。令你惊讶的是,它竟然完全忘记了麻雀长什么样。就好像它关于鸟类的知识被完全抹去,以便为鱼类的知识腾出空间。 ...
](https://deep-paper.org/en/paper/1606.09282/images/cover.png)
想象一下,你有一个训练有素的机器人助手。它非常擅长识别你家中的日常物品——椅子、桌子、杯子,应有尽有。某天,你带回一株稀有奇特的植物,想让你的机器人学会识别它。但问题来了: 让机器人变得如此聪明的原始训练数据——数百万张对象图像——早已存储在一台被弃用的服务器上。 ...
](https://deep-paper.org/en/paper/1703.04200/images/cover.png)
想象一下学习弹钢琴。你花了几个月的时间练习音阶和简单的曲子。然后,你决定学习西班牙语。当你变得流利时,你会突然忘记如何弹奏《一闪一闪小星星》吗?当然不会。人类拥有一种非凡的持续学习能力——我们在一生中不断获取新知识和技能,而不会抹去之前学到的一切。 ...

想象一下,你先教一个孩子认识猫,然后是狗,再然后是鸟。每认识一种新动物,他们对世界的理解都会加深——当他们学习狗的时候,并不会忘记猫是什么。事实上,学习狗甚至可能会优化他们对“四条腿的宠物”这一概念的理解。这种能够在不抹去旧知识的基础上逐步构建新知识的能力,是人类智能的基础。 ...
](https://deep-paper.org/en/paper/2501.00663/images/cover.png)
在过去十年里,人工智能一直在探索一种更好的记忆方式。从循环神经网络 (RNN) 的紧凑隐藏状态,到 Transformer 的广阔上下文窗口,研究人员不断寻找能够在长序列上存储和回忆信息的模型。Transformer 凭借其复杂的注意力机制成为主流,使模型能够审视窗口中的每个词,并直接建模整个序列的依赖关系。 ...
](https://deep-paper.org/en/paper/1612.00796/images/cover.png)
想象一下,你教一个天才学生下国际象棋。他很快就掌握了,轻松击败了经验丰富的棋手。然后你教他下围棋——他又成了围棋神童。但当你再请他下国际象棋时,他却茫然地看着你。所有辛苦学来的国际象棋知识——开局、残局、策略——都完全被围棋的规则所取代了。 ...