](https://deep-paper.org/en/paper/8999_fedssi_rehearsal_free_con-1601/images/cover.png)
如何永远学习而不遗忘:深入解读 FedSSI
想象一下你正在尝试学习一门新语言,比如西班牙语。你努力学习了一个月。然后,你转而去学习 Python 编程。一个月后,当你尝试说西班牙语时,却发现自己连基本的词汇都难以回忆起来。你的大脑为了给新语法腾出空间,覆盖了旧的神经通路。在认知科学和人工智能领域,这种现象被称为灾难性遗忘 (Catastrophic Forgetting) 。 ...
](https://deep-paper.org/en/paper/8999_fedssi_rehearsal_free_con-1601/images/cover.png)
想象一下你正在尝试学习一门新语言,比如西班牙语。你努力学习了一个月。然后,你转而去学习 Python 编程。一个月后,当你尝试说西班牙语时,却发现自己连基本的词汇都难以回忆起来。你的大脑为了给新语法腾出空间,覆盖了旧的神经通路。在认知科学和人工智能领域,这种现象被称为灾难性遗忘 (Catastrophic Forgetting) 。 ...
](https://deep-paper.org/en/paper/9408_mechanistic_unlearning_ro-1600/images/cover.png)
引言 想象一下,你训练了一个庞大的大型语言模型 (LLM) 。它聪明、善辩且博学。不幸的是,它同时也记住了一位名人的家庭住址,或者学会了某种化学武器的危险配方,又或者它仅仅是固执地认为迈克尔·乔丹是打棒球的 (虽然这在 90 年代确实有过一段短暂而令人困惑的经历,但并非事实的全貌) 。 ...
](https://deep-paper.org/en/paper/2506.09215/images/cover.png)
引言 在生物系统中,忽略无关信息的能力与处理相关信息的能力同等重要。当你身处一个嘈杂的鸡尾酒会时,你的耳朵会接收来自四面八方的声波——玻璃杯的碰撞声、背景音乐以及十几个重叠的对话声。然而,你的大脑却能展现出惊人的过滤能力: 它能衰减噪声并放大你试图进行的那个单一对话。这种选择性注意对于在一个复杂、数据丰富的世界中生存至关重要。 ...
](https://deep-paper.org/en/paper/2410.03655/images/cover.png)
引言 在加速药物发现和材料科学的探索中,生成式人工智能已成为一种强大的工具。梦想很简单: 与其筛选数十亿现有的分子来寻找有效的那个,不如让 AI 从头开始设计完美的分子——一种能与特定蛋白质结合、低毒性且易于合成的分子。 ...
](https://deep-paper.org/en/paper/2502.20330/images/cover.png)
大型语言模型 (LLM) 处理海量信息的能力呈爆炸式增长。我们已经从只有几千个 token 的上下文窗口,发展到能够在单个提示中摄入数百万字——包括整本书、代码库或法律档案——的模型。然而,这场“长上下文”革命伴随着高昂的代价: 延迟。 ...
](https://deep-paper.org/en/paper/2505.23017/images/cover.png)
预测未来是人类最古老的愿望之一,也是数学上最困难的挑战之一。在数据科学领域,这转化为时间序列预测 。 虽然我们已经能够很好地预测下一个小时或明天的发生情况 (短期预测) ,但预测遥远的未来 (长期预测) 仍然是一个巨大的障碍。 ...
](https://deep-paper.org/en/paper/9548_self_supervised_masked_gr-1595/images/cover.png)
引言: 随机性的问题 试想一下学习一门新语言的过程。你不会一开始就尝试写一篇复杂的哲学论文。你会从字母表开始,然后是简单的单词、句子,最后才是复杂的段落。这种由易到难的循序渐进过程是人类学习的基础。它能建立信心,并确保在处理困难概念之前已经掌握了基础知识。 ...
](https://deep-paper.org/en/paper/2506.06665/images/cover.png)
引言 在安全关键型人工智能 (AI) 领域——想想自动驾驶、医疗诊断或飞行控制系统——“还不错”是不够的。我们需要保证。我们需要确切地知道,如果一个停车标志稍微旋转了一点或者上面贴了一张贴纸,汽车的神经网络不会将其误分类为限速标志。 ...
](https://deep-paper.org/en/paper/2412.06877/images/cover.png)
想象一下,你试图通过让机器人观看数小时人们在厨房里走动的视频片段,来教会它如何“煮一杯咖啡”。这些视频没有字幕,没有奖励反馈,也没有任何解释。机器人看到一个人拿起杯子,但它不知道为什么。是为了清洗杯子?是为了移动它?还是煮咖啡的第一步? ...
](https://deep-paper.org/en/paper/2410.05603/images/cover.png)
人们通常将大型语言模型 (LLM) 概念化为“多重宇宙生成器”。当你要求模型补全一个句子时,它不仅是在预测特定叙事中的下一个词;实际上,它是在无数种可能的续写路径中权衡概率。 ...
](https://deep-paper.org/en/paper/2505.05409/images/cover.png)
泛化的奥秘——即神经网络为何能在特定图像或文本上训练后,在未见过的数据上也能表现良好——是深度学习中的“暗物质”问题。 多年来,一个主要的假设是 锐度 (Sharpness) 的概念 (或其反面: 平坦性) 。直觉很简单: 如果神经网络在损失景观的“平坦”山谷中找到解,那么这个解就是鲁棒的。如果训练数据发生轻微偏移 (模拟训练集和测试集之间的差异) ,损失不会剧增。相反,“尖锐”的极小值意味着即使是微小的偏移也会导致高误差。 ...
](https://deep-paper.org/en/paper/2502.07827/images/cover.png)
引言 在当前的深度学习领域,我们正目睹着两种基本属性之间的一场激烈角逐: 并行化 (parallelization) 与表达能力 (expressivity) 。 一方面,我们拥有 Transformer 和像 Mamba 这样的状态空间模型 (SSMs) 。这些架构之所以占据主导地位,是因为它们在训练期间具有高度的可并行性。你可以输入一段文本序列,利用 GPU 同时处理所有 token。然而,这其中存在一个隐患。从理论上讲,这些模型属于一个特定的复杂性类别 (具体为 \(TC^0\)) ,无法完全解决内在的顺序问题,例如在有限状态机 (FSM) 中跟踪状态或解决复杂的奇偶校验问题。它们受限于“深度”。 ...
](https://deep-paper.org/en/paper/2507.08254/images/cover.png)
在人工智能飞速发展的世界里,通常有一条不成文的游戏规则: 如果你想让模型在某项特定任务上表现出色,你就必须用大量的特定数据来训练它。如果你想从 3D MRI 扫描中诊断疾病,传统智慧告诉你,需要构建一个复杂的 3D 神经网络,并喂给它成千上万个带标注的医学体数据。 ...
](https://deep-paper.org/en/paper/6600_copinn_cognitive_physics_-1587/images/cover.png)
引言 想象一下你正在尝试学习一门复杂的新学科,比如微积分或一门新语言。如果你试图在学习基础知识的同时立即攻克最难的概念,你很可能会感到不知所措并最终失败。相反,人类通过“课程 (curriculum) ”学习的效果最好: 我们先掌握简单的概念,建立信心和理解,然后再去解决难题。 ...
](https://deep-paper.org/en/paper/2412.14363/images/cover.png)
引言 大型语言模型 (LLM) 如 Llama 3 和 Qwen2.5 的能力正在以惊人的速度增长。然而,随着这些模型的规模扩展到数千亿参数,运行它们的计算成本——特别是在推理阶段——正变得令人望而却步。推理主要面临两个瓶颈: 计算受限的预填充阶段 (处理你的提示词) 和内存受限的生成阶段 (逐个吐出 token) 。 ...
](https://deep-paper.org/en/paper/2505.24688/images/cover.png)
超越温度参数: 利用软推理与贝叶斯优化引导大模型思维 如果你曾经尝试过让大语言模型 (LLM) 解决复杂的数学问题或棘手的逻辑谜题,你可能体会过模型产生“幻觉”或推理偷懒带来的挫败感。你问了一个问题,模型却自信地给出了错误的答案。 ...
](https://deep-paper.org/en/paper/2406.05072/images/cover.png)
引言 在科学机器学习 (Scientific Machine Learning, SciML) 这个快速发展的领域中,我们正在见证一场范式的转变。研究人员不再仅仅训练神经网络来识别猫或生成文本,而是训练它们来模拟物理世界。该领域最强大的工具之一就是神经算子 (Neural Operator) 。 与将固定大小的向量映射到向量 (如将图像映射到标签) 的标准神经网络不同,神经算子学习的是函数空间之间的映射。它们可以接收物理系统的初始条件——比如流体的温度分布——并预测该函数随时间的演变,其求解偏微分方程 (PDE) 的速度比传统数值求解器快几个数量级。 ...
](https://deep-paper.org/en/paper/2502.04375/images/cover.png)
1. 引言 当今人工智能领域最激烈的争论之一围绕着大型语言模型 (LLM) 的本质展开。当像 GPT-4 这样的模型解决复杂的逻辑谜题时,它是在真正地进行推理——应用逻辑规则推导出答案吗?还是仅仅扮演了一只“随机鹦鹉”,从其庞大的训练数据中检索记忆下来的模式? ...
](https://deep-paper.org/en/paper/2411.15114/images/cover.png)
人工智能实现自我研发 (R&D) 自动化的前景是现代计算机科学中最具变革性——同时也最具潜在风险——的概念之一。如果一个 AI 系统能够进行研发以提升自身,我们可能会进入一个能力加速的反馈循环。 ...
](https://deep-paper.org/en/paper/2503.17332/images/cover.png)
近年来,大型语言模型 (LLM) 的能力呈现爆炸式增长。我们已经见识过它们写诗、调试代码,甚至规划复杂的旅行行程。但是,随着这些“智能体 (Agent) ”变得越来越自主——能够执行代码、使用工具并推理多步骤问题——一个更为严峻的问题浮出水面: AI 智能体能否自主入侵 Web 应用程序? ...