Deep Paper

[AdaptCL: Adaptive Continual Learning for Tackling Heterogeneity in Sequential Datasets 🔗](https://arxiv.org/abs/2207.11005)

AdaptCL：在不断变化的数据上训练单一 AI 模型且不会遗忘

世界并非一个静态、标签整齐的数据集。现实世界中的数据流往往杂乱无章——它们按顺序从不同来源、在不同时间到达。前一刻，一个 AI 模型可能正在分析仓库中水果的新鲜度；下一刻，它可能正在处理来自完全不同领域的图像。这种持续的信息流本质上是异质的——在规模、复杂度以及与先前数据的相似程度上差异极大。 ...

[Experience Replay for Continual Learning 🔗](https://arxiv.org/abs/1811.11682)

别忘了！经验回放如何解决人工智能的“失忆”问题

想象一下学骑自行车。你花了好几天摇摇晃晃、摔倒，最终掌握了平衡。几年后，你学会了开汽车。学开车会突然让你忘记骑车技巧吗？当然不会。人类是天生的持续学习者——我们可以在一生中不断获取新知识和新技能，而不会丢失旧的。 ...

超越层级：嵌套学习是深度学习的下一个维度吗？

在过去十年中，构建更强大的人工智能模型一直遵循着一个熟悉的配方: 增加更多的层、更多的参数和更多的数据。这种深度学习范式创造了令人惊叹的成果——从图像生成器、自动驾驶汽车到能够编写代码并推理复杂问题的大型语言模型 (LLM) 。然而，尽管这些模型取得了巨大成就，它们仍然存在一个根本性的局限: 训练完成后，它们基本上变得静态。它们可能拥有庞大的知识储备，但无法像人类那样以自适应的方式真正地学习。 ...

[IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 🔗](https://arxiv.org/abs/2502.05512)

IndexTTS：深入解读 Bilibili 的工业级可控声音克隆系统

在快节奏的数字内容创作领域中，人工智能驱动的语音合成已不再只是未来的愿景——它如今已经成为创作者、教育者和开发者工作流程中不可或缺的一环。从自动化视频旁白到沉浸式虚拟助手，对高质量、听感自然的合成语音的需求正呈指数级增长。 ...

[OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation 🔗](https://arxiv.org/abs/2410.17799)

超越回合制：OmniFlatten 如何教 AI 进行自然、可被打断的语音对话

你是否曾经对语音助手感到沮丧？你提出问题，它开始滔滔不绝地回答，而你在过程中意识到需要澄清某个细节。你试图打断它——但它却毫无察觉地继续说个不停。你只能等它说完才能再次发话。这感觉更像是在用对讲机，而不是在进行自然的交流。 ...

[The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms 🔗](https://arxiv.org/abs/2511.04217)

Transformer 能中彩票吗？一项新证明在注意力机制中找到了中奖彩票

如果有人告诉你，在每一个庞大的、随机初始化的神经网络内部，都潜藏着一个更小、更高效的子网络，它无需任何梯度更新就能表现出色——你会怎么想？这个想法正是强彩票假设 (Strong Lottery Ticket Hypothesis, SLTH) 的核心。该假设提出，过参数化的网络不仅更容易训练，它们的内部本身就包含了已经具备高性能的子网络。我们的任务仅仅是识别并揭示它们。 ...

[MemO: Building Production-Ready AI Agents with Scalable Long-Term Memory 🔗](https://arxiv.org/abs/2504.19413)

超越上下文窗口：MemO 如何赋予 AI 持久记忆

引言: 当 AI 忘记你刚说过的话你是否曾与 AI 助手聊天却不得不重复它本应知道的事情？你告诉它你是素食者并且不吃乳制品，结果第二天它却推荐鸡肉阿尔弗雷多意面。这个简单的疏忽 (如图 1 所示) 不仅令人烦恼，也揭示了当今大语言模型 (LLM) 中一个深层次的结构性问题。 ...

[Zep: A Temporal Knowledge Graph Architecture for Agent Memory 🔗](https://arxiv.org/abs/2501.13956)

超越金鱼记忆：Zep 的时序知识图谱如何赋予 AI 更智能的大脑

AI 助手的能力已变得非常强大，但大多数仍有一个共同缺点: 它们的记忆力堪比金鱼。你可能与它进行了一次有意义的交流，但片刻之后，它就忘得一干二净。这个缺陷源于大语言模型 (LLM) 有限的上下文窗口 ——它们一次只能处理几千个词。一旦某些内容超出了这个窗口，就会永久遗忘。 ...

[Diffusion Language Models are Super Data Learners 🔗](https://arxiv.org/abs/2511.03276)

交叉点：在数据稀缺的世界中，扩散模型如何超越大型语言模型

即将到来的数据瓶颈多年来，人工智能的发展史就是一部规模扩张史。从 GPT‑3、Llama 3 到它们的继任者，模型参数量从数百万膨胀到数十亿，如今更是达到数万亿。进步的秘诀似乎很简单: 更多数据、更多算力、更大模型。但一个根本性的限制正在逼近: 我们即将耗尽可用于训练的高质量、独特数据。互联网虽广阔，但终究是有限的资源。 ...

[V-Thinker: Interactive Thinking with Images 🔗](https://arxiv.org/abs/2511.04460)

超越视觉：V-Thinker 如何教 AI 与图像交互以实现更深层次的推理

引言: 灵魂以图像思考 “没有图像，灵魂就无法思考。” ——亚里士多德人类具有非凡的视觉推理能力。处理复杂的几何问题时，我们不仅仅凝视图形——还与它互动。我们在画布上绘制辅助线、标注点位、追踪关系。这种主动参与不是帮助工具，而是我们思考的重要组成部分。 ...

[Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm 🔗](https://arxiv.org/abs/2511.04570)

Sora-2 会思考吗？探索“以视频为思考”的新范式

我们已经看到人工智能通过思维链 (Chain-of-Thought) 提示学习了如何用文本进行推理，甚至开始以图像为思考 (Thinking with Images) 。但如果人工智能能更像人类一样思考——可视化动态过程、勾勒解决方案、模拟事件的时间演变，会怎样呢？ ...

AlphaGo Zero：AI 如何从零开始掌握围棋

2016 年 3 月，世界惊奇地见证了 DeepMind 的 AlphaGo 击败了史上最伟大的围棋手之一——李世乭。这是人工智能领域的里程碑式成就，常被称为 AI 的“斯普特尼克时刻”。AlphaGo 的胜利揭示了深度神经网络和强化学习的惊人力量。但其中有一个关键前提: 该系统是从人类学习的。它的“策略网络”基于一个庞大的专家棋谱数据集进行训练，其中包含超过 3000 万步职业棋手的着法。AlphaGo 通过模仿学习。 ...

AlphaGo：AI 如何征服史上最复杂的游戏

几十年来，古老的围棋游戏一直是人工智能领域最艰巨的挑战之一。其棋盘上可能的变化组合比可观测宇宙中的原子还多，复杂性远超国际象棋。曾经征服国际象棋的蛮力计算方法在围棋面前毫无用武之地。许多专家曾预测，能够击败职业围棋棋手的 AI 至少还需要十年才能出现。 ...

UCT——在 AlphaGo 诞生数年前就已精通围棋的算法

想象一下，在围棋或国际象棋这样的游戏中，你试图找出最佳的一步。未来可能的游戏状态数量是天文数字——比宇宙中的原子还要多。暴力搜索检查每一种可能性是完全不可能的。几十年来，最顶尖的计算机棋手依赖像 Alpha-Beta 剪枝这样的巧妙搜索算法，这些算法由人工编写的评估函数引导，用于估算每个棋盘局面的“好坏”。 ...

[Proximal Policy Optimization Algorithms 🔗](https://arxiv.org/abs/1707.06347)

PPO详解：易于实现、难以超越的强化学习算法

强化学习 (RL) 推动了人工智能领域一些最令人瞩目的突破——从精通围棋到控制复杂的机器人。然而，任何尝试过 RL 的人都知道这些系统有多么脆弱。调整超参数和稳定训练过程仿佛是一门艺术。研究人员一直希望能找到一种既强大、数据高效，又易于实现的方法。 ...

Q-Learning 详解：一个简单算法与坚如磐石的证明

你如何教一个机器人去探索一个它从未见过的迷宫？你无法给它地图，因为你自己也没有。它能做的就是尝试不同的路径，撞到墙壁，希望在足够多的试错之后，最终找到出口。它如何从这种混乱的探索过程中学习，进而找到最佳路径，而不是随便一条路径？ ...

策略梯度定理：强化学习缺失的关键一环

强化学习 (RL) 推动了人工智能领域一些最令人瞩目的突破——从掌握围棋到控制动态机器人。其核心思想是通过试错进行学习: 智能体与环境交互，接收奖励或惩罚，并调整其策略 (policy) ，以最大化长期回报。 ...

强化你的神经网络：深入理解策略梯度与 REINFORCE 算法

想象一下，你正在训练一个机器人玩飞镖。你没有物理模拟器来计算完美的角度和力度。你所能做的就是让机器人投出飞镖，观察得分，并告诉它表现如何。如果得分高，你希望鼓励它进行类似的投掷；如果得分低，你希望它尝试不同的方式。但是，如何把这个单一的分数转化为对机器人神经网络控制器中数千个参数的精确调整呢？ ...

[High-Resolution Image Synthesis with Latent Diffusion Models 🔗](https://arxiv.org/abs/2112.10752)

潜在扩散模型如何生成令人惊叹的 AI 艺术（Stable Diffusion 论文详解）

2022 年，世界被 AI 生成艺术的突然爆发所吸引。像 DALL·E 2、Midjourney 和 Stable Diffusion 等工具开始根据简单的文本提示生成令人叹为观止的图像，让任何有想象力的人都能成为数字艺术家。但在这场创意革命的背后，隐藏着一个重大的技术挑战: 如何在不需要超级计算机的情况下，高效地生成复杂的高分辨率图像？ ...

[Generative Adversarial Nets 🔗](https://arxiv.org/abs/1406.2661)

GANs详解：深入解读开创时代的奠基之作

2014年，一支来自蒙特利尔大学，由 Ian Goodfellow 等研究者组成的团队发表了一篇论文，引发了机器学习领域的一场革命。这篇名为《生成对抗网络》 (Generative Adversarial Nets) 的论文提出了一个简单而深刻的想法: 如果我们让神经网络彼此竞争，能否以此来训练它们？这个被称为生成对抗网络 (GANs) 的概念，自此成为深度学习领域最具影响力的创新之一——它能够生成令人惊叹的逼真图像、音乐，甚至文本。 ...