Deep Paper

[SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization 🔗](https://arxiv.org/abs/2511.06411)

超越离散思维：SofT-GRPO 如何让 LLM 在连续空间中推理

大语言模型 (LLM) 通过一种名为 *思维链 (Chain-of-Thought, CoT) * 的技术，在复杂推理方面变得异常出色——这是一个逐步生成离散推理词元 (token) 的过程，非常类似于人类思考问题的方式。然而，这种方法本质上是僵化的: 在每一步，模型都必须从其词汇表中选择一个唯一的词元。 ...

[IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction 🔗](https://arxiv.org/abs/2511.07327)

超越上下文窗口：IterResearch 如何教 AI 智能体思考、综合并攻克复杂问题

引言: 智能体的两难困境想象一个 AI 智能体接到一个复杂的研究任务，例如: “发展中国家采用可再生能源会带来哪些长期经济影响？” 要回答这个问题，智能体不能仅仅依赖其预训练的知识——它必须像一个真正的研究员一样行动: 搜索网页、阅读学术论文、分析数据，并从众多来源中撰写出一个连贯的答案。 ...

[UNLOCKING THE POWER OF MULTI-AGENT LLM FOR REASONING: FROM LAZY AGENTS TO DELIBERATION 🔗](https://arxiv.org/abs/2511.02303)

Dr. MAMR：如何让 AI 智能体不再“偷懒”，提升协同推理能力

想象一下，你需要组建一支由顶尖专家组成的团队来解决一个复杂问题。其中一位是战略大师，负责将问题分解为可管理的步骤；另一位是严谨的执行者，负责处理计算并落实计划。理论上，这种合作应该比任何单一专家独立工作都更高效。 ...

[MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE 🔗](https://arxiv.org/abs/2511.02864)

用人工智能解锁数学发现：深入剖析 AlphaEvolve

数学史是一部思想的发展史——闪烁的直觉、艰辛的探索与严密的证明构成了它的主线。如今，一类新型工具正开始拓展这一故事: 它们能够搜索、提出假设，甚至建议证明。AlphaEvolve，正是论文《大规模的数学探索与发现》的研究主题之一。它将大语言模型 (LLM) 的生成能力与进化式程序搜索和严谨的自动化验证相结合，最终形成一个能够在数十个数学问题上提出、测试和改进构造的智能体——有时能匹配现有的最佳已知解，有时能改进它们，偶尔还能提出启发人类证明的一般模式。 ...

[Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems 🔗](https://arxiv.org/abs/2511.01854)

超越智能体级搜索：工具到智能体检索如何为 LLM 系统赋能

大型语言模型 (LLM) 正迅速从简单的聊天机器人演进为复杂的推理引擎。其中最令人振奋的前沿之一，是多智能体系统的开发——这种架构中，一个主 LLM 负责协调整个由专业子智能体组成的团队: 一个智能体可能专注于代码分析，另一个负责数据库查询，再一个聚焦于网页搜索。每个智能体都可以配备数十甚至上千个工具——也就是它们能调用的函数或 API，用以完成任务。 ...

[BEYOND A MILLION TOKENS: BENCHMARKING AND ENHANCING LONG-TERM MEMORY IN LLMS 🔗](https://arxiv.org/abs/2510.27246)

超越百万词元：为长上下文大语言模型构建真实测试与真实记忆

超越百万词元: 为长上下文大语言模型构建真实测试与真实记忆你是否曾与智能助手聊了很久，但几轮对话后它却忘记了你明确告诉过它的细节？随着模型的上下文窗口越来越大——10 万、100 万，甚至 1000 万词元——这种失忆问题变得愈发明显: 更大的上下文窗口并不意味着更好的长期对话记忆。 ...

[Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning 🔗](https://arxiv.org/abs/2510.23038)

超越文本：强化学习与工具如何打造更智能的 LLM 评委

我们如何知道一个大语言模型 (LLM) 是否表现良好？这个看似简单的问题，是现代人工智能中最棘手的问题之一。虽然人类可以对 LLM 的回答进行评分，但这个过程缓慢、昂贵，且难以规模化。一个很有前景的替代方案是让另一个 LLM 担任评委，来评估它的同类。这种“LLM 评委”方法正在迅速成为语言模型训练、对齐和评估中不可或缺的一环。 ...

[Scaling Agent Learning via Experience Synthesis 🔗](https://arxiv.org/abs/2511.03773)

DreamGym：在合成世界中训练 AI 智能体，以掌控真实世界

引言: AI 智能体的困境想象一下，一个 AI 智能体可以为你在网站上预订旅行，通过与数字工具交互来管理你的日程，甚至为你浏览复杂的电子商务平台。这正是由大语言模型 (LLM) 驱动的自主智能体所承诺的未来。它们能够以惊人的通用性进行推理、规划和行动。然而，要真正在现实世界的任务中脱颖而出，它们必须像人类一样从经验中学习。 ...

[Context Engineering 2.0: The Context of Context Engineering 🔗](https://arxiv.org/abs/2510.26493)

从原始计算机到超人 AI：情境工程的隐藏历史与未来

引言: 不仅仅是提示如果你曾接触过现代 AI，你肯定听说过上下文窗口 (context window)——我们向 GPT‑4 或 Claude 等大语言模型 (LLM) 输入信息的数字暂存区。我们往里塞入提示、文档和聊天记录，希望模型能理解我们的意图。这种做法通常被称为提示工程 (prompt engineering)，或者更广泛地被称为情境工程 (context engineering)，仿佛是为智能体时代量身打造的一项技能。 ...

[Towards Robust Mathematical Reasoning 🔗](https://arxiv.org/abs/2511.01846)

超越正确答案：深入解读 IMO-Bench，人工智能数学能力的新黄金标准

图 1 | IMO-ProofBench 上人类评分与自动评分之间的相关性。基础和高阶问题均显示出强一致性，表明自动化证明评估的可行性。 ...

培育数字生命：深入探究培养皿NCA

创造人工生命——即复杂、自适应且拥有无限创造力的数字生命——的梦想，几十年来一直令科学家们着迷。在这一追求中，研究人员通常探索两条主要路径: 进化算法 : 模仿自然选择以发现新颖行为。这类算法强大且开放，但往往运行缓慢、缺乏引导。基于梯度的学习 : 深度学习的核心方法。它能高效优化拥有数百万参数的系统，但通常在固定的静态目标下运作。如果能将两者结合会怎样？试想一个系统，既利用深度学习的优化能力，又置身于一个动态、竞争的世界——一个以生存与增长为驱动力，能够自发产生复杂性的数字生态系统。 ...

[RDMA POINT-TO-POINT COMMUNICATION FOR LLM SYSTEMS 🔗](https://arxiv.org/abs/2510.27656)

超越集合通信：TransferEngine 如何为现代大语言模型解锁可移植的高速通信

大语言模型 (LLMs) 正以惊人的速度演进。我们已经从单体模型发展到诸如混合专家模型 (Mixture-of-Experts, MoE) (可高效扩展至万亿参数) 和分离式推理 (disaggregated inference) (模型的不同执行阶段——预填充与解码——在专门的独立集群上运行) 等架构。这些新设计虽优雅，却暴露出当今机器学习基础设施中的一个关键短板: 通信。 ...

[Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy 🔗](https://arxiv.org/abs/2502.19902)

Optimus-2：让 AI 像专家一样玩转 Minecraft 的更智能策略

创造一个能够在像 Minecraft 这样复杂、开放世界中自由导航和执行任务的 AI，是人工智能领域的重大挑战之一。目标不仅是构建一个能执行单一任务的智能体，更是要创造一个能够理解多样化指令、规划多步行动并熟练执行的系统——就像人类玩家一样。 ...

[Training Agents Inside of Scalable World Models 🔗](https://arxiv.org/abs/2509.24527)

Dreamer 4：AI 如何通过做梦学会在《我的世界》中获得钻石

想象一下，你正试图学习一项复杂的技能——比如精通一款新的视频游戏或操作一个机器人——但你只能使用其他人的操作录像。你无法亲自与环境互动，只能通过观察去推断规则。你会如何找到成功的正确策略？ ...

[La-MAML: Look-ahead Meta Learning for Continual Learning 🔗](https://arxiv.org/abs/2007.13904)

永不遗忘：La-MAML 如何教模型进行持续学习

想象一下，你教一个机器人执行一项任务——比如对回收物进行分类。它学得非常完美。然后你教它给植物浇水，突然间它就忘记了如何分类回收物。这个令人沮丧的问题被称为灾难性遗忘 , 是构建能够随时间学习和适应的智能系统所面临的最大障碍之一。 ...

[A Unified and General Framework for Continual Learning 🔗](https://arxiv.org/abs/2403.13249)

一个框架统领全局：统一持续学习并引入‘刷新学习’

想象一辆自动驾驶汽车学习如何在你所在城市的街道上行驶。它掌握了交通信号灯、停车标志和人行横道。现在，它被部署到一个拥有不同路口和陌生标志的新城市。它该如何学习这些新规则，同时不完全忘掉从家乡学到的一切？这正是持续学习 (Continual Learning, CL) 的核心——一个致力于构建能像人类一样，从不断变化的数据流中顺序学习的人工智能分支。 ...

[The Ideal Continual Learner: An Agent That Never Forgets 🔗](https://arxiv.org/abs/2305.00316)

追求完美记忆：深入剖析理想的持续学习者

想象一下教一个孩子认识猫。他们学得非常好。然后你教他们认识狗——突然之间，他们再也认不出猫了。这个令人困惑的场景正是人工智能每天所面临的现实。这被称为灾难性遗忘 : 当机器学习模型学习一个新任务时，它往往覆盖掉之前的知识，从而导致性能急剧下降。 ...

[Ex-Model: Continual Learning from a Stream of Trained Models 🔗](https://arxiv.org/abs/2112.06511)

向大师学习：深入解析 Ex-Model 持续学习

在人工智能领域，一个终极目标是构建能够持续学习——而不会忘记已知知识的系统。人类天生就具备这种能力: 当我们学习关于狗的知识时，并不会忘记之前关于猫的认知。这种在保持已有理解的同时获取新知识的能力，正是持续学习 (Continual Learning, CL) 的核心。 ...

[THEORY ON MIXTURE-OF-EXPERTS IN CONTINUAL LEARNING 🔗](https://arxiv.org/abs/2406.16437)

为什么你的AI会遗忘——以及专家团队如何解决它：深入探讨用于持续学习的混合专家模型

想象一下教一个孩子识别动物。你从猫开始，他学得很好。然后你教他狗。经过一周的“狗课”后，你再给他看一只猫，他会犹豫——“这是一只长相奇怪的狗吗？”这不仅是孩子们常见的经典问题，也是人工智能面临的难题。它被称为灾难性遗忘 (catastrophic forgetting) , 是构建能像人类一样持续学习的人工智能的最大障碍之一。 ...

[MAGMAX: Leveraging Model Merging for Seamless Continual Learning 🔗](https://arxiv.org/abs/2407.06322)

永不遗忘：MAGMAX 和模型合并如何革新持续学习

大型预训练模型——如 CLIP、GPT 和 ViT——已成为现代人工智能的支柱，实现了几年前还无法想象的成果。然而，这些系统都有一个根本性的弱点: 它们是静态的。一旦在庞大但固定的数据集上完成训练，它们就难以在不丢失已学知识的情况下吸收新信息。这种现象被称为灾难性遗忘 , 它阻碍了真正自适应和智能系统的发展。 ...