](https://deep-paper.org/en/paper/2511.06411/images/cover.png)
超越离散思维:SofT-GRPO 如何让 LLM 在连续空间中推理
大语言模型 (LLM) 通过一种名为 *思维链 (Chain-of-Thought, CoT) * 的技术,在复杂推理方面变得异常出色——这是一个逐步生成离散推理词元 (token) 的过程,非常类似于人类思考问题的方式。然而,这种方法本质上是僵化的: 在每一步,模型都必须从其词汇表中选择一个唯一的词元。 ...
](https://deep-paper.org/en/paper/2511.06411/images/cover.png)
大语言模型 (LLM) 通过一种名为 *思维链 (Chain-of-Thought, CoT) * 的技术,在复杂推理方面变得异常出色——这是一个逐步生成离散推理词元 (token) 的过程,非常类似于人类思考问题的方式。然而,这种方法本质上是僵化的: 在每一步,模型都必须从其词汇表中选择一个唯一的词元。 ...
](https://deep-paper.org/en/paper/2511.07327/images/cover.png)
引言: 智能体的两难困境 想象一个 AI 智能体接到一个复杂的研究任务,例如: “发展中国家采用可再生能源会带来哪些长期经济影响?” 要回答这个问题,智能体不能仅仅依赖其预训练的知识——它必须像一个真正的研究员一样行动: 搜索网页、阅读学术论文、分析数据,并从众多来源中撰写出一个连贯的答案。 ...
](https://deep-paper.org/en/paper/2511.02303/images/cover.png)
想象一下,你需要组建一支由顶尖专家组成的团队来解决一个复杂问题。其中一位是战略大师,负责将问题分解为可管理的步骤;另一位是严谨的执行者,负责处理计算并落实计划。理论上,这种合作应该比任何单一专家独立工作都更高效。 ...
](https://deep-paper.org/en/paper/2511.02864/images/cover.png)
数学史是一部思想的发展史——闪烁的直觉、艰辛的探索与严密的证明构成了它的主线。如今,一类新型工具正开始拓展这一故事: 它们能够搜索、提出假设,甚至建议证明。AlphaEvolve,正是论文《大规模的数学探索与发现》的研究主题之一。它将大语言模型 (LLM) 的生成能力与进化式程序搜索和严谨的自动化验证相结合,最终形成一个能够在数十个数学问题上提出、测试和改进构造的智能体——有时能匹配现有的最佳已知解,有时能改进它们,偶尔还能提出启发人类证明的一般模式。 ...
](https://deep-paper.org/en/paper/2511.01854/images/cover.png)
大型语言模型 (LLM) 正迅速从简单的聊天机器人演进为复杂的推理引擎。其中最令人振奋的前沿之一,是多智能体系统的开发——这种架构中,一个主 LLM 负责协调整个由专业子智能体组成的团队: 一个智能体可能专注于代码分析,另一个负责数据库查询,再一个聚焦于网页搜索。每个智能体都可以配备数十甚至上千个工具——也就是它们能调用的函数或 API,用以完成任务。 ...
](https://deep-paper.org/en/paper/2510.27246/images/cover.png)
超越百万词元: 为长上下文大语言模型构建真实测试与真实记忆 你是否曾与智能助手聊了很久,但几轮对话后它却忘记了你明确告诉过它的细节?随着模型的上下文窗口越来越大——10 万、100 万,甚至 1000 万词元——这种失忆问题变得愈发明显: 更大的上下文窗口并不意味着更好的长期对话记忆。 ...
](https://deep-paper.org/en/paper/2510.23038/images/cover.png)
我们如何知道一个大语言模型 (LLM) 是否表现良好?这个看似简单的问题,是现代人工智能中最棘手的问题之一。虽然人类可以对 LLM 的回答进行评分,但这个过程缓慢、昂贵,且难以规模化。一个很有前景的替代方案是让另一个 LLM 担任评委,来评估它的同类。这种“LLM 评委”方法正在迅速成为语言模型训练、对齐和评估中不可或缺的一环。 ...
](https://deep-paper.org/en/paper/2511.03773/images/cover.png)
引言: AI 智能体的困境 想象一下,一个 AI 智能体可以为你在网站上预订旅行,通过与数字工具交互来管理你的日程,甚至为你浏览复杂的电子商务平台。这正是由大语言模型 (LLM) 驱动的自主智能体所承诺的未来。它们能够以惊人的通用性进行推理、规划和行动。然而,要真正在现实世界的任务中脱颖而出,它们必须像人类一样从经验中学习。 ...
](https://deep-paper.org/en/paper/2510.26493/images/cover.png)
引言: 不仅仅是提示 如果你曾接触过现代 AI,你肯定听说过上下文窗口 (context window)——我们向 GPT‑4 或 Claude 等大语言模型 (LLM) 输入信息的数字暂存区。我们往里塞入提示、文档和聊天记录,希望模型能理解我们的意图。这种做法通常被称为提示工程 (prompt engineering),或者更广泛地被称为情境工程 (context engineering),仿佛是为智能体时代量身打造的一项技能。 ...
](https://deep-paper.org/en/paper/2511.01846/images/cover.png)
图 1 | IMO-ProofBench 上人类评分与自动评分之间的相关性。基础和高阶问题均显示出强一致性,表明自动化证明评估的可行性。 ...

创造人工生命——即复杂、自适应且拥有无限创造力的数字生命——的梦想,几十年来一直令科学家们着迷。在这一追求中,研究人员通常探索两条主要路径: 进化算法 : 模仿自然选择以发现新颖行为。这类算法强大且开放,但往往运行缓慢、缺乏引导。 基于梯度的学习 : 深度学习的核心方法。它能高效优化拥有数百万参数的系统,但通常在固定的静态目标下运作。 如果能将两者结合会怎样?试想一个系统,既利用深度学习的优化能力,又置身于一个动态、竞争的世界——一个以生存与增长为驱动力,能够自发产生复杂性的数字生态系统。 ...
](https://deep-paper.org/en/paper/2510.27656/images/cover.png)
大语言模型 (LLMs) 正以惊人的速度演进。我们已经从单体模型发展到诸如 混合专家模型 (Mixture-of-Experts, MoE) (可高效扩展至万亿参数) 和 分离式推理 (disaggregated inference) (模型的不同执行阶段——预填充与解码——在专门的独立集群上运行) 等架构。这些新设计虽优雅,却暴露出当今机器学习基础设施中的一个关键短板: 通信 。 ...
](https://deep-paper.org/en/paper/2502.19902/images/cover.png)
创造一个能够在像 Minecraft 这样复杂、开放世界中自由导航和执行任务的 AI,是人工智能领域的重大挑战之一。目标不仅是构建一个能执行单一任务的智能体,更是要创造一个能够理解多样化指令、规划多步行动并熟练执行的系统——就像人类玩家一样。 ...
](https://deep-paper.org/en/paper/2509.24527/images/cover.png)
想象一下,你正试图学习一项复杂的技能——比如精通一款新的视频游戏或操作一个机器人——但你只能使用其他人的操作录像。你无法亲自与环境互动,只能通过观察去推断规则。你会如何找到成功的正确策略? ...
](https://deep-paper.org/en/paper/2007.13904/images/cover.png)
想象一下,你教一个机器人执行一项任务——比如对回收物进行分类。它学得非常完美。然后你教它给植物浇水,突然间它就忘记了如何分类回收物。这个令人沮丧的问题被称为 灾难性遗忘 , 是构建能够随时间学习和适应的智能系统所面临的最大障碍之一。 ...
](https://deep-paper.org/en/paper/2403.13249/images/cover.png)
想象一辆自动驾驶汽车学习如何在你所在城市的街道上行驶。它掌握了交通信号灯、停车标志和人行横道。现在,它被部署到一个拥有不同路口和陌生标志的新城市。它该如何学习这些新规则,同时不完全忘掉从家乡学到的一切?这正是持续学习 (Continual Learning, CL) 的核心——一个致力于构建能像人类一样,从不断变化的数据流中顺序学习的人工智能分支。 ...
](https://deep-paper.org/en/paper/2305.00316/images/cover.png)
想象一下教一个孩子认识猫。他们学得非常好。然后你教他们认识狗——突然之间,他们再也认不出猫了。这个令人困惑的场景正是人工智能每天所面临的现实。这被称为灾难性遗忘 : 当机器学习模型学习一个新任务时,它往往覆盖掉之前的知识,从而导致性能急剧下降。 ...
](https://deep-paper.org/en/paper/2112.06511/images/cover.png)
在人工智能领域,一个终极目标是构建能够持续学习——而不会忘记已知知识的系统。人类天生就具备这种能力: 当我们学习关于狗的知识时,并不会忘记之前关于猫的认知。这种在保持已有理解的同时获取新知识的能力,正是持续学习 (Continual Learning, CL) 的核心。 ...
](https://deep-paper.org/en/paper/2406.16437/images/cover.png)
想象一下教一个孩子识别动物。你从猫开始,他学得很好。然后你教他狗。经过一周的“狗课”后,你再给他看一只猫,他会犹豫——“这是一只长相奇怪的狗吗?”这不仅是孩子们常见的经典问题,也是人工智能面临的难题。它被称为 灾难性遗忘 (catastrophic forgetting) , 是构建能像人类一样持续学习的人工智能的最大障碍之一。 ...
](https://deep-paper.org/en/paper/2407.06322/images/cover.png)
大型预训练模型——如 CLIP、GPT 和 ViT——已成为现代人工智能的支柱,实现了几年前还无法想象的成果。然而,这些系统都有一个根本性的弱点: 它们是静态的。一旦在庞大但固定的数据集上完成训练,它们就难以在不丢失已学知识的情况下吸收新信息。这种现象被称为 灾难性遗忘 , 它阻碍了真正自适应和智能系统的发展。 ...