[SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization 🔗](https://arxiv.org/abs/2511.06411)

超越离散思维:SofT-GRPO 如何让 LLM 在连续空间中推理

大语言模型 (LLM) 通过一种名为 *思维链 (Chain-of-Thought, CoT) * 的技术,在复杂推理方面变得异常出色——这是一个逐步生成离散推理词元 (token) 的过程,非常类似于人类思考问题的方式。然而,这种方法本质上是僵化的: 在每一步,模型都必须从其词汇表中选择一个唯一的词元。 ...

2025-11 · 5 分钟 · 2250 字
[IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction 🔗](https://arxiv.org/abs/2511.07327)

超越上下文窗口:IterResearch 如何教 AI 智能体思考、综合并攻克复杂问题

引言: 智能体的两难困境 想象一个 AI 智能体接到一个复杂的研究任务,例如: “发展中国家采用可再生能源会带来哪些长期经济影响?” 要回答这个问题,智能体不能仅仅依赖其预训练的知识——它必须像一个真正的研究员一样行动: 搜索网页、阅读学术论文、分析数据,并从众多来源中撰写出一个连贯的答案。 ...

2025-11 · 8 分钟 · 3625 字
[UNLOCKING THE POWER OF MULTI-AGENT LLM FOR REASONING: FROM LAZY AGENTS TO DELIBERATION 🔗](https://arxiv.org/abs/2511.02303)

Dr. MAMR:如何让 AI 智能体不再“偷懒”,提升协同推理能力

想象一下,你需要组建一支由顶尖专家组成的团队来解决一个复杂问题。其中一位是战略大师,负责将问题分解为可管理的步骤;另一位是严谨的执行者,负责处理计算并落实计划。理论上,这种合作应该比任何单一专家独立工作都更高效。 ...

2025-11 · 7 分钟 · 3182 字
[MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE 🔗](https://arxiv.org/abs/2511.02864)

用人工智能解锁数学发现:深入剖析 AlphaEvolve

数学史是一部思想的发展史——闪烁的直觉、艰辛的探索与严密的证明构成了它的主线。如今,一类新型工具正开始拓展这一故事: 它们能够搜索、提出假设,甚至建议证明。AlphaEvolve,正是论文《大规模的数学探索与发现》的研究主题之一。它将大语言模型 (LLM) 的生成能力与进化式程序搜索和严谨的自动化验证相结合,最终形成一个能够在数十个数学问题上提出、测试和改进构造的智能体——有时能匹配现有的最佳已知解,有时能改进它们,偶尔还能提出启发人类证明的一般模式。 ...

2025-11 · 11 分钟 · 5111 字
[Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems 🔗](https://arxiv.org/abs/2511.01854)

超越智能体级搜索:工具到智能体检索如何为 LLM 系统赋能

大型语言模型 (LLM) 正迅速从简单的聊天机器人演进为复杂的推理引擎。其中最令人振奋的前沿之一,是多智能体系统的开发——这种架构中,一个主 LLM 负责协调整个由专业子智能体组成的团队: 一个智能体可能专注于代码分析,另一个负责数据库查询,再一个聚焦于网页搜索。每个智能体都可以配备数十甚至上千个工具——也就是它们能调用的函数或 API,用以完成任务。 ...

2025-11 · 6 分钟 · 2792 字
[BEYOND A MILLION TOKENS: BENCHMARKING AND ENHANCING LONG-TERM MEMORY IN LLMS 🔗](https://arxiv.org/abs/2510.27246)

超越百万词元:为长上下文大语言模型构建真实测试与真实记忆

超越百万词元: 为长上下文大语言模型构建真实测试与真实记忆 你是否曾与智能助手聊了很久,但几轮对话后它却忘记了你明确告诉过它的细节?随着模型的上下文窗口越来越大——10 万、100 万,甚至 1000 万词元——这种失忆问题变得愈发明显: 更大的上下文窗口并不意味着更好的长期对话记忆。 ...

2025-10 · 8 分钟 · 3594 字
[Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning 🔗](https://arxiv.org/abs/2510.23038)

超越文本:强化学习与工具如何打造更智能的 LLM 评委

我们如何知道一个大语言模型 (LLM) 是否表现良好?这个看似简单的问题,是现代人工智能中最棘手的问题之一。虽然人类可以对 LLM 的回答进行评分,但这个过程缓慢、昂贵,且难以规模化。一个很有前景的替代方案是让另一个 LLM 担任评委,来评估它的同类。这种“LLM 评委”方法正在迅速成为语言模型训练、对齐和评估中不可或缺的一环。 ...

2025-10 · 7 分钟 · 3226 字
[Scaling Agent Learning via Experience Synthesis 🔗](https://arxiv.org/abs/2511.03773)

DreamGym:在合成世界中训练 AI 智能体,以掌控真实世界

引言: AI 智能体的困境 想象一下,一个 AI 智能体可以为你在网站上预订旅行,通过与数字工具交互来管理你的日程,甚至为你浏览复杂的电子商务平台。这正是由大语言模型 (LLM) 驱动的自主智能体所承诺的未来。它们能够以惊人的通用性进行推理、规划和行动。然而,要真正在现实世界的任务中脱颖而出,它们必须像人类一样从经验中学习。 ...

2025-11 · 7 分钟 · 3441 字
[Context Engineering 2.0: The Context of Context Engineering 🔗](https://arxiv.org/abs/2510.26493)

从原始计算机到超人 AI:情境工程的隐藏历史与未来

引言: 不仅仅是提示 如果你曾接触过现代 AI,你肯定听说过上下文窗口 (context window)——我们向 GPT‑4 或 Claude 等大语言模型 (LLM) 输入信息的数字暂存区。我们往里塞入提示、文档和聊天记录,希望模型能理解我们的意图。这种做法通常被称为提示工程 (prompt engineering),或者更广泛地被称为情境工程 (context engineering),仿佛是为智能体时代量身打造的一项技能。 ...

2025-10 · 8 分钟 · 3566 字
[Towards Robust Mathematical Reasoning 🔗](https://arxiv.org/abs/2511.01846)

超越正确答案:深入解读 IMO-Bench,人工智能数学能力的新黄金标准

图 1 | IMO-ProofBench 上人类评分与自动评分之间的相关性。基础和高阶问题均显示出强一致性,表明自动化证明评估的可行性。 ...

2025-11 · 7 分钟 · 3345 字

培育数字生命:深入探究培养皿NCA

创造人工生命——即复杂、自适应且拥有无限创造力的数字生命——的梦想,几十年来一直令科学家们着迷。在这一追求中,研究人员通常探索两条主要路径: 进化算法 : 模仿自然选择以发现新颖行为。这类算法强大且开放,但往往运行缓慢、缺乏引导。 基于梯度的学习 : 深度学习的核心方法。它能高效优化拥有数百万参数的系统,但通常在固定的静态目标下运作。 如果能将两者结合会怎样?试想一个系统,既利用深度学习的优化能力,又置身于一个动态、竞争的世界——一个以生存与增长为驱动力,能够自发产生复杂性的数字生态系统。 ...

6 分钟 · 2929 字
[RDMA POINT-TO-POINT COMMUNICATION FOR LLM SYSTEMS 🔗](https://arxiv.org/abs/2510.27656)

超越集合通信:TransferEngine 如何为现代大语言模型解锁可移植的高速通信

大语言模型 (LLMs) 正以惊人的速度演进。我们已经从单体模型发展到诸如 混合专家模型 (Mixture-of-Experts, MoE) (可高效扩展至万亿参数) 和 分离式推理 (disaggregated inference) (模型的不同执行阶段——预填充与解码——在专门的独立集群上运行) 等架构。这些新设计虽优雅,却暴露出当今机器学习基础设施中的一个关键短板: 通信 。 ...

2025-10 · 7 分钟 · 3290 字
[Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy 🔗](https://arxiv.org/abs/2502.19902)

Optimus-2:让 AI 像专家一样玩转 Minecraft 的更智能策略

创造一个能够在像 Minecraft 这样复杂、开放世界中自由导航和执行任务的 AI,是人工智能领域的重大挑战之一。目标不仅是构建一个能执行单一任务的智能体,更是要创造一个能够理解多样化指令、规划多步行动并熟练执行的系统——就像人类玩家一样。 ...

2025-02 · 7 分钟 · 3319 字
[Training Agents Inside of Scalable World Models 🔗](https://arxiv.org/abs/2509.24527)

Dreamer 4:AI 如何通过做梦学会在《我的世界》中获得钻石

想象一下,你正试图学习一项复杂的技能——比如精通一款新的视频游戏或操作一个机器人——但你只能使用其他人的操作录像。你无法亲自与环境互动,只能通过观察去推断规则。你会如何找到成功的正确策略? ...

2025-09 · 8 分钟 · 3926 字
[La-MAML: Look-ahead Meta Learning for Continual Learning 🔗](https://arxiv.org/abs/2007.13904)

永不遗忘:La-MAML 如何教模型进行持续学习

想象一下,你教一个机器人执行一项任务——比如对回收物进行分类。它学得非常完美。然后你教它给植物浇水,突然间它就忘记了如何分类回收物。这个令人沮丧的问题被称为 灾难性遗忘 , 是构建能够随时间学习和适应的智能系统所面临的最大障碍之一。 ...

2020-07 · 7 分钟 · 3092 字
[A Unified and General Framework for Continual Learning 🔗](https://arxiv.org/abs/2403.13249)

一个框架统领全局:统一持续学习并引入‘刷新学习’

想象一辆自动驾驶汽车学习如何在你所在城市的街道上行驶。它掌握了交通信号灯、停车标志和人行横道。现在,它被部署到一个拥有不同路口和陌生标志的新城市。它该如何学习这些新规则,同时不完全忘掉从家乡学到的一切?这正是持续学习 (Continual Learning, CL) 的核心——一个致力于构建能像人类一样,从不断变化的数据流中顺序学习的人工智能分支。 ...

2024-03 · 7 分钟 · 3159 字
[The Ideal Continual Learner: An Agent That Never Forgets 🔗](https://arxiv.org/abs/2305.00316)

追求完美记忆:深入剖析理想的持续学习者

想象一下教一个孩子认识猫。他们学得非常好。然后你教他们认识狗——突然之间,他们再也认不出猫了。这个令人困惑的场景正是人工智能每天所面临的现实。这被称为灾难性遗忘 : 当机器学习模型学习一个新任务时,它往往覆盖掉之前的知识,从而导致性能急剧下降。 ...

2023-05 · 7 分钟 · 3233 字
[Ex-Model: Continual Learning from a Stream of Trained Models 🔗](https://arxiv.org/abs/2112.06511)

向大师学习:深入解析 Ex-Model 持续学习

在人工智能领域,一个终极目标是构建能够持续学习——而不会忘记已知知识的系统。人类天生就具备这种能力: 当我们学习关于狗的知识时,并不会忘记之前关于猫的认知。这种在保持已有理解的同时获取新知识的能力,正是持续学习 (Continual Learning, CL) 的核心。 ...

2021-12 · 7 分钟 · 3280 字
[THEORY ON MIXTURE-OF-EXPERTS IN CONTINUAL LEARNING 🔗](https://arxiv.org/abs/2406.16437)

为什么你的AI会遗忘——以及专家团队如何解决它:深入探讨用于持续学习的混合专家模型

想象一下教一个孩子识别动物。你从猫开始,他学得很好。然后你教他狗。经过一周的“狗课”后,你再给他看一只猫,他会犹豫——“这是一只长相奇怪的狗吗?”这不仅是孩子们常见的经典问题,也是人工智能面临的难题。它被称为 灾难性遗忘 (catastrophic forgetting) , 是构建能像人类一样持续学习的人工智能的最大障碍之一。 ...

2024-06 · 7 分钟 · 3424 字
[MAGMAX: Leveraging Model Merging for Seamless Continual Learning 🔗](https://arxiv.org/abs/2407.06322)

永不遗忘:MAGMAX 和模型合并如何革新持续学习

大型预训练模型——如 CLIP、GPT 和 ViT——已成为现代人工智能的支柱,实现了几年前还无法想象的成果。然而,这些系统都有一个根本性的弱点: 它们是静态的。一旦在庞大但固定的数据集上完成训练,它们就难以在不丢失已学知识的情况下吸收新信息。这种现象被称为 灾难性遗忘 , 它阻碍了真正自适应和智能系统的发展。 ...

2024-07 · 7 分钟 · 3180 字