Papers

[Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search 🔗](https://arxiv.org/abs/2405.15383)

paper_title: 由蒙特卡洛树搜索引导的大语言模型生成代码世界模型 blog_title: 教 LLM 编写世界代码: 通往更智能 AI Agent 的新路径想象一下教一个机器人下棋。你可以给它看数百万盘棋局，希望它能像许多深度学习模型一样学会其中的模式。或者，你也可以给它一本规则手册。有了规则，机器人就不仅仅是模仿过去的棋局——它能够对任何可能的棋盘局面进行推理，预测结果，并战略性地规划自己的走法。 ...

[ATOKEN: A UNIFIED TOKENIZER FOR VISION 🔗](https://arxiv.org/abs/2509.14476)

一个分词器统一所有？深入解析 ATOKEN 如何处理图像、视频和 3D

引言: 探寻通用的视觉语言在人工智能的世界里，像 GPT-4 这样的大语言模型 (LLM) 已经成为泛化大师。单个模型可以编写代码、翻译语言，并对复杂主题进行推理。这一成功的关键因素之一是看似不起眼的 **分词器 **(tokenizer) ——一个将所有形式的文本 (代码、散文、表格) 分解为一套共享、统一的词元 (token) 的组件。这种“通用语言”使得模型能够高效扩展，并在不同任务间无缝迁移知识。 ...

[ARE: scaling up agent environments and evaluations 🔗](https://arxiv.org/abs/2509.17158)

超越 ReAct 循环：使用 ARE 和 Gaia2 构建与测试更智能的 AI 智能体

AI 智能体正变得越来越出色。它们可以搜索网页、预订航班、管理你的日历。但如果你用过，就会知道它们仍然有些……脆弱。它们运行在一个会为了等它们思考而方便地暂停的世界里——这是我们谁都不曾拥有的奢侈。真实世界是混乱、动态和异步的——无论我们的智能体是否准备好，事情都会发生。 ...

[Aggregated Residual Transformations for Deep Neural Networks 🔗](https://arxiv.org/abs/1611.05431)

ResNeXt：为深度神经网络设计增加一个新维度

在深度学习领域，构建更强大的神经网络通常有两条路径: 让网络更深或更宽。 VGG 架构展示了深度的影响力，它通过堆叠大量简单、重复的层取得了显著效果。ResNet 引入了残差连接，使得训练极深的神经网络成为可能，而不会陷入可怕的梯度消失问题。与此同时，谷歌的 Inception 系列则开辟了另一条通往宽度的道路，它创建了多分支模块，每个模块都有精心设计的并行路径和专用卷积核。 ...

[Self-Forcing++: Towards Minute-Scale High-Quality Video Generation 🔗](https://arxiv.org/abs/2510.02283)

从秒到分钟：Self-Forcing++ 如何教会 AI 生成长视频

人工智能视频生成领域正以闪电般的速度发展。像 OpenAI 的 Sora、谷歌的 Veo 等模型正不断产出逼真到令人惊叹的视频片段，常常模糊了合成内容与真实内容之间的界限。然而，尽管这些最先进的系统功能强大，但大多存在一个令人沮丧的局限: 它们只能创建短视频——通常上限为 5 到 10 秒。 ...

[STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS? 🔗](https://arxiv.org/abs/2510.02209)

AI 能战胜华尔街吗？用 STOCKBENCH 在股市中测试 LLM 代理

大型语言模型 (LLM) 的发展早已超越了巧妙的聊天机器人——它们如今已是能够推理、规划并执行复杂任务的强大自主代理。它们可以编写代码、协助科学研究，甚至能将市场营销或工程领域的整个工作流程实现自动化。 ...

[EXGRPO: LEARNING TO REASON FROM EXPERIENCE 🔗](https://arxiv.org/abs/2510.02245)

别浪费你的错误：智能经验回放如何解锁大语言模型的推理能力

大型语言模型 (LLMs) 在解决复杂推理任务方面正变得异常出色，从解答数学竞赛题到编写代码。推动这一进步的关键技术是强化学习 (RL) ，尤其是其中一种名为基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 的范式。在 RLVR 中，我们将大语言模型的推理过程——即其“思维链”——视作一系列动作。如果最终答案正确，模型将获得奖励。这是一种简单却强大的方法，可以教会模型更好地“思考”。 ...

[Towards General Agentic Intelligence via Environment Scaling 🔗](https://arxiv.org/abs/2509.13311)

AgentScaler：如何通过扩展环境（而非仅仅模型）来解锁高级 AI 智能体

一只愉快的探险家猴子，被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。想象一下，你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位，并购买博物馆展览的门票。这并不是一个简单的问答任务，而是一个复杂的多步骤过程，需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。 ...

[IS IN-CONTEXT LEARNING LEARNING? 🔗](https://arxiv.org/abs/2509.10414)

抛开炒作：LLM 究竟是在学习还是在记忆？深入探讨上下文学习

像 GPT-4 这样的大型语言模型 (LLM) 展现出一种非凡的能力: 它们通常在看到少数几个示例后，就能立即执行新任务。无论是翻译句子、分类客户情绪，还是解决逻辑谜题，你只需提供一些演示，模型就能为新的、未见过的输入生成回应。这种现象被称为上下文学习 (In-Context Learning, ICL) ——这也是让这些模型显得如此多才多艺的部分原因。 ...

[TOWARDS A PHYSICS FOUNDATION MODEL 🔗](https://arxiv.org/abs/2509.13805)

GP-hy-T：通用物理引擎的黎明？

引言: 从语言到自然法则近年来，一种新范式重塑了人工智能的格局——基础模型。像 GPT-4 这样的系统已经展示了，一个庞大的模型经过一次性训练后，可以适配到无数任务——写诗、生成代码、回答问题——而无需重新训练。这种“一次训练，随处部署”的理念，彻底改变了自然语言处理领域。 ...

[DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL 🔗](https://arxiv.org/abs/2509.10446)

超越谷歌：DeepDive 如何教大语言模型成为专家级研究员

我们都经历过这种情况——你在寻找某个极其刁钻、具体问题的答案时，简单的谷歌搜索根本不够用。你最终会打开几十个标签页，交叉引用事实，从零散的来源中拼凑线索。这种深度搜索是一种独特的人类技能，需要耐心、批判性思维以及连接看似无关信息的能力。 ...

[K2-Think: A Parameter-Efficient Reasoning System 🔗](https://arxiv.org/abs/2509.07604)

K2-THINK：320亿参数模型如何越级挑战AI巨头

图: MBZUAI 基础模型研究所发布的 K2-THINK 官方标志。在人工智能领域，有一个普遍的观点:** 越大越好**。大语言模型 (LLM) 的参数规模已经膨胀到数千亿，甚至数万亿。这些庞大的系统取得了惊人的成就，但也伴随着代价: 训练成本高昂、部署困难，并且对大多数研究人员而言往往遥不可及。 ...

[Discovery of Unstable Singularities 🔗](https://arxiv.org/abs/2509.14185)

在刀尖上平衡：人工智能如何发现流体动力学中难以捉摸的奇点

流体的不可预测之舞与对奇点的探寻想象一下将奶油倒入咖啡中的情景。那些形成的复杂漩涡和涡流，是流体动力学在日常生活中一个美丽而常见的例子。几个世纪以来，数学家和物理学家一直使用一套方程——其中一些可以追溯到18世纪50年代的莱昂哈德·欧拉——来描述这种运动。这些方程，如欧拉方程和纳维–斯托克斯方程，是我们理解从天气模式到飞机机翼上的气流等一切现象的基石。 ...

[LIVEMCP-101: STRESS TESTING AND DIAGNOSING MCP-ENABLED AGENTS ON CHALLENGING QUERIES 🔗](https://arxiv.org/abs/2508.15760)

考验 AI 智能体：深入 LiveMCP-101 的真实世界挑战

引言: 寻求可靠的 AI 智能体科幻作品中 AI 助手的梦想——比如钢铁侠的 J.A.R.V.I.S.——能够理解复杂指令、搜索网页、管理文件并完美执行多步计划，这一场景正越来越接近现实。这类系统被称为 AI 智能体 (AI agents)，代表了人工智能的下一个前沿。通过使用外部“工具”——如网页搜索 API、电子表格编辑器或订票服务——智能体可以突破预训练知识的限制，在现实世界中灵活运行。 ...

[The Majority is not always right: RL training for solution aggregation 🔗](https://arxiv.org/abs/2509.06870)

超越多数原则：训练大语言模型从多个猜测中综合出最佳答案

当面临难题时，你会怎么做？你可能会构思几种不同的方法，权衡它们的利弊，然后将每种方法的优点结合起来，打造一个最终的、可靠的解决方案。事实证明，我们可以教大语言模型 (LLM) 做类似的事情——这会显著提高它们解决复杂推理任务的能力。 ...

[Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate 🔗](https://arxiv.org/abs/2509.05396)

当多个 AI 大脑不如一个：AI 辩论的隐藏危险

我们很早就学过一个道理: 三个臭皮匠，顶个诸葛亮。协作、讨论和辩论是人类解决问题的典型方式。通过挑战彼此的假设和分享不同的观点，我们通常能得出比任何个人独立思考更好的答案。因此，我们很自然地认为，这同样适用于人工智能。 ...

[ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute 🔗](https://arxiv.org/abs/2509.04475)

打破大语言模型的“隧道视野”：深入解读 ParaThinker 的并行推理

引言: 思考得更久 vs. 思考得更广在让大型语言模型 (LLM) 变得更智能的持续探索中，有一项策略主导了近期的突破:** 扩展测试时计算**。这个想法简单而强大——在模型生成答案前，给予它更多的时间和计算资源去“思考”。通过生成更长、更详细的思维链，像 OpenAI 的 o1 这样的模型在复杂推理任务上展现了显著的进步。 ...

[AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 🔗](https://arxiv.org/abs/2509.08755)

实践出真知：AgentGym-RL 如何教大语言模型解决真实世界问题

大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器，演变为能够处理复杂、真实世界任务的自主智能体。想象一下，一个人工智能不仅能回答你的问题，还能浏览网站预订航班、进行多步骤的科学研究，甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。 ...

[ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning 🔗](https://arxiv.org/abs/2509.04903)

超越“足够好”：ACE-RL 如何教大语言模型掌握长文本写作

大语言模型 (LLM) 在理解海量文本方面已变得极其娴熟。给它们一份 100 页的文档，它们能够进行总结、回答相关问题，甚至“海底捞针”找到细节。但当你反过来，让它们去生成一份长篇、高质量的文档——例如一份详尽的报告、一则引人入胜的故事或一份法律陈述——它们往往会遇到困难。生成的内容可能在句子层面上连贯，但很快就会失去重点、出现重复，或者无法满足提示中具体而细微的要求。 ...

[REFRAG: Rethinking RAG based Decoding 🔗](https://arxiv.org/abs/2509.01092)

REFRAG：为 RAG 超级加速，首个 token 生成速度提升 30 倍

大型语言模型 (LLM) 改变了我们与信息交互的方式，但它们有一个众所周知的致命弱点: 对计算资源的巨大需求。这一点在检索增强生成 (Retrieval-Augmented Generation, RAG) 系统中尤为明显，因为这类系统需要将大量外部文本注入模型以帮助其回答问题。我们提供的上下文越多，潜在的答案质量就越高，但处理过程也会变得更慢、更昂贵。这在知识量和效率之间造成了一个令人沮丧的权衡。 ...