[Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search 🔗](https://arxiv.org/abs/2405.15383)

paper_title: 由蒙特卡洛树搜索引导的大语言模型生成代码世界模型 blog_title: 教 LLM 编写世界代码: 通往更智能 AI Agent 的新路径 想象一下教一个机器人下棋。你可以给它看数百万盘棋局,希望它能像许多深度学习模型一样学会其中的模式。或者,你也可以给它一本规则手册。有了规则,机器人就不仅仅是模仿过去的棋局——它能够对任何可能的棋盘局面进行推理,预测结果,并战略性地规划自己的走法。 ...

2024-05 · 6 分钟 · 2970 字
[ATOKEN: A UNIFIED TOKENIZER FOR VISION 🔗](https://arxiv.org/abs/2509.14476)

一个分词器统一所有?深入解析 ATOKEN 如何处理图像、视频和 3D

引言: 探寻通用的视觉语言 在人工智能的世界里,像 GPT-4 这样的大语言模型 (LLM) 已经成为泛化大师。单个模型可以编写代码、翻译语言,并对复杂主题进行推理。这一成功的关键因素之一是看似不起眼的 **分词器 **(tokenizer) ——一个将所有形式的文本 (代码、散文、表格) 分解为一套共享、统一的词元 (token) 的组件。这种“通用语言”使得模型能够高效扩展,并在不同任务间无缝迁移知识。 ...

2025-09 · 6 分钟 · 2776 字
[ARE: scaling up agent environments and evaluations 🔗](https://arxiv.org/abs/2509.17158)

超越 ReAct 循环:使用 ARE 和 Gaia2 构建与测试更智能的 AI 智能体

AI 智能体正变得越来越出色。它们可以搜索网页、预订航班、管理你的日历。但如果你用过,就会知道它们仍然有些……脆弱。它们运行在一个会为了等它们思考而方便地暂停的世界里——这是我们谁都不曾拥有的奢侈。真实世界是混乱、动态和异步的——无论我们的智能体是否准备好,事情都会发生。 ...

2025-09 · 7 分钟 · 3153 字
[Aggregated Residual Transformations for Deep Neural Networks 🔗](https://arxiv.org/abs/1611.05431)

ResNeXt:为深度神经网络设计增加一个新维度

在深度学习领域,构建更强大的神经网络通常有两条路径: 让网络更深或更宽。 VGG 架构展示了深度的影响力,它通过堆叠大量简单、重复的层取得了显著效果。ResNet 引入了残差连接,使得训练极深的神经网络成为可能,而不会陷入可怕的梯度消失问题。与此同时,谷歌的 Inception 系列则开辟了另一条通往宽度的道路,它创建了多分支模块,每个模块都有精心设计的并行路径和专用卷积核。 ...

2016-11 · 6 分钟 · 2608 字
[Self-Forcing++: Towards Minute-Scale High-Quality Video Generation 🔗](https://arxiv.org/abs/2510.02283)

从秒到分钟:Self-Forcing++ 如何教会 AI 生成长视频

人工智能视频生成领域正以闪电般的速度发展。像 OpenAI 的 Sora、谷歌的 Veo 等模型正不断产出逼真到令人惊叹的视频片段,常常模糊了合成内容与真实内容之间的界限。然而,尽管这些最先进的系统功能强大,但大多存在一个令人沮丧的局限: 它们只能创建短视频——通常上限为 5 到 10 秒。 ...

2025-10 · 6 分钟 · 2630 字
[STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS? 🔗](https://arxiv.org/abs/2510.02209)

AI 能战胜华尔街吗?用 STOCKBENCH 在股市中测试 LLM 代理

大型语言模型 (LLM) 的发展早已超越了巧妙的聊天机器人——它们如今已是能够推理、规划并执行复杂任务的强大自主代理。它们可以编写代码、协助科学研究,甚至能将市场营销或工程领域的整个工作流程实现自动化。 ...

2025-10 · 6 分钟 · 2509 字
[EXGRPO: LEARNING TO REASON FROM EXPERIENCE 🔗](https://arxiv.org/abs/2510.02245)

别浪费你的错误:智能经验回放如何解锁大语言模型的推理能力

大型语言模型 (LLMs) 在解决复杂推理任务方面正变得异常出色,从解答数学竞赛题到编写代码。推动这一进步的关键技术是强化学习 (RL) ,尤其是其中一种名为基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 的范式。在 RLVR 中,我们将大语言模型的推理过程——即其“思维链”——视作一系列动作。如果最终答案正确,模型将获得奖励。这是一种简单却强大的方法,可以教会模型更好地“思考”。 ...

2025-10 · 6 分钟 · 2746 字
[Towards General Agentic Intelligence via Environment Scaling 🔗](https://arxiv.org/abs/2509.13311)

AgentScaler:如何通过扩展环境(而非仅仅模型)来解锁高级 AI 智能体

一只愉快的探险家猴子,被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。 想象一下,你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位,并购买博物馆展览的门票。这并不是一个简单的问答任务,而是一个复杂的多步骤过程,需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。 ...

2025-09 · 5 分钟 · 2172 字
[IS IN-CONTEXT LEARNING LEARNING? 🔗](https://arxiv.org/abs/2509.10414)

抛开炒作:LLM 究竟是在学习还是在记忆?深入探讨上下文学习

像 GPT-4 这样的大型语言模型 (LLM) 展现出一种非凡的能力: 它们通常在看到少数几个示例后,就能立即执行新任务。无论是翻译句子、分类客户情绪,还是解决逻辑谜题,你只需提供一些演示,模型就能为新的、未见过的输入生成回应。这种现象被称为 上下文学习 (In-Context Learning, ICL) ——这也是让这些模型显得如此多才多艺的部分原因。 ...

2025-09 · 5 分钟 · 2477 字
[TOWARDS A PHYSICS FOUNDATION MODEL 🔗](https://arxiv.org/abs/2509.13805)

GP-hy-T:通用物理引擎的黎明?

引言: 从语言到自然法则 近年来,一种新范式重塑了人工智能的格局——基础模型。像 GPT-4 这样的系统已经展示了,一个庞大的模型经过一次性训练后,可以适配到无数任务——写诗、生成代码、回答问题——而无需重新训练。这种“一次训练,随处部署”的理念,彻底改变了自然语言处理领域。 ...

2025-09 · 6 分钟 · 2566 字
[DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL 🔗](https://arxiv.org/abs/2509.10446)

超越谷歌:DeepDive 如何教大语言模型成为专家级研究员

我们都经历过这种情况——你在寻找某个极其刁钻、具体问题的答案时,简单的谷歌搜索根本不够用。你最终会打开几十个标签页,交叉引用事实,从零散的来源中拼凑线索。这种 深度搜索 是一种独特的人类技能,需要耐心、批判性思维以及连接看似无关信息的能力。 ...

2025-09 · 6 分钟 · 2698 字
[K2-Think: A Parameter-Efficient Reasoning System 🔗](https://arxiv.org/abs/2509.07604)

K2-THINK:320亿参数模型如何越级挑战AI巨头

图: MBZUAI 基础模型研究所发布的 K2-THINK 官方标志。 在人工智能领域,有一个普遍的观点:** 越大越好**。大语言模型 (LLM) 的参数规模已经膨胀到数千亿,甚至数万亿。这些庞大的系统取得了惊人的成就,但也伴随着代价: 训练成本高昂、部署困难,并且对大多数研究人员而言往往遥不可及。 ...

2025-09 · 5 分钟 · 2311 字
[Discovery of Unstable Singularities 🔗](https://arxiv.org/abs/2509.14185)

在刀尖上平衡:人工智能如何发现流体动力学中难以捉摸的奇点

流体的不可预测之舞与对奇点的探寻 想象一下将奶油倒入咖啡中的情景。那些形成的复杂漩涡和涡流,是流体动力学在日常生活中一个美丽而常见的例子。几个世纪以来,数学家和物理学家一直使用一套方程——其中一些可以追溯到18世纪50年代的莱昂哈德·欧拉——来描述这种运动。这些方程,如欧拉方程和纳维–斯托克斯方程,是我们理解从天气模式到飞机机翼上的气流等一切现象的基石。 ...

2025-09 · 7 分钟 · 3389 字
[LIVEMCP-101: STRESS TESTING AND DIAGNOSING MCP-ENABLED AGENTS ON CHALLENGING QUERIES 🔗](https://arxiv.org/abs/2508.15760)

考验 AI 智能体:深入 LiveMCP-101 的真实世界挑战

引言: 寻求可靠的 AI 智能体 科幻作品中 AI 助手的梦想——比如钢铁侠的 J.A.R.V.I.S.——能够理解复杂指令、搜索网页、管理文件并完美执行多步计划,这一场景正越来越接近现实。这类系统被称为 AI 智能体 (AI agents),代表了人工智能的下一个前沿。通过使用外部“工具”——如网页搜索 API、电子表格编辑器或订票服务——智能体可以突破预训练知识的限制,在现实世界中灵活运行。 ...

2025-08 · 6 分钟 · 2904 字
[The Majority is not always right: RL training for solution aggregation 🔗](https://arxiv.org/abs/2509.06870)

超越多数原则:训练大语言模型从多个猜测中综合出最佳答案

当面临难题时,你会怎么做?你可能会构思几种不同的方法,权衡它们的利弊,然后将每种方法的优点结合起来,打造一个最终的、可靠的解决方案。事实证明,我们可以教大语言模型 (LLM) 做类似的事情——这会显著提高它们解决复杂推理任务的能力。 ...

2025-09 · 6 分钟 · 2697 字
[Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate 🔗](https://arxiv.org/abs/2509.05396)

当多个 AI 大脑不如一个:AI 辩论的隐藏危险

我们很早就学过一个道理: 三个臭皮匠,顶个诸葛亮。协作、讨论和辩论是人类解决问题的典型方式。通过挑战彼此的假设和分享不同的观点,我们通常能得出比任何个人独立思考更好的答案。因此,我们很自然地认为,这同样适用于人工智能。 ...

2025-09 · 6 分钟 · 2775 字
[ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute 🔗](https://arxiv.org/abs/2509.04475)

打破大语言模型的“隧道视野”:深入解读 ParaThinker 的并行推理

引言: 思考得更久 vs. 思考得更广 在让大型语言模型 (LLM) 变得更智能的持续探索中,有一项策略主导了近期的突破:** 扩展测试时计算**。这个想法简单而强大——在模型生成答案前,给予它更多的时间和计算资源去“思考”。通过生成更长、更详细的思维链,像 OpenAI 的 o1 这样的模型在复杂推理任务上展现了显著的进步。 ...

2025-09 · 6 分钟 · 2956 字
[AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 🔗](https://arxiv.org/abs/2509.08755)

实践出真知:AgentGym-RL 如何教大语言模型解决真实世界问题

大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器,演变为能够处理复杂、真实世界任务的自主智能体。想象一下,一个人工智能不仅能回答你的问题,还能浏览网站预订航班、进行多步骤的科学研究,甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。 ...

2025-09 · 6 分钟 · 2819 字
[ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning 🔗](https://arxiv.org/abs/2509.04903)

超越“足够好”:ACE-RL 如何教大语言模型掌握长文本写作

大语言模型 (LLM) 在理解海量文本方面已变得极其娴熟。给它们一份 100 页的文档,它们能够进行总结、回答相关问题,甚至“海底捞针”找到细节。但当你反过来,让它们去生成一份长篇、高质量的文档——例如一份详尽的报告、一则引人入胜的故事或一份法律陈述——它们往往会遇到困难。生成的内容可能在句子层面上连贯,但很快就会失去重点、出现重复,或者无法满足提示中具体而细微的要求。 ...

2025-09 · 6 分钟 · 2737 字
[REFRAG: Rethinking RAG based Decoding 🔗](https://arxiv.org/abs/2509.01092)

REFRAG:为 RAG 超级加速,首个 token 生成速度提升 30 倍

大型语言模型 (LLM) 改变了我们与信息交互的方式,但它们有一个众所周知的致命弱点: 对计算资源的巨大需求。这一点在 检索增强生成 (Retrieval-Augmented Generation, RAG) 系统中尤为明显,因为这类系统需要将大量外部文本注入模型以帮助其回答问题。我们提供的上下文越多,潜在的答案质量就越高,但处理过程也会变得更慢、更昂贵。这在 知识量 和 效率 之间造成了一个令人沮丧的权衡。 ...

2025-09 · 6 分钟 · 2557 字