Papers

[ARK-V1: An LLM-Agent for Knowledge Graph Question Answering Requiring Commonsense Reasoning 🔗](https://arxiv.org/abs/2509.18063)

初识 ARK-V1：一个能导航知识图谱以实现更智能问答的 LLM 代理

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 是强大的推理引擎。你几乎可以问它们任何问题，它们都会给出一个连贯——且通常正确——的答案。但它们有一个阿喀琉斯之踵: 它们的知识是内化的。这些知识在训练期间被“烘焙”进模型，一旦训练完成，便变成静态的。这意味着它可能过时、不正确，甚至缺失，尤其是在专业或快速变化的领域。这导致了臭名昭著的幻觉问题，即 LLM 会自信地说出一些事实错误的内容。那么，我们如何让 LLM 更可靠、更有事实依据呢？最有前景的方案之一，是将它们连接到一个外部真理来源——这就是知识图谱 (KG) 。知识图谱就像功能强大的数据库，它以实体及其关系 (例如，巴黎 — 是首都 — 法国) 的网络形式存储信息。它们是结构化的、可验证的，并且可以持续更新。挑战在于教会 LLM 如何有效地利用知识图谱——这些图谱可能庞大且复杂，找到相关信息通常需要多个逻辑步骤，即多跳推理。最近的一篇研究论文介绍了 **ARK-V1 **(Agent for Reasoning on Knowledge Graphs，知识图谱推理代理) ，这是一个简单而高效的代理，可以让 LLM 迭代地探索知识图谱来回答复杂问题。这项工作特别有趣，因为它在 LLM 必须依赖知识图谱的场景中测试该代理——迫使模型基于自己未曾记忆的知识进行推理。在本文中，我们将解读 ARK-V1 的工作原理、评估方法，以及它的性能对基于事实的人工智能未来的启示。背景: 对基于事实的 LLM 推理的探索大语言模型 (LLM) 和知识图谱 (KG) 在问答 (KGQA) 领域的结合正不断涌现创新。总体上，方法可分为两类: 语义解析 (SP) : 将自然语言问题 (如“法国首都的人口是多少？”) 转换成知识图谱可执行的正式查询语言 (如 SPARQL) 。这种方法能得到精确答案，但往往比较脆弱。信息检索 (IR) : 从知识图谱中提取相关事实，以文本形式作为上下文提供给 LLM，帮助其生成答案。最近，第三种浪潮出现了:** LLM 代理**。这些代理不是一次性检索，而是在循环中执行一系列搜索 → 检索 → 推理步骤——非常适合多跳问题。像 RoG (Reasoning on Graphs) 和 ToG (Think-on-Graph) 这样的系统在这一领域显示出极大潜力。 ...

[LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures 🔗](https://arxiv.org/abs/2509.14252)

LLM能从计算机视觉中学到什么？LLM-JEPA简介

大型语言模型 (LLM) 席卷全球，其卓越能力源于一个看似简单的原则:** 预测下一个词**。这种被称为自回归生成或输入空间重构的方法，已成为GPT、Llama和Gemma等模型的基石。但如果LLM训练的这块基石也是一种限制呢？在计算机视觉领域，研究人员发现，摒弃原始的像素重构，转而在更抽象的嵌入空间中进行训练，可以获得更优的效果。这里的主流范式是联合嵌入预测架构 (Joint Embedding Predictive Architecture, JEPA) ，它鼓励模型理解图像的本质，而非记忆表面的细节。这一在视觉领域的成功引出了一个关键问题: LLM能从它们的视觉同行那里学几招吗？最近的一篇论文——《LLM-JEPA: 当大型语言模型遇上联合嵌入预测架构》——迈出了弥合这一差距的坚实第一步。作者提出了LLM-JEPA，一种将JEPA的预测能力整合到LLM训练中的新方法。结果是: 模型不仅保留了生成能力，还发展出更深、更稳健的表示，从而在各种任务中取得显著性能提升。让我们深入了解其原理。背景: 什么是JEPA？语言中的“视图”是什么？要理解LLM-JEPA，我们首先需要清楚JEPA的原始概念。假设你有同一只猫的两张照片——一张是正面，一张是侧面。传统的基于重构的模型可能会尝试根据第一张照片预测第二张照片的精确像素值，这是一项艰难的任务，且会浪费模型容量在诸如地毯纹理或光照这样的无关细节上。 JEPA则跳过像素预测，而是: 将每张图像编码为一个嵌入——即高维向量表示；根据一张图像的嵌入预测另一张图像的嵌入。这样，模型就能捕捉“猫性”的本质——形态、姿势、毛发纹理——并忽略无关噪音。这些相关的输入被称为视图 (views) 。在视觉领域，通过数据增强 (裁剪、旋转、重色) 很容易创建多个视图。但我们该如何为文本定义“视图”呢？这正是 LLM-JEPA 的核心洞见: 许多自然语言任务天生就能提供同一底层概念的多个不同视图。以软件开发者的工作流为例: 文本视图: 一份用自然语言写的错误报告，例如: “登录按钮在移动应用上无法使用。” 代码视图: 修复该错误的代码差异或补丁。这是两个视图——对同一解决方案的不同表达。在其他领域也存在类似的组合: 自然语言 ➜ SQL查询，自然语言 ➜ 正则表达式等。图2: 左: 以文本和代码作为同一概念两个视图的JEPA框架。右: 来自NL-RX-SYNTH (自然语言 ↔ 正则表达式) 和Spider (自然语言 ↔ SQL) 任务的示例。通过将(文本, 代码)视作同一底层知识的两个视图，我们可以将JEPA的理念应用到LLM上。其思路是:** 根据文本的嵌入预测代码的嵌入**。 LLM-JEPA的目标: 两种损失，一个目的 LLM-JEPA的精妙之处在于它是对标准LLM损失的增强，而不是替代。 1. 保留生成能力 LLM仍使用下一个词元预测损失进行训练，表示为: ...

[Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning 🔗](https://arxiv.org/abs/2509.13351)

教语言模型三思而后行：深入解析 PDDL-INSTRUCT 框架

像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已经席卷全球。它们可以写诗、调试代码，甚至在大学考试中取得优异成绩。但如果你让它们执行一项需要严格、循序渐进的逻辑推理任务——比如组装一件复杂的家具或规划一条物流路线——你可能会发现它们的软肋。虽然 LLM 在语言和通用知识方面技艺精湛，但在面对需要形式化、结构化规划的问题时，它们常常会表现不佳。它们可能会提出不可行的动作，忽略前一步的后果，或者无法判断目标是否已达成。这种流畅的自然语言能力与严谨的逻辑执行间的差距，是构建机器人、自动化系统、供应链管理等现实世界应用的可靠 AI 系统的一大障碍。我们需要的不仅是“说得漂亮”的 AI，更要能生成有效且可执行的计划。最近，来自 MIT CSAIL 和微软 AI 的研究人员在一篇论文中直面了这一问题。他们的工作《教大型语言模型规划》提出了一个名为 PDDL-INSTRUCT 的新框架，旨在让 LLM 掌握符号规划的技巧。他们并非只依赖模型的直觉，而是教它逐步进行逻辑推理，通过外部工具验证自己的思维过程，并从错误中学习。让我们来看看他们是如何做到的。为什么规划对 LLM 来说如此困难？为了理解这篇论文的贡献，我们需要先建立一些基础概念。什么是符号规划？自动规划旨在找到一个动作序列，从初始状态到达期望的目标状态。一个规划问题可以形式化地描述为一个元组: \[ \langle P, A, s_0, G \rangle \] P (谓词 Predicates) : 一组可以为真或为假的事实，用于描述世界状态，例如 (on blockA blockB) 或 (handempty)。 A (动作 Actions) : 一组可能的动作。每个动作都有*前置条件 (执行该动作前必须满足的条件) 和效果 *(执行该动作后添加或移除的事实) 。 \(s_0\) (初始状态 Initial State) : 在开始时为真的事实集合。 G (目标 Goal) : 期望实现的条件。一个规划就是一个动作序列，它能将 \(s_0\) 转化为满足 \(G\) 的状态。 ...

[ATOKEN: A UNIFIED TOKENIZER FOR VISION 🔗](https://arxiv.org/abs/2509.14476)

一个分词器统一所有？深入解析 ATOKEN 如何处理图像、视频和 3D

引言: 探寻通用的视觉语言在人工智能的世界里，像 GPT-4 这样的大语言模型 (LLM) 已经成为泛化大师。单个模型可以编写代码、翻译语言，并对复杂主题进行推理。这一成功的关键因素之一是看似不起眼的 **分词器 **(tokenizer) ——一个将所有形式的文本 (代码、散文、表格) 分解为一套共享、统一的词元 (token) 的组件。这种“通用语言”使得模型能够高效扩展，并在不同任务间无缝迁移知识。但视觉领域又如何呢？虽然人工智能可以生成令人惊叹的图像并理解复杂的场景，但视觉 AI 生态系统仍然是割裂的。我们用来生成图像的模型 (如 Stable Diffusion 中的 VAE) 与我们用来理解图像的模型 (如 CLIP) 在根本上是不同的。此外，大多数模型都专精于单一模态: 图像模型无法处理视频，而视频模型对 3D 几何没有概念。这种割裂阻碍了我们在 LLM 中看到的那种跨任务泛化能力。如果我们能为所有视觉数据创建一种单一、统一的“语言”呢？来自苹果公司的研究人员在他们最近的论文中提出了这一想法，并介绍了 ATOKEN——首个旨在不仅统一不同任务 (生成和理解) ，还统一不同模态 (图像、视频和 3D 资产) 的视觉分词器。图 1: ATOKEN 为图像、视频和 3D 资产提供了统一的表示，通过一个模型即可实现高保真重建和强大的语义理解。 ATOKEN 将这些多样化的输入编码到一个共享的潜在空间——一个像素、运动和几何共存的“交汇点”。在本文中，我们将探讨 ATOKEN 的设计，从其巧妙的 4D 表示到创新的训练策略，并审视为什么它可能是迈向下一代真正多模态 AI 的关键一步。背景: 视觉 AI 的碎片化世界要理解 ATOKEN 的成就，首先需要了解它试图统一的领域现状。长期以来，视觉 AI 沿着两条断层线分裂:** 任务专业化** 和模态碎片化。 ...

[ARE: scaling up agent environments and evaluations 🔗](https://arxiv.org/abs/2509.17158)

超越 ReAct 循环：使用 ARE 和 Gaia2 构建与测试更智能的 AI 智能体

AI 智能体正变得越来越出色。它们可以搜索网页、预订航班、管理你的日历。但如果你用过，就会知道它们仍然有些……脆弱。它们运行在一个会为了等它们思考而方便地暂停的世界里——这是我们谁都不曾拥有的奢侈。真实世界是混乱、动态和异步的——无论我们的智能体是否准备好，事情都会发生。这种无菌化实验室环境与混乱现实世界之间的差距，是阻碍真正有用的 AI 助手发展的最大障碍之一。目前，大多数基准测试都在顺序的、回合制的环境中评估智能体: 智能体接收一个提示，进行思考，调用工具，获取观测结果，然后重复。环境始终耐心等待。这种模式虽然适用于测试基础推理和工具使用能力，但却遗漏了大量关键能力: 适应性: 如果在智能体预订餐厅的过程中，一个朋友回复了你的消息，会发生什么？时间感知能力: 如果你要求智能体在第一封邮件发出后整整三分钟再发送一封跟进邮件，它能做到吗？主动性: 智能体能否注意到一个重要通知并在没有被告知的情况下采取行动？要构建能够应对这些现实世界挑战的智能体，我们首先需要能在反映真实复杂性的环境中创建并测试它们的方法。 Meta 超级智能实验室最近发表了一篇论文 “ARE: 扩展智能体环境与评估”，介绍了一个强大的平台来实现这一目标。研究人员提出了两个关键贡献: ARE (Meta 智能体研究环境) : 一个用于创建动态、异步且逼真模拟环境的研究平台，其中时间连续流逝，事件独立于智能体发生。 Gaia2: 基于 ARE 构建的全新挑战性基准，用于评估下一代智能体的多种能力，包括适应性、时间管理，以及与其他智能体的协作。这项工作认为，要推动人工智能的进步，我们必须认真对待任务的定义和成功的衡量。下面我们来看看 ARE 与 Gaia2 是如何开辟这条道路的。让世界不再暂停: ARE 平台现有智能体环境的核心问题在于，它们与智能体的行为高度耦合: 只有当智能体采取行动时，世界才会发生变化。ARE 则通过一个简单而深刻的原则颠覆了这一点:** “万物皆事件”**。在 ARE 中，环境是一个时间驱动的模拟系统，与智能体异步运行。时钟始终在滴答作响，事件可以在任何时间触发——可能由用户、智能体或环境本身安排。这种设计使得可以构建更贴近现实的、丰富而动态的世界。图 2 ARE 环境是基于事件、时间驱动的模拟，与智能体异步运行。场景包含任务和验证逻辑。交互可以是工具调用或观测，所有内容都会被记录以便精确分析。该架构建立在五个核心概念之上: 应用 (Apps): 环境的构建模块，例如 Emails 应用或 Calendar 应用。每个应用都是一个有状态的工具集合 (如 send_email、create_event) ，操作的是自己的数据。这有助于创建可复现的环境，在其中智能体的行为会产生一致的结果。环境 (Environments): 应用、它们的数据以及管理交互规则的集合。事件 (Events): 任何动作或状态变化都属于事件。智能体发送消息是事件；朋友发来邮件也是由模拟安排的事件。事件以依赖图的形式组织，可实现并行或条件执行等复杂模式。图 3 事件依赖图展示了 ARE 的调度模式，包括并行执行、前置条件和条件性执行。 ...

[Aggregated Residual Transformations for Deep Neural Networks 🔗](https://arxiv.org/abs/1611.05431)

ResNeXt：为深度神经网络设计增加一个新维度

在深度学习领域，构建更强大的神经网络通常有两条路径: 让网络更深或更宽。 VGG 架构展示了深度的影响力，它通过堆叠大量简单、重复的层取得了显著效果。ResNet 引入了残差连接，使得训练极深的神经网络成为可能，而不会陷入可怕的梯度消失问题。与此同时，谷歌的 Inception 系列则开辟了另一条通往宽度的道路，它创建了多分支模块，每个模块都有精心设计的并行路径和专用卷积核。但如果还有另一种方式呢？如果我们不只扩展深度或宽度，而是去探索神经网络设计中的一个新的第三维度呢？这就是加州大学圣地亚哥分校和 Facebook 人工智能研究院的研究人员在论文《用于深度神经网络的聚合残差变换》中提出的核心思想，他们引入了 ResNeXt 架构。ResNeXt 建立在 Inception 的“分割–变换–合并”概念之上，但将其与 ResNet 的简洁性和可扩展性相结合，并引入了一个名为基数 (cardinality) 的新维度。研究的惊人发现是什么？增加基数——即一个块内并行变换的数量——在提升准确率方面，可能比单纯地增加深度或宽度更有效。在本文中，我们将深入探讨基数的含义、ResNeXt 的工作原理，以及为什么它代表了我们在扩展神经网络思路上的一次转变。背景: 从特征工程到网络工程计算机视觉模型的演变史，就是一个从手工“特征工程” (如 SIFT、HOG) 到自动化“网络工程”的转变过程，在后者中，特征是直接从数据中学习的。 VGG 与 ResNet —— 简洁性与深度的结合 VGG 网络倡导通过堆叠重复的卷积块 (通常是 3×3 卷积) 来构建具有统一且易于配置设计的深层网络架构。 ResNet 在此基础上更进一步，引入了残差 (shortcut) 连接，让信息和梯度能更容易地在网络中流动。这使得训练拥有数百层的极深模型成为可能。一个标准的 ResNet 瓶颈块使用 1×1 卷积先减少通道数，然后再恢复通道数，从而使计算成本高昂的 3×3 卷积在降维后的表示上进行操作。 Inception —— 分割、变换、合并相比之下，Inception 模块探索的是宽度。一个 Inception 块会: 分割 (Splits) 输入，通过 1×1 卷积将其拆分成几个维度较低的特征图。变换 (Transforms) 每个分支，使用不同尺寸的卷积核 (3×3、5×5 等) 。合并 (Merges) 各分支的输出，通过拼接 (concatenation) 的方式。这种设计以相对较低的计算成本提升了模型的表征能力。但它的代价是: 每个分支都是人工精心设计的，具有定制的卷积核尺寸和数量，这增加了复杂性，并且在不进行手动调整的情况下，限制了其在新任务上的可移植性。 ...

[Self-Forcing++: Towards Minute-Scale High-Quality Video Generation 🔗](https://arxiv.org/abs/2510.02283)

从秒到分钟：Self-Forcing++ 如何教会 AI 生成长视频

人工智能视频生成领域正以闪电般的速度发展。像 OpenAI 的 Sora、谷歌的 Veo 等模型正不断产出逼真到令人惊叹的视频片段，常常模糊了合成内容与真实内容之间的界限。然而，尽管这些最先进的系统功能强大，但大多存在一个令人沮丧的局限: 它们只能创建短视频——通常上限为 5 到 10 秒。这是为什么呢？赋予它们强大能力的架构——扩散变换器 (Diffusion Transformer, DiT) ——同时也是它们的阿喀琉斯之踵。一次性生成整个视频的计算量极为庞大，并且成本会随着视频长度呈指数级增长。这就像试图将整本小说一次性写完: 理论上可能，但现实中极其不切实际。一个巧妙的替代方案是自回归生成视频——一次生成一小段，并基于之前生成的内容继续。这种方法的可扩展性更好。但它也引入了一个隐蔽的问题:** 误差累积**。一小段中的微小瑕疵会传播到下一段，持续累加，最终导致视频出现闪烁、过曝，甚至整个画面冻结。这正是新论文《Self-Forcing++: 迈向分钟级高质量视频生成》的切入点。作者提出了一种简单却极为有效的方法来抑制这种误差级联。通过教会视频模型修复自己的错误，他们使其能够生成高质量、连贯的视频，时长不再是几秒，而是延长至数分钟。下面让我们来看一看他们是如何做到的。图 1: Self-Forcing++ 能够生成惊人长度的视频，例如这个飞机飞越雪山的四分钟序列。右侧的图表显示了它相比其他方法在一致性和运动动态方面的优越性。挑战: 弥合训练与推理之间的鸿沟要理解 Self-Forcing++ 的飞跃，你需要了解它解决的一个根本性错配问题——即自回归视频模型在训练方式与**推理 **(实际使用) 方式之间的不匹配。大多数现代系统依赖于教师–学生蒸馏过程。一个庞大而强大的“教师”模型 (一次性生成所有帧) 用于训练一个更小、更快的“学生”模型，后者以自回归方式生成视频。但这个教师模型本身也有局限——它是在短视频片段 (通常 5 秒) 上训练的，并且只能为该长度的序列提供高质量指导。这导致了两个问题: 时间错配: 学生模型只在 5 秒的片段上进行训练，但在推理时却被要求生成更长的视频——30 秒、60 秒、120 秒——这些在训练中它从未见过。监督错配: 在训练中，学生模型每一帧都能从教师获得完美指导；而在推理中，没有教师介入——因此，初始的一个小错误就可能级联成严重的伪影。以 Self-Forcing 为代表的先前方法虽改善了短视频生成，但仍受限于教师的 5 秒视野，生成长序列时会出现画面静止或变暗。 Self-Forcing++ 的关键洞见在于: 如果我们能在训练中故意让学生犯错——然后利用教师告诉它如何恢复，会怎么样？核心方法: 从错误中学习 Self-Forcing++ 引入了一个专门设计来解决训练–测试鸿沟的训练循环。它不再只依赖教师的完美 5 秒片段，而是让学生先生成有瑕疵的长视频，再由教师对其中片段进行纠正。 ...

[STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS? 🔗](https://arxiv.org/abs/2510.02209)

AI 能战胜华尔街吗？用 STOCKBENCH 在股市中测试 LLM 代理

大型语言模型 (LLM) 的发展早已超越了巧妙的聊天机器人——它们如今已是能够推理、规划并执行复杂任务的强大自主代理。它们可以编写代码、协助科学研究，甚至能将市场营销或工程领域的整个工作流程实现自动化。这一飞速的发展引出了一个令人兴奋的问题:** 这些 AI 代理能否征服世界上最具挑战性、风险最高的竞技场之一——股票市场？** 潜力巨大。一个能够分析市场数据、解读新闻并进行盈利交易的 AI，可能会颠覆整个金融行业。但要验证 LLM 是否具备这样的能力，并非易事。现有的大多数针对 LLM 的金融基准，就像是笔试——它们通过问答任务 (例如: “苹果公司上一季度的营收是多少？”) 来衡量“书本知识”。虽然这些测试有用，但它们与混乱、瞬息万变的实时交易现实相去甚远。在金融问答中取得满分，并不意味着当价格剧烈波动时你就能盈利。为弥补这一差距，研究论文 STOCKBENCH 引入了一个能够为 LLM 代理模拟真实世界交易的基准。在这里，AI 不再是回答琐碎问题，而是获得一个投资组合，必须在连续数月内的每一天做出买入、卖出或持有的决策，并根据市场价格、公司基本面和突发新闻的变化动态应对。本文将探讨 STOCKBENCH 的构建过程、研究人员如何将通用 LLM 转化为交易代理，以及当今顶级模型加入这一虚拟交易大厅后发生了什么。结果揭示了 AI 在金融领域的潜力与局限。为何我们需要一个贴近真实的金融 AI 基准在 STOCKBENCH 出现之前，评估 AI 的交易能力既困难又容易产生偏差。作者认为，一个有价值的基准必须满足以下三个原则: 真实的市场交互 —— 代理应在一个动态变化的环境中运行，能够对价格、基本面和实时新闻做出响应。连续决策 —— 交易是迭代且长期的，而非一次性预测。代理必须在较长时间跨度内持续做出决策。无数据污染 —— 模型绝不能在测试数据上进行过训练。如果基准使用过早期的历史数据，模型可能在训练期间“见过”答案，从而造成不公平的评估。现有基准往往在以上一项或多项上存在不足。表格: STOCKBENCH 满足了对金融 AI 代理进行真实、公平且有意义评估的所有五个标准。 STOCKBENCH 内部: 构建一个虚拟交易大厅 STOCKBENCH 包含两个核心组成部分: 回测交易环境 —— 基于历史市场数据、公司基本面和新闻构建的逼真模拟环境。股票交易代理工作流 —— LLM 在每个交易日遵循的固定流程。 ...

[EXGRPO: LEARNING TO REASON FROM EXPERIENCE 🔗](https://arxiv.org/abs/2510.02245)

别浪费你的错误：智能经验回放如何解锁大语言模型的推理能力

大型语言模型 (LLMs) 在解决复杂推理任务方面正变得异常出色，从解答数学竞赛题到编写代码。推动这一进步的关键技术是强化学习 (RL) ，尤其是其中一种名为基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 的范式。在 RLVR 中，我们将大语言模型的推理过程——即其“思维链”——视作一系列动作。如果最终答案正确，模型将获得奖励。这是一种简单却强大的方法，可以教会模型更好地“思考”。但问题在于，大多数 RLVR 方法是在线 (on-policy) 的。想象你正在为数学考试做练习: 解完一道题，核对答案，学到了一点东西——然后把草稿纸揉成一团扔掉，再也不看。这基本上就是在线训练的过程: 生成一批推理尝试 (经验) ，用于一次梯度更新后就丢弃。这种方式效率极低，既浪费了大量算力，也错失了从过去的成功和失败中学习的机会。如果我们不扔掉草稿纸，而是将这些尝试整理成一本井井有条的笔记呢？如果我们能够反复回顾那些最有洞察力的解法，并再次学习呢？这正是经验回放 (experience replay) 背后的核心思想——一种经典的强化学习技术。但对于大语言模型推理这样复杂而微妙的任务来说，一个简单的回放缓冲区并不足够。我们必须先回答一个根本性问题: 是什么让一段推理经验有价值？一篇新论文《EXGRPO: Learning to Reason from Experience》直面了这一问题。研究人员首先探究了有价值经验的特性，然后基于这些洞见提出了 ExGRPO (Experiential Group Relative Policy Optimization，经验组相对策略优化) ——一个能够智能管理并重用过去推理轨迹的框架。结果令人瞩目: ExGRPO 不仅显著提升了推理性能，还为那些标准在线方法完全失效的模型稳定了训练过程。让我们深入了解。背景: 构建推理型强化学习的基石在揭示 ExGRPO 的秘诀之前，我们先简要回顾它建立在的两个基本概念: RLVR 和 GRPO。基于可验证奖励的强化学习 (RLVR) 在 RLVR 中: 智能体 (Agent) : 大语言模型。动作 (Action) : 在推理链中生成下一个词元 (例如，证明中的一个步骤) 。轨迹 (Trajectory) : 完整的思维链解法。奖励 (Reward) : “可验证”部分——像数学这样的任务可以自动核对答案。奖励函数通常是二元的: 答对得 +1，答错得 0。 ...

[Towards General Agentic Intelligence via Environment Scaling 🔗](https://arxiv.org/abs/2509.13311)

AgentScaler：如何通过扩展环境（而非仅仅模型）来解锁高级 AI 智能体

一只愉快的探险家猴子，被科学与学习的符号环绕——代表了智能体 AI 的好奇心与多面性。想象一下，你让 AI 助手为你规划一次去新城市的周末旅行。你希望它能订购无中转航班、找到市中心附近宠物友好的酒店、在一家高评分的素食餐厅预订餐位，并购买博物馆展览的门票。这并不是一个简单的问答任务，而是一个复杂的多步骤过程，需要与多个外部服务进行交互: 航空公司 API、酒店预订系统、餐厅订位平台和票务供应商。若要让 AI 达到这种实用水平，它需要从一个纯语言模型进化为一个有能力的*智能体 *(agent) ——能使用工具采取行动并与数字世界互动的 AI。训练这类智能体的关键是数据。但并不是任何数据都行，它们需要的是**智能体数据 **(agentic data) ——即成功与这些工具交互的详细日志 (称为轨迹) 。问题在于，这类数据极为稀缺且难以获取。这种稀缺性长期以来都是开发真正智能的智能体的一大瓶颈。如果 AI 从未见过一次成功的航班预订轨迹，它又如何学会订机票？这正是近期论文《通过环境扩展实现通用智能体智能》 (Towards General Agentic Intelligence via Environment Scaling) 要解决的挑战。研究人员提出了一个突破性的想法: 也许打造更聪明智能体的关键，不仅仅是更大的模型，而是在更丰富、更多样和更真实的环境中进行学习。本文将深入探讨他们的方法——AgentScaler。该方法包含一个巧妙的两部分流程: 首先，自动构建海量模拟工具使用环境的系统；其次，采用两阶段学习策略，将这些模拟经验转化为现实世界能力。智能体的困境: 经验的稀缺训练智能体 AI 有点像“先有鸡还是先有蛋”的难题。为了学会使用工具，智能体需要看到工具使用的示例；而为了生成这些示例，你又需要一个已经会使用工具的智能体。历史上，研究人员尝试了两种主要的变通办法: 逆向方法: 从一个已知的函数调用 (例如 book_flight(destination="LHR")) 出发，反向构造一个可能触发该调用的用户请求 (如: “帮我订一张去伦敦的机票”) 。这种方式往往显得刻意，且难以捕捉真实对话的复杂性。正向方法: 从一个高层次用户目标开始，让智能体通过模拟交互来尝试解决目标。这更贴近现实，但存在重大障碍——构建模拟环境 (包括智能体需交互的 API、数据库和服务) 是人工、耗时且不可扩展的过程，如果每一个 API 都要手动编码，就无法训练智能体掌握成千上万种接口。这正是 AgentScaler 论文切入的地方。作者们意识到，要打破这个瓶颈，必须将环境的创建过程自动化。 AgentScaler 流程: 微缩宇宙的构建这篇论文的核心是一个严谨的两阶段流程，用于大规模生成智能体数据，并用它训练出高度胜任的模型: 环境构建与扩展: 自动构造多样化、完全模拟且可验证的环境。智能体经验学习: 利用这些环境生成高质量的交互数据，并通过结构化的两阶段课程训练智能体。第一部分: 大规模构建模拟世界作者们的关键洞察是一个简单却极具威力的抽象:** 任何函数调用都可以视作对数据库的读或写操作。** 检查航班可用性是一个读操作；预订航班则是一个写操作，会改变数据库的状态 (例如，可用座位减少一张) 。 ...