Papers

[IS IN-CONTEXT LEARNING LEARNING? 🔗](https://arxiv.org/abs/2509.10414)

抛开炒作：LLM 究竟是在学习还是在记忆？深入探讨上下文学习

像 GPT-4 这样的大型语言模型 (LLM) 展现出一种非凡的能力: 它们通常在看到少数几个示例后，就能立即执行新任务。无论是翻译句子、分类客户情绪，还是解决逻辑谜题，你只需提供一些演示，模型就能为新的、未见过的输入生成回应。这种现象被称为上下文学习 (In-Context Learning, ICL) ——这也是让这些模型显得如此多才多艺的部分原因。但这背后究竟发生了什么？当一个 LLM 执行 ICL 时，它是在严格的科学意义上学习吗？还是说，它只是在进行一种复杂的模式匹配——利用其庞大的预训练知识推断正确答案，而并未真正获得新技能？“上下文学习究竟算不算学习？” 这个问题对于理解现代人工智能的真实能力与局限性至关重要。最近的一篇研究论文《上下文学习是在学习吗？》，通过迄今为止最大规模的 ICL 实证研究之一来探讨这一问题。作者们研究了多个 LLM，涵盖了不同形式化任务，并系统地测试了更改提示、数据分布以及其他因素对性能的影响。结论是？是的，ICL 确实构成了一种学习——但它与传统机器学习中的学习截然不同。它既有独特的优势，也存在显著的弱点。下面我们来看看研究人员发现了什么。我们所说的“学习”是什么意思？在机器学习理论中，学习是泛化的同义词。如果一个模型在接触了来自数据分布 \(\mathcal{P}\) 的样本后，即使面对来自不同分布 \(\mathcal{Q} \neq \mathcal{P}\) 的新样本依然表现良好，我们就说这个模型“学会”了该任务。可能近似正确 (PAC) 学习框架对这一点进行了正式描述。在 PAC 学习中，我们衡量学习器 \(f\) 在数据集 \(D\) 上的错误率: 即错误预测所占的比例。如果一个模型在来自其他分布 \(\mathcal{Q}\) 的新数据集 \(E\) 上，有很高的概率仍能保持较低错误率，那么它就真正学会了。简而言之，一个好的学习器即使在数据分布发生变化时，也应保持准确。上下文学习如何融入其中？传统的机器学习模型在训练中会根据数据更新其内部权重。而在 ICL 中，LLM 的权重保持冻结状态。相反，它们在推理阶段进行“即时”学习。训练数据就是提示中提供的示例。 LLM 的预测取决于整个上下文: 系统提示、示例和新查询。研究人员将 ICL 形式化为: 在给定提示 \(p\)、示例 \(e_i\) 和查询的情况下，找到最可能的标签 \(f(x_k)\): ...

[DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL 🔗](https://arxiv.org/abs/2509.10446)

超越谷歌：DeepDive 如何教大语言模型成为专家级研究员

我们都经历过这种情况——你在寻找某个极其刁钻、具体问题的答案时，简单的谷歌搜索根本不够用。你最终会打开几十个标签页，交叉引用事实，从零散的来源中拼凑线索。这种深度搜索是一种独特的人类技能，需要耐心、批判性思维以及连接看似无关信息的能力。对于大语言模型 (LLMs) 来说，深度搜索仍是最后的疆域。当答案已经固化在其参数中时，它们表现出色，但在需要调用浏览工具进行多步调查的复杂现实世界问题上却会表现不佳。这种差距在尖端闭源模型和其开源对应物之间尤为明显。来自清华大学与东北大学的研究团队在新论文《DeepDive: 利用知识图谱和多轮强化学习推进深度搜索智能体》 (“DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL”) 中，直面了这一挑战。作者指出了两个主要障碍: 缺乏真正困难的训练数据 —— 大多数问答数据集过于简单，不要求长程推理。训练方法低效 —— 现有方法未能教会模型如何将深度推理与多步工具使用结合起来。于是，DeepDive 出现了——一个旨在创建新一代开源“深度搜索智能体”的框架。如下图所示，他们的 DeepDive-32B 模型在难度极高的 BrowseComp 基准测试中树立了新的竞争性标准，超越了许多强大的系统。图 1: 左——DeepDive-32B 在 BrowseComp 上超越了领先的开源深度搜索模型和闭源模型。中——强化学习训练提升了长程搜索能力，并随最大工具调用次数上限的增加而扩展。右——多轮强化学习在不同基准任务上持续带来性能提升。本文将深入介绍他们的方法——如何自动构造“不可能”的问题，并利用强化学习训练出一个能像资深研究员一样浏览的 AI。挑战: 为什么深度搜索对 AI 如此困难要理解 DeepDive 的价值，首先需要明白真实的深度搜索有多么复杂。像 HotpotQA 这样的基准测试只是检索关于明确实体的事实。而深度搜索任务往往涉及模糊实体，描述含糊，需要跨越多个步骤进行推理。来看这个 BrowseComp 例子: “请找出一位虚构角色，他偶尔会与观众打破第四面墙，其背景故事涉及到无私苦行僧的帮助，以幽默著称，其主演的一档电视剧于 1960 年代至 1980 年代之间播出，且集数少于 50 集。” ...

[K2-Think: A Parameter-Efficient Reasoning System 🔗](https://arxiv.org/abs/2509.07604)

K2-THINK：320亿参数模型如何越级挑战AI巨头

图: MBZUAI 基础模型研究所发布的 K2-THINK 官方标志。在人工智能领域，有一个普遍的观点:** 越大越好**。大语言模型 (LLM) 的参数规模已经膨胀到数千亿，甚至数万亿。这些庞大的系统取得了惊人的成就，但也伴随着代价: 训练成本高昂、部署困难，并且对大多数研究人员而言往往遥不可及。但是，如果一个更小、更灵活的模型也能挑战这些巨头呢？如果巧妙的工程设计比一味堆砌规模更重要呢？这正是 MBZUAI 基础模型研究所新系统的核心理念:** K2-THINK** —— 一个拥有 320 亿参数的推理模型，其性能可以与规模大得多的 AI 系统媲美，甚至超越它们。在复杂的数学推理方面，K2-THINK 脱颖而出，成为开源领域的领军模型。团队是如何做到的？他们打造了一个由六大支柱组成的“配方”，将先进的训练后方法与推理时的策略性计算结合起来。本文将逐步解析这一配方——展示 K2-THINK 是如何构建的、为何如此高效，以及它对未来高性能、可及性 AI 的意义。图1: 尽管参数量相对较小，K2-THINK 在数学综合得分上依然表现出色——挑战了“越大越好”的传统观念。背景: 推理系统的构建基石在深入探讨 K2-THINK 的核心创新之前，我们先来回顾一些理解其设计必不可少的基础概念。思维链 (Chain-of-Thought, CoT) 推理: 类似于人类逐步解决问题的方式，CoT 提示会让模型“思考出声”，在给出最终答案前生成中间推理步骤。这能显著提升模型在数学、逻辑和代码任务中的表现。监督微调 (Supervised Fine-Tuning, SFT) : 从预训练的“基础模型”出发，利用精心挑选的数据集 (包含提示和高质量答案，往往带有明确的思维链) 进行适配，让模型在特定领域中更专业化。强化学习 (Reinforcement Learning, RL) : 在 SFT 之后，模型可以通过反馈信号进一步优化。K2-THINK 使用了一种名为可验证奖励的强化学习 (RLVR) 的变体——特别适合数学或代码等答案可被客观验证的领域。测试时计算 (Test-Time Computation) : 在推理阶段可以赋予模型更多“思考时间”——例如生成多个答案、先做解题规划或对输出进行验证，从而提高最终准确率。 ...

[Discovery of Unstable Singularities 🔗](https://arxiv.org/abs/2509.14185)

在刀尖上平衡：人工智能如何发现流体动力学中难以捉摸的奇点

流体的不可预测之舞与对奇点的探寻想象一下将奶油倒入咖啡中的情景。那些形成的复杂漩涡和涡流，是流体动力学在日常生活中一个美丽而常见的例子。几个世纪以来，数学家和物理学家一直使用一套方程——其中一些可以追溯到18世纪50年代的莱昂哈德·欧拉——来描述这种运动。这些方程，如欧拉方程和纳维–斯托克斯方程，是我们理解从天气模式到飞机机翼上的气流等一切现象的基石。但在这些优美的数学描述中，潜藏着一个深刻而令人不安的问题:** 它们会失效吗？** 一个完美光滑、表现良好的流体，能否在有限时间内自发地产生奇点——即速度或压力等物理量飙升至无穷大的点？这不仅仅是一个数学上的好奇心。如果奇点能够形成，那就意味着我们赖以预测流体行为的方程本身可能会失效，从而导致物理上不可能出现的结果。三维纳维–斯托克斯方程中这一问题是否存在，其重要性之高，使它成为七个千禧年大奖难题之一，解决它将获得一百万美元的奖金。几十年来，寻找这些奇点一直是一个核心挑战。大多数数值方法都专注于寻找稳定的奇点——即使初始条件稍有改变，它们也能稳健地形成。然而，对于像无边界欧拉方程和纳维–斯托克斯方程这样重大的开放性问题，专家们认为，如果奇点存在，它们必然是不稳定的。不稳定的奇点则完全是另一回事。它就像试图将一支铅笔完美地立在笔尖上: 这是一个有效的物理状态，但最轻微的触碰——一个无穷小的扰动——就会让它倒下。要找到这样的解，需要近乎无限的精度。它就像一个数学幽灵，栖息在刀锋之上，而传统的模拟方法几乎无法接近它而不被偏离轨道。一篇新论文 **《不稳定奇点的发现》 **(Discovery of Unstable Singularities) 提出了一个突破性的框架，克服了这一挑战。它系统地发现了这些难以捉摸的不稳定奇点的族系。通过将精心设计的神经网络与高精度的高斯–牛顿优化器相结合，研究人员为探索复杂的流体方程世界创造了一本新的“行动手册”——其达到的精度水平仅受现代 GPU 双精度浮点数的限制。背景: 方程中的幽灵在深入探讨新方法之前，让我们先对核心概念建立一些直观的理解。什么是奇点？在流体方程的背景下，奇点 (或“爆破”) 是指解在时空中的某一点不再光滑。想象一个海浪冲向岸边: 它变得越来越陡，直到破碎。奇点就像是数学上的破碎点——但远为极端——在这一点上，斜率 (梯度) 变为无穷大。方程预测，一个无限尖锐的特征会从一个初始光滑的状态中形成。稳定与不稳定: 在笔尖上平衡铅笔稳定性的概念至关重要: 稳定奇点: 就像山谷中的一个球——轻轻推一下，它会滚回中心。在流体术语中，初始条件的微小变化仍然会导致相同的奇点。这种奇点很稳健，易于通过数值方法找到。不稳定奇点: 就像在笔尖上平衡一支铅笔——虽可行，但极其脆弱。最小的误差都会使解远离爆破。任何数值噪声或舍入误差都会成为致命的扰动。普遍认为，在最具挑战性的流体问题 (如无边界的纳维–斯托克斯方程) 中，奇点必然是不稳定的。开发工具来寻找和分析这些脆弱的解，对于攻克这一巨大挑战至关重要。自相似技巧: 冻结时间研究奇点的最强大数学工具之一是自相似坐标。你不是在正常的空间和时间中观察流体的演变，而是以恰当的速率“放大”奇点。在自相似爆破中，解的空间形状随时间保持不变——只是尺寸和振幅发生了缩放。通过转换到新的坐标系，使空间收缩、幅度在爆破速率下膨胀，问题就变成了寻找一个单一的、静态的轮廓 \( \Phi(y) \)，它能解一个稳态方程。这种变换引入了一个关键的缩放参数 \( \lambda \):** 自相似缩放率**。光滑的物理解只在离散的“可接受” \( \lambda \) 值处出现。寻找奇点的过程，就变成了寻找这些特殊数值的过程。发现引擎: 寻找奇点的新策略作者们构建了一个强大的发现引擎，用于寻找可接受的 \( \lambda \) 值及其对应的解轮廓——即使对于高度不稳定的情况。这是一个两阶段的过程: 首先，发现一个高精度的候选解；其次，分析其稳定性。图 1. 结合数学建模和机器学习来发现和验证自相似解的工作流程，区分稳定和不稳定奇点。 PINN: 教神经网络学习物理物理信息神经网络 (PINN) 的训练不是基于数据，而是基于物理学本身。其损失函数是偏微分方程 (PDE) 残差——即将网络输出代入方程时的偏差。如果网络输出的是精确解，那么残差在任何位置都为零。 ...

[LIVEMCP-101: STRESS TESTING AND DIAGNOSING MCP-ENABLED AGENTS ON CHALLENGING QUERIES 🔗](https://arxiv.org/abs/2508.15760)

考验 AI 智能体：深入 LiveMCP-101 的真实世界挑战

引言: 寻求可靠的 AI 智能体科幻作品中 AI 助手的梦想——比如钢铁侠的 J.A.R.V.I.S.——能够理解复杂指令、搜索网页、管理文件并完美执行多步计划，这一场景正越来越接近现实。这类系统被称为 AI 智能体 (AI agents)，代表了人工智能的下一个前沿。通过使用外部“工具”——如网页搜索 API、电子表格编辑器或订票服务——智能体可以突破预训练知识的限制，在现实世界中灵活运行。实现这一能力的关键之一是模型上下文协议 (Model Context Protocol, MCP)，这是一个标准化框架，充当模型与工具之间的通用翻译器。MCP 让智能体能够轻松地发现、调用并协调来自不同领域的工具。然而，尽管在受控演示中表现亮眼，支持 MCP 的智能体在应对真实世界的混乱任务时往往举步维艰。它们可能陷入无限循环、选择不当的工具，或误解工具的输出。如果我们要在关键、高风险场景中信任 AI 智能体，就必须明确了解它们到底在何处、为何会失败。研究论文《LIVEMCP-101》正是为弥补这一不足而提出。研究团队发现现有的基准测试过于简单，无法体现动态环境下多工具、多步骤任务的复杂性。为此，他们创建了 LiveMCP-101，一个包含 101 个困难且贴近现实的查询基准，旨在将智能体推向极限——并辅以强大的评估方法，以确保公平、实时的性能比较。最引人注目的发现是什么？即便是包括 GPT-5 在内的最先进模型，任务成功率也不足 60%。本文将解析 LiveMCP-101 的构建方法、背后的新型评估框架、18 个模型的测试结果，以及作者总结的现代 AI 智能体的“七宗罪”。背景: 智能体如何“思考”和“行动”？ AI 智能体远不只是一个聊天机器人。标准的大语言模型 (LLM) 会生成文本，而智能体则会采取行动。其精妙之处在于具备让其规划、执行与适应的推理框架。一个重要的进展是思维链 (Chain-of-Thought, CoT) 提示，其研究表明，引导模型“一步一步思考”能显著提升推理能力。在此基础上，ReAct 框架 (“推理 + 行动”) 引入了一个循环: 推理 (Reason): 分析问题，制定计划。行动 (Act): 执行一个步骤，通常是调用外部工具。观察 (Observe): 将工具的输出整合进工作记忆。该循环反复进行，直到任务完成，从而实现动态规划与自我修正——与人类解决问题的方式颇为相似。 MCP 通过为智能体提供一种标准化的方式来发现并交互庞大的工具生态系统，进一步拓展了这一能力。随之而来的挑战是: 如何评估智能体在冗长、相互依赖的工作流程中协调多工具的能力？现有测试多集中于合成环境下的一次性工具调用。而 LiveMCP-101 则不同——它评估的是实时、多步骤、多工具的查询任务。 ...

[The Majority is not always right: RL training for solution aggregation 🔗](https://arxiv.org/abs/2509.06870)

超越多数原则：训练大语言模型从多个猜测中综合出最佳答案

当面临难题时，你会怎么做？你可能会构思几种不同的方法，权衡它们的利弊，然后将每种方法的优点结合起来，打造一个最终的、可靠的解决方案。事实证明，我们可以教大语言模型 (LLM) 做类似的事情——这会显著提高它们解决复杂推理任务的能力。多年来，提升大语言模型在数学或编程等难题上的表现，标准策略是增加“测试时计算”。我们不再只向模型索要一个答案，而是让它给出多个。然后，我们选择最常见的答案——这种技术被称为自洽性 (self-consistency) 或多数投票 (majority voting) 。它简单、通常有效，并且很直观: 如果十种不同的推理思路都指向答案“42”，那么“42”很可能是正确的。但如果正确答案很微妙、不明显，并且只在模型少数几次的尝试中出现呢？如果多数派是错的呢？在这些情况下，多数投票实际上会放大模型的错误，自信地选择一个不正确的答案。此外，这种简单的投票还错过了一个巨大的机会: 如果几个不正确的解决方案各自包含了部分正确的推理呢？简单的投票无法将这些零散的见解组合起来。最近，一篇来自 Meta AI 研究人员的论文，题为《多数派并非总是正确: 用于解决方案聚合的强化学习训练》，引入了一种巧妙的新方法。他们不再依赖多数投票这样的固定规则，而是提出教大语言模型学习聚合这项技能本身。他们的方法 AGGLM 训练一个模型像专家评审员一样行事: 它检查一组候选解决方案，识别其优缺点，调和差异，并综合出一个最终的、完善的答案。结果令人印象深刻——学会对多个解决方案进行推理，远比简单地计票强大得多。简单投票的问题所在让我们回顾一下标准方法及其局限性。基于规则的投票: 最常见的方法仍然是多数投票。你生成，比如说，32 个不同的解决方案 (或“思维链”) ，然后采纳出现频率最高的最终答案。这个基线方法通常效果不错，但当正确解决方案仅出现在少数生成路径中时，它就会失败。这种情况在模型容易陷入常见误解的问题上经常发生。基于模型的选择: 一种更先进的技术是使用另一个模型——一个“奖励模型”或“验证器”——来为每个候选解决方案打分。你不再选择最频繁的答案，而是选择得分最高的那个。这可能会更好，因为奖励模型在判断质量方面可能优于简单的频率统计。然而，这些模型仍然无法发现非传统但正确的答案，而且它们只能从现有选项中进行选择——无法创造出全新的、更优的答案。这两种方法都留下了未被挖掘的潜力。它们不能从有缺陷的解决方案中挽救正确的步骤，也不能合并不同尝试中的互补推理。要做到这一点，模型必须能够阅读、理解和推理这些解决方案。 AGGLM: 通过强化学习来学会聚合这就是 AGGLM 发挥作用的地方。核心思想是: 将聚合视为一项推理任务，而不是一种启发式方法。图 1: AGGLM 流程。一个标准的大语言模型生成多个候选解决方案。然后，一个专门的聚合大语言模型 (可以是同一个模型，也可以是不同的模型) 审查这些候选方案，以生成一个最终的综合答案。这个聚合器通过强化学习训练而成。该过程分两个阶段进行: 生成解决方案: 对于一个问题 \(x\)，一个标准的解决方案模型 \(p_{\theta}\) 生成 \(m\) 个独立的候选解决方案: \[ y_i \sim p_{\theta}(y \mid x), \quad i \in \{1,\dots,m\} \] 聚合解决方案: 这些候选方案和原始问题一起，被送入一个聚合模型 \(p_{\phi}\)，该模型输出一个综合的答案 \(\tilde{y}\): ...

[Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate 🔗](https://arxiv.org/abs/2509.05396)

当多个 AI 大脑不如一个：AI 辩论的隐藏危险

我们很早就学过一个道理: 三个臭皮匠，顶个诸葛亮。协作、讨论和辩论是人类解决问题的典型方式。通过挑战彼此的假设和分享不同的观点，我们通常能得出比任何个人独立思考更好的答案。因此，我们很自然地认为，这同样适用于人工智能。近年来，一股研究浪潮探索了**多智能体辩论 **(multi-agent debate) 这一理念，即让多个大型语言模型 (LLM) 协同解决复杂问题。其前提非常直观: 如果一个 AI 犯了错，另一个可以发现它。通过交流推理过程，它们可以完善论点，减少个体偏见，并最终提升集体决策能力。这种方法在从数学推理到生成更真实的答案等各个方面都显示出了潜力。但如果这个假设是有缺陷的呢？如果在某些情况下，为一个问题投入更多的 AI “大脑”实际上会使结果更糟呢？论文《言语并非总是廉价: 理解多智能体辩论中的失败模式》 (“Talk Isn’t Always Cheap: Understanding Failure Modes in Multi-Agent Debate”) 以其令人不安的发现，挑战了当下普遍的乐观预期。研究人员揭示了一个惊人的现象: 辩论有时不仅无法改善结果，反而会严重损害性能，导致 AI 群体最终达成错误的答案。即使能力强的模型在群体中占多数，它们也可能被能力较弱的同伴的错误推理所左右。讨论非但没有产生富有成效的知识交换，反而可能演变成一连串的连锁错误，其中礼貌和附和压倒了对真相的追求。让我们来探究这些研究人员是如何发现这一点的——以及这对协作型 AI 的未来意味着什么。背景: AI 协作的前景利用 AI 辩论来提升推理能力的想法并不新鲜。最初，它被提出是为了解决**可扩展监督 **(scalable oversight) 问题: 人类如何有效监督一个远比自己聪明的 AI？一种早期的方法是让两个 AI 就一个话题进行辩论，由人类裁判发现矛盾并引导它们走向真相。近来，这一概念演变为**多智能体审议 (multi-agent deliberation) ，即一组 LLM 通过迭代讨论为一个问题寻求更好的解决方案。大多数研究都集中在同质 **(homogeneous) 群体上——即所有智能体都使用相同的基础模型 (例如，一个由多个 GPT-4 组成的团队) 。这些研究普遍发现，在一系列问答任务中，辩论提高了准确率。然而，问题开始显现。一些研究人员注意到一种*多数人暴政 *(tyranny of the majority) 效应，即少数派观点——有时是正确的——会因为智能体遵从共识而被压制。另一些研究发现，自信、有说服力但错误的论点甚至能动摇说真话的模型，这表明 LLM 裁判和人类一样，也可能被修辞所误导。这篇论文在这些见解的基础上提出了一个关键问题: 当参与辩论的智能体是**异质 **(heterogeneous) 的，由能力强弱不同的模型驱动时，会发生什么？由“强”模型和“弱”模型混合组成的群体在共同推理时会如何表现？ ...

[ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute 🔗](https://arxiv.org/abs/2509.04475)

打破大语言模型的“隧道视野”：深入解读 ParaThinker 的并行推理

引言: 思考得更久 vs. 思考得更广在让大型语言模型 (LLM) 变得更智能的持续探索中，有一项策略主导了近期的突破:** 扩展测试时计算**。这个想法简单而强大——在模型生成答案前，给予它更多的时间和计算资源去“思考”。通过生成更长、更详细的思维链，像 OpenAI 的 o1 这样的模型在复杂推理任务上展现了显著的进步。但这种“思考得更久”的方法正面临瓶颈。当模型的计算预算增加到一定程度后，会产生收益递减。准确率停滞不前，模型甚至可能开始“过度思考”，即额外的推理步骤无助于——甚至可能损害——性能。这就引出了一个关键问题: 我们是已经达到了模型固有的推理极限，还是我们扩展计算的策略存在根本性缺陷？一篇新论文《ParaThinker: 原生并行思考作为扩展 LLM 测试时计算的新范式》为后一种观点提供了有力的论证。研究人员指出了顺序、逐步推理的一个核心弱点——他们称之为**隧道视野 **(Tunnel Vision) 。LLM 可能会因为最初生成的几个 token 而被锁定在一条次优的推理路径上，无论它后续再“思考”多久，都几乎无法挽回。为了摆脱这个陷阱，该论文引入了 ParaThinker——一个端到端的框架，旨在教会 LLM 并行思考。ParaThinker 不再遵循单一的冗长思路，而是同时生成多个多样化的推理路径，然后将它们综合成一个更优的最终答案。正如我们将看到的，这种“思考得更广”的方法不仅更有效，而且出人意料地高效。图 1: (左) ParaThinker 中的顺序推理与并行推理工作流。 (右) 不同并行路径数 (P) 下准确率随 token 预算的变化。增加 P 能持续提升性能。在这次深度解析中，我们将揭示 ParaThinker 背后的研究——探究隧道视野的证据，剖析实现并行思考的架构，并分析其如何让小模型超越大得多的对手。直线式思考的问题所在在研究 ParaThinker 的解决方案之前，让我们先深入了解它所要解决的问题。为什么即使在最先进的推理 LLM 中，性能也会出现平台期？扩展性瓶颈研究人员通过实验验证了瓶颈是源于模型能力的限制，还是扩展策略的次优。他们在一个具有挑战性的数学基准 (AIME 2024) 上，用不同的计算预算评估了一个强大的推理模型。在图 2a 中，绿色曲线展示了使用标准单路径推理方法的性能。准确率随着 token 数量的增加而上升，但很快在 27–28% 左右达到平台期，即便将预算从 32K token 增加到 128K token 也无明显改善。 ...

[AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 🔗](https://arxiv.org/abs/2509.08755)

实践出真知：AgentGym-RL 如何教大语言模型解决真实世界问题

大型语言模型 (LLMs) 正迅速从令人印象深刻的文本生成器，演变为能够处理复杂、真实世界任务的自主智能体。想象一下，一个人工智能不仅能回答你的问题，还能浏览网站预订航班、进行多步骤的科学研究，甚至玩数字游戏。这就是人工智能研究的前沿: 创造能够进行长时程推理、规划和行动的智能体。但我们如何教大语言模型做到这一点呢？就像人类一样，智能体最有效的学习方式是通过实践——与环境互动、尝试、犯错，并从结果中学习。这就是强化学习 (Reinforcement Learning, RL) 的核心思想。然而，用强化学习训练大语言模型智能体是出了名的困难。许多现有方法仅限于简单的单轮任务，或依赖于预先存在的专家演示，而这些演示既昂贵又难以规模化。社区一直缺少一个统一、灵活且有效的框架，来在多样化和现实的场景中从零开始训练智能体。这时，一篇新的研究论文 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning 应运而生。研究人员推出了 AgentGym-RL，这是一个专为此挑战设计的强大开源框架。他们还提出了一种名为 ScalingInter-RL 的新颖训练方法，该方法显著提高了训练的稳定性和性能。其成果令人瞩目。如图1所示，他们使用这个新框架训练的70亿参数模型，不仅超越了其他开源模型，还在一系列多样化的任务中，匹敌甚至击败了像 GPT-4o 和 Gemini-2.5-Pro 这样的大型闭源巨头。图 1 左图: 专有模型、开源模型和我们的强化学习模型在不同智能体任务上的表现。右图: 性能与模型规模的关系，显示我们经过强化学习训练的 7B 模型可与远大于自身的专有模型相媲美甚至超越它们。在这篇文章中，我们将深入探讨这项工作——剖析 AgentGym-RL 的运作方式、ScalingInter-RL 为何如此有效，以及这些进步对下一代人工智能智能体意味着什么。智能体强化学习快速入门在我们深入了解这个新框架的细节之前，让我们快速回顾一下在 LLM 智能体背景下的强化学习基础。智能体的任务可以被建模为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 。尽管名字听起来复杂，但其概念可归结为几个核心组成部分: 状态 (State, \(s\)) — 环境的当前情况或配置。动作 (Action, \(a\)) — 智能体做出的选择，例如点击按钮或发出命令。观测 (Observation, \(o\)) — 智能体在采取行动后从环境中接收到的信息 (例如网页内容、游戏状态) 。策略 (Policy, \(\pi_{\theta}\)) — 智能体的“大脑”，由模型权重 \(\theta\) 参数化，将状态映射为动作。奖励 (Reward, \(r\)) — 在一条轨迹结束时表示成功 (1) 或失败 (0) 的反馈信号。强化学习的目标是调整 \(\theta\) 以最大化期望的累积奖励。智能体与环境交互，生成轨迹 \(\tau\) (状态、动作、观测序列) ，并从中学习。 ...

[ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning 🔗](https://arxiv.org/abs/2509.04903)

超越“足够好”：ACE-RL 如何教大语言模型掌握长文本写作

大语言模型 (LLM) 在理解海量文本方面已变得极其娴熟。给它们一份 100 页的文档，它们能够进行总结、回答相关问题，甚至“海底捞针”找到细节。但当你反过来，让它们去生成一份长篇、高质量的文档——例如一份详尽的报告、一则引人入胜的故事或一份法律陈述——它们往往会遇到困难。生成的内容可能在句子层面上连贯，但很快就会失去重点、出现重复，或者无法满足提示中具体而细微的要求。问题的核心在于我们如何教这些模型写好文章。传统方法通常依赖稀缺的高质量人类写作示例，或在训练中使用笼统、粗粒度的反馈。模型可能因为“有帮助”或“连贯”而获得奖励，但这些都是粗糙的衡量方式。试想一下，你的指令是写一个欧·亨利式结尾的故事——这是一个极其具体的风格要求，而一个笼统的“有用性”评分根本无法捕捉到。这正是新研究论文 “ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning” 所要解决的问题。作者提出了一个巧妙的新框架，改变了训练范式。他们不再依赖主观、高层次的反馈，而是让模型去满足一个直接从用户指令中提取的、具体且可验证的约束清单。这相当于从“写一个好故事”转变为“写一个满足这 10 条具体标准的故事”。这种方法——被称为 ACE-RL——不仅提高了长文本生成的质量，而且无需昂贵的、手工整理的偏好数据集。下面让我们深入了解它的工作原理。图 1: 传统奖励机制 (中图) 关注相关性和有用性等宽泛的品质。ACE-RL (下图) 将指令分解为具体、细粒度的约束，从而产生更具针对性、更有效的奖励信号。教导长文本写作的难题在解析 ACE-RL 之前，让我们简要回顾训练 LLM 执行特定任务的两种主流方法——以及它们在长文本生成方面为何表现乏力。监督微调 (SFT) 就像让学生看成千上万篇范文，希望他们能总结出好文章的特征。将一个预训练的 LLM 在一个高质量的“指令-响应”对数据集上微调。问题在于，获取庞大、多样化的优秀长文本数据集极其困难且昂贵。更多时候，这些数据集由其他专有 LLM 合成，从而引入偏见和限制。SFT 本质上依赖模仿，其性能上限受制于训练数据的质量和覆盖面。带偏好奖励的强化学习 (RL) 更像是让老师比较两篇学生作文，并选出更好的一篇。一个 LLM 对同一提示生成多个响应，然后由一个“奖励模型” (通常是另一个 LLM 或人类) 给出基于偏好的评分。这是人类反馈强化学习 (RLHF) 的基础。虽然这种方法很强大，但通常依赖于对相关性、连贯性、有用性等品质的粗粒度、整体判断。就像欧·亨利的例子一样，这类笼统标签无法捕捉不同场景下定义高质量写作的具体、指令自适应细节。此外，它还需要海量偏好数据 (“好”与“坏”响应的成对比较) ，造成了昂贵的瓶颈。作者们认为: 要真正掌握长文本生成，我们需要一种细粒度且指令自适应的训练信号。ACE-RL 正是为此而生。 ACE-RL 框架: 分步详解 ACE-RL 的核心是将评估写作质量的主观任务转化为一个约束验证的客观过程。该系统分为三个阶段:** 数据准备**、自适应约束构建和奖励引导的训练。 ...