引言: 智能体的两难困境
想象一个 AI 智能体接到一个复杂的研究任务,例如: “发展中国家采用可再生能源会带来哪些长期经济影响?” 要回答这个问题,智能体不能仅仅依赖其预训练的知识——它必须像一个真正的研究员一样行动: 搜索网页、阅读学术论文、分析数据,并从众多来源中撰写出一个连贯的答案。
这就是 深度研究 智能体的愿景——一种能够自主在浩瀚信息海洋中航行、构建新知识的 AI 系统。早期的研究方法展示了巨大的潜力,但它们都遇到了同样的根本障碍: 上下文窗口 。
目前,大多数智能体都采用新论文作者所称的 单一上下文范式 (mono-contextual paradigm) 。这些智能体接收初始问题,执行搜索,记录思考过程,然后将所有内容——包括推理、工具返回结果和检索到的信息——追加到一个不断增长的文本块中,并重复这一序列。虽然简单,但这种方法在长任务中会迅速失效,主要面临两个关键问题:
上下文窒息 (Context Suffocation): 随着探索的进行,上下文窗口被累积的数据、以往的推理和旧的观察填满。每一步新行动都占据更多空间,留给新思考的部分越来越少。最终,模型被自身历史淹没,生成的结论要么肤浅,要么过早停止。
噪声污染 (Noise Contamination): 并不是每一次搜索都有用。早期的错误、不相关的页面和失败的尝试永久滞留在提示之中。这些噪声在后续步骤中不断扩散,削弱清晰度、干扰智能体的整体推理。
为了解决这些限制,来自阿里巴巴集团和中国人民大学的研究人员提出了 IterResearch——一个颠覆性的范式,将长时程研究重新设想为一个探索与综合的循环,而非简单线性的数据累积。其核心思想既简单又深刻: 智能体不再永久保存全部历史,而是定期 重构工作空间——保留洞见、丢弃噪声、恢复专注。这种迭代结构被正式建模为一个 马尔可夫决策过程 (MDP) , 让 AI 智能体即使经历数千次交互,也能保持连贯推理。
本文将探讨 IterResearch 范式的工作原理、它为何能够解决上下文窗口问题,以及这种成功对自主推理未来的意义。
背景: 从 RAG 到单一上下文陷阱
在理解 IterResearch 之前,先回顾当前 AI 推理智能体的技术图景。一项广为人知的技术是 检索增强生成 (Retrieval-Augmented Generation, RAG) , 它让语言模型从固定数据库 (如维基百科) 中获取相关文档,以提高回答的事实准确性。然而,RAG 系统受限于静态资源,无法主动探测像实时网络这样的动态环境。
深度研究 智能体则迈出了更大一步。它们配备网页搜索、浏览器和 Python 解释器等工具,能够在真实世界的信息源中进行探索与综合,从而构建新知识。而目前构建此类智能体的主流方式仍基于单一上下文范式,其典型代表方法为 ReAct (Reason + Act,推理 + 行动) 。

图 1: 单一上下文范式 (上) 线性累积上下文,导致窒息与噪声。IterResearch (下) 在每轮重构工作空间,保持清晰和持续推理。
从图 1 的上半部分可以看到,过程是线性的: 思考 → 行动 → 观察,无限重复。每次迭代都追加到一个庞大的记录中。对于短任务,这仍可管理;但长任务则变得混乱,迫使智能体每一步都重读全部历史,浪费计算量与注意力。
IterResearch 通过周期性重构打破这一循环: 通过策略性地忘掉无关历史并总结关键洞见,它始终维持一个干净、有界的工作空间。
核心方法: IterResearch 的综合循环
IterResearch 用结构化迭代取代了线性累积。就像人类研究员一样,它以周期方式运作——阅读、记录、综合与重新聚焦。每一轮都整合前一步学习得来的知识,为下一阶段做准备。
这种行为被形式化为一个 马尔可夫决策过程 (MDP) 。 该 MDP 包含三个核心组成部分:
- 状态 (\(S\)): 智能体的工作空间。 每个状态 \(s_t\) 包含:
- 原始问题 \(q\),
- 一个不断演化的报告 \(\mathcal{M}_t\),总结关键发现,
- 最近一次交互 \(\{a_{t-1}, \mathrm{TR}_{t-1}\}\),表示上一行动及其反馈。
- 决策 (\(\mathcal{D}\)): 智能体的输出。 每一步,智能体发布一个结构化决策 \(d_t = (\text{Think}_t, \mathcal{M}_{t+1}, a_t)\):
- 思考 (Think) – 推理当前进展,确定下一步探索方向;
- 报告 (Report) – 综合验证后的发现,更新记忆;
- 行动 (Action) – 选择工具 (搜索、浏览、计算) 或直接生成最终答案。
- 转移 (\(\mathcal{T}\)): 工作空间重构。 执行动作 \(a_t\) 并接收工具响应 \(\mathrm{TR}_t\) 后,系统构建下一个状态 \(s_{t+1} = (q, \mathcal{M}_{t+1}, \{a_t, \mathrm{TR}_t\})\)。完整历史被压缩为一个紧凑的报告,从而防止传统智能体中提示长度失控的情况。

图 2: IterResearch 的结构化循环中,每轮都从简明报告与上次交互重构状态,保持马尔可夫一致性和有限记忆。
秘诀: 马尔可夫式工作空间重构
这种重构机制确保了 马尔可夫性质 : 每次决策仅依赖当前状态,而非全部历史。工作空间大小保持恒定 (\(O(1)\)),而 ReAct 式智能体则线性扩张 (\(O(t)\))。

图 3: 单一上下文方法遭受线性上下文增长的困扰,而 IterResearch 保持恒定的工作空间大小。
这带来两项显著益处:
- 摆脱上下文窒息: 工作空间恒定,使智能体推理能力不削弱,即使经过上千轮。
- 自动过滤噪声: 仅保留报告中有意存储的信息,不相关或错误的数据会自然被丢弃。
由此得到一个可扩展的智能体,能够在数千次交互后仍保持连贯思考——这是长时程推理的前所未有突破。
训练高效研究员: 效率感知策略优化 (EAPO)
为了让 IterResearch 学会高效探索,设计其行为仅凭“正确即奖励”的简单策略远远不够。模型必须学会快速且经济地得出结论。
为此,作者提出了 效率感知策略优化 (Efficiency-Aware Policy Optimization, EAPO)——一个结合奖励塑造和分布式训练稳定性的强化学习框架。
1. 几何折扣提升效率
EAPO 通过几何折扣重塑稀疏奖励信号:

方程 1: 奖励塑造促进效率。更早的正确行动能获得更高的折扣收益。
这种设计下,即使两条轨迹都得出正确答案,较短的那条也得到更高累计奖励。这种奖励机制鼓励模型倾向于简洁、集中推理而非冗长探索。
2. 自适应下采样确保稳定训练
迭代范式会在每条轨迹产生多个样本——每轮一个,使得不同问题样本数量差异较大。为维持分布式训练稳定性,研究者提出了 自适应下采样 :

方程 2: 自适应下采样确保分布式强化学习中的批次平衡。
该技术将样本数调整为 GPU 等分分配,数据损失极小 (<1%) ,保证大规模优化平稳运行。结合 组序列策略优化 (GSPO) , EAPO 使 IterResearch 训练兼具高效与准确。

方程 3: GSPO 目标函数整合折扣奖励与序列级优化,训练智能体策略。
实验与结果: 检验 IterResearch
作者将 IterResearch 与多种基线模型对比,包括大型前沿模型的直接推理,以及先进开源与专有深度研究智能体。
主要结果: 崭新的技术前沿

图 4: IterResearch 在多个基准测试中性能优于最先进的开源长时程智能体。
在六个挑战性数据集——BrowseComp、BrowseComp-zh、Humanity’s Last Exam (HLE)、GAIA、Xbench-DeepSearch 及 SEAL-0——上,IterResearch 较所有开源基线平均提升 14.5 个百分点 。 在部分任务中甚至超越 OpenAI 的 DeepResearch 等商业系统。

表 1: IterResearch 在不同推理与探索基准中持续占优。
IterResearch 在信息检索类任务 (如 BrowseComp) 以及复杂分析任务 (如 GAIA、HLE) 中都保持强劲表现。探索型任务中它通过报告综合保持聚焦;分析型任务中则借助周期性推理检查过滤噪声。
消融研究: 拆解设计

表 2: 消融研究揭示效率感知训练与迭代式工作空间设计带来的优势。
两点发现尤为重要:
- 效率感知策略优化有效: 采用 EAPO 训练的智能体在达到同等或更高准确率的同时, 轮次减少 5.7% , 验证了几何奖励激励更紧凑且目的明确的探索。
- 迭代优于累积: 在相同数据条件下,迭代范式平均比单一上下文智能体高出 12.6 个百分点——尽管后者上下文长度为 64K,而 IterResearch 仅为 40K。单纯扩大记忆并不能克服线性累积带来的低效。
扩展至极限: 2048 次交互及超越
为验证可扩展性,作者在 BrowseComp 基准上运行 IterResearch,将最大允许轮次从 2 扩展至惊人的 2048。

图 5: 交互扩展性显示,随着交互预算从 2 提升至 2048,准确率从 3.5% 增至 42.5%。
结果令人惊艳: 准确率从 2 轮的 3.5% 提升到 2048 轮的 42.5% , 证明更深层次探索显著提升研究性能。即使允许数千轮交互,智能体仍能智能调节搜索节奏——平均仅使用约 130 轮,一旦信息充分便自主停止。
这一扩展性实验证明,长时程任务的难度主要源于探索受限,而非任务本身的复杂性。
IterResearch 作为提示策略: 无需训练

图 6: 与传统 ReAct 对比,IterResearch 的提示设计显著提升 o3 与 DeepSeek-V3.1 等前沿模型性能。
最后,作者探索是否能将 IterResearch 的结构化推理循环直接作为一种 提示策略——让现有大型模型无需额外训练即可继承其优势。
结果极为可观: 在 OpenAI o3 和 DeepSeek-V3.1 上测试时,IterResearch 提示分别提升 12.7 个百分点 (o3) 与 19.2 个百分点 (DeepSeek) , 尤其在长时程基准 BrowseComp 上表现突出。这表明 IterResearch 的结构性推理框架对各种模型架构均具普适益处。
结论与启示
IterResearch 标志着 AI 智能体在处理复杂多步推理方面的一次革新。它不再让上下文无限堆积,而是引入周期性的 探索与综合 , 以马尔可夫视角重塑推理流程。这一简洁而深刻的转变同时消除了上下文窒息与噪声污染两大顽疾,并实现了理论上无界的推理深度。
主要启示如下:
- 迭代优于累积: 持续推理源自周期性综合,而非无限记忆延展。
- 无界可扩展性: 马尔可夫框架让智能体能在数千次交互中保持稳定性能。
- 广泛适用性: IterResearch 既可作为强化学习训练框架,也可作为现有 LLM 的即插即用提示方法。
归根结底,建设更聪明的智能体不在于更大模型或更长上下文窗口,而在于更优的思维结构。通过教机器学会 停顿、总结并重建 工作空间,我们朝着能在现实世界中真正进行研究与长期推理的 AI 系统迈出了关键一步。
](https://deep-paper.org/en/paper/2511.07327/images/cover.png)