超越上下文窗口：IterResearch 如何教 AI 智能体思考、综合并攻克复杂问题

引言: 智能体的两难困境

想象一个 AI 智能体接到一个复杂的研究任务，例如: “发展中国家采用可再生能源会带来哪些长期经济影响？” 要回答这个问题，智能体不能仅仅依赖其预训练的知识——它必须像一个真正的研究员一样行动: 搜索网页、阅读学术论文、分析数据，并从众多来源中撰写出一个连贯的答案。

这就是 深度研究 智能体的愿景——一种能够自主在浩瀚信息海洋中航行、构建新知识的 AI 系统。早期的研究方法展示了巨大的潜力，但它们都遇到了同样的根本障碍: 上下文窗口 。

目前，大多数智能体都采用新论文作者所称的 单一上下文范式 (mono-contextual paradigm) 。这些智能体接收初始问题，执行搜索，记录思考过程，然后将所有内容——包括推理、工具返回结果和检索到的信息——追加到一个不断增长的文本块中，并重复这一序列。虽然简单，但这种方法在长任务中会迅速失效，主要面临两个关键问题:

上下文窒息 (Context Suffocation): 随着探索的进行，上下文窗口被累积的数据、以往的推理和旧的观察填满。每一步新行动都占据更多空间，留给新思考的部分越来越少。最终，模型被自身历史淹没，生成的结论要么肤浅，要么过早停止。
噪声污染 (Noise Contamination): 并不是每一次搜索都有用。早期的错误、不相关的页面和失败的尝试永久滞留在提示之中。这些噪声在后续步骤中不断扩散，削弱清晰度、干扰智能体的整体推理。

为了解决这些限制，来自阿里巴巴集团和中国人民大学的研究人员提出了 IterResearch——一个颠覆性的范式，将长时程研究重新设想为一个探索与综合的循环，而非简单线性的数据累积。其核心思想既简单又深刻: 智能体不再永久保存全部历史，而是定期 重构工作空间——保留洞见、丢弃噪声、恢复专注。这种迭代结构被正式建模为一个 马尔可夫决策过程 (MDP) , 让 AI 智能体即使经历数千次交互，也能保持连贯推理。

本文将探讨 IterResearch 范式的工作原理、它为何能够解决上下文窗口问题，以及这种成功对自主推理未来的意义。

背景: 从 RAG 到单一上下文陷阱

在理解 IterResearch 之前，先回顾当前 AI 推理智能体的技术图景。一项广为人知的技术是 检索增强生成 (Retrieval-Augmented Generation, RAG) , 它让语言模型从固定数据库 (如维基百科) 中获取相关文档，以提高回答的事实准确性。然而，RAG 系统受限于静态资源，无法主动探测像实时网络这样的动态环境。

深度研究 智能体则迈出了更大一步。它们配备网页搜索、浏览器和 Python 解释器等工具，能够在真实世界的信息源中进行探索与综合，从而构建新知识。而目前构建此类智能体的主流方式仍基于单一上下文范式，其典型代表方法为 ReAct (Reason + Act，推理 + 行动) 。

单一上下文范式将所有信息累积在一个不断增长的单一情境中，导致窒息与噪声。相比较下，IterResearch 使用的迭代式深度研究范式以循环方式工作，通过重构工作空间来保持专注。

图 1: 单一上下文范式 (上) 线性累积上下文，导致窒息与噪声。IterResearch (下) 在每轮重构工作空间，保持清晰和持续推理。

从图 1 的上半部分可以看到，过程是线性的: 思考 → 行动 → 观察，无限重复。每次迭代都追加到一个庞大的记录中。对于短任务，这仍可管理；但长任务则变得混乱，迫使智能体每一步都重读全部历史，浪费计算量与注意力。

IterResearch 通过周期性重构打破这一循环: 通过策略性地忘掉无关历史并总结关键洞见，它始终维持一个干净、有界的工作空间。

核心方法: IterResearch 的综合循环

IterResearch 用结构化迭代取代了线性累积。就像人类研究员一样，它以周期方式运作——阅读、记录、综合与重新聚焦。每一轮都整合前一步学习得来的知识，为下一阶段做准备。

这种行为被形式化为一个 马尔可夫决策过程 (MDP) 。该 MDP 包含三个核心组成部分:

状态 ($S$): 智能体的工作空间。 每个状态 $s_t$ 包含:

原始问题 $q$，
一个不断演化的报告 $\mathcal{M}_t$，总结关键发现，
最近一次交互 $\{a_{t-1}, \mathrm{TR}_{t-1}\}$，表示上一行动及其反馈。

决策 ($\mathcal{D}$): 智能体的输出。 每一步，智能体发布一个结构化决策 $d_t = (\text{Think}_t, \mathcal{M}_{t+1}, a_t)$:

思考 (Think) – 推理当前进展，确定下一步探索方向；
报告 (Report) – 综合验证后的发现，更新记忆；
行动 (Action) – 选择工具 (搜索、浏览、计算) 或直接生成最终答案。

转移 ($\mathcal{T}$): 工作空间重构。 执行动作 $a_t$ 并接收工具响应 $\mathrm{TR}_t$ 后，系统构建下一个状态 $s_{t+1} = (q, \mathcal{M}_{t+1}, \{a_t, \mathrm{TR}_t\})$。完整历史被压缩为一个紧凑的报告，从而防止传统智能体中提示长度失控的情况。

$IterResearch 的核心决策与转移循环。智能体的策略 π 接收当前状态 s_t 并生成决策 d_t。环境 E 执行行动，转移函数 T 重构出下一个状态 s_{t+1}。$

图 2: IterResearch 的结构化循环中，每轮都从简明报告与上次交互重构状态，保持马尔可夫一致性和有限记忆。

秘诀: 马尔可夫式工作空间重构

这种重构机制确保了 马尔可夫性质 : 每次决策仅依赖当前状态，而非全部历史。工作空间大小保持恒定 ($O(1)$)，而 ReAct 式智能体则线性扩张 ($O(t)$)。

上下文增长对比。单一上下文范式的上下文随时间线性增长 (O(t))，而 IterResearch 的工作空间保持恒定 (O(1))。

图 3: 单一上下文方法遭受线性上下文增长的困扰，而 IterResearch 保持恒定的工作空间大小。

这带来两项显著益处:

摆脱上下文窒息: 工作空间恒定，使智能体推理能力不削弱，即使经过上千轮。
自动过滤噪声: 仅保留报告中有意存储的信息，不相关或错误的数据会自然被丢弃。

由此得到一个可扩展的智能体，能够在数千次交互后仍保持连贯思考——这是长时程推理的前所未有突破。

训练高效研究员: 效率感知策略优化 (EAPO)

为了让 IterResearch 学会高效探索，设计其行为仅凭“正确即奖励”的简单策略远远不够。模型必须学会快速且经济地得出结论。

为此，作者提出了 效率感知策略优化 (Efficiency-Aware Policy Optimization, EAPO)——一个结合奖励塑造和分布式训练稳定性的强化学习框架。

1. 几何折扣提升效率

EAPO 通过几何折扣重塑稀疏奖励信号:

折扣奖励公式。R_T 是最终奖励 (正确为 1，错误为 0) ，T 为总步数，γ 为略小于 1 的折扣因子。

方程 1: 奖励塑造促进效率。更早的正确行动能获得更高的折扣收益。

这种设计下，即使两条轨迹都得出正确答案，较短的那条也得到更高累计奖励。这种奖励机制鼓励模型倾向于简洁、集中推理而非冗长探索。

2. 自适应下采样确保稳定训练

迭代范式会在每条轨迹产生多个样本——每轮一个，使得不同问题样本数量差异较大。为维持分布式训练稳定性，研究者提出了 自适应下采样 :

自适应下采样公式。样本总数 |C| 被调整为可整除数据并行规模 (DP_size) 。

方程 2: 自适应下采样确保分布式强化学习中的批次平衡。

该技术将样本数调整为 GPU 等分分配，数据损失极小 (<1%) ，保证大规模优化平稳运行。结合 组序列策略优化 (GSPO) , EAPO 使 IterResearch 训练兼具高效与准确。

用于训练 IterResearch 的 GSPO 目标函数。该公式基于折扣奖励和重要性采样率优化智能体策略 θ。

方程 3: GSPO 目标函数整合折扣奖励与序列级优化，训练智能体策略。

实验与结果: 检验 IterResearch

作者将 IterResearch 与多种基线模型对比，包括大型前沿模型的直接推理，以及先进开源与专有深度研究智能体。

主要结果: 崭新的技术前沿

IterResearch 与其他领先开源智能体的性能对比。在四个基准测试中，IterResearch 均表现出明显且一致的优势。

图 4: IterResearch 在多个基准测试中性能优于最先进的开源长时程智能体。

在六个挑战性数据集——BrowseComp、BrowseComp-zh、Humanity’s Last Exam (HLE)、GAIA、Xbench-DeepSearch 及 SEAL-0——上，IterResearch 较所有开源基线平均提升 14.5 个百分点 。在部分任务中甚至超越 OpenAI 的 DeepResearch 等商业系统。

六个基准测试的主要结果表。IterResearch 在开源智能体中持续获得最高分，并与商业系统竞相媲美。

表 1: IterResearch 在不同推理与探索基准中持续占优。

IterResearch 在信息检索类任务 (如 BrowseComp) 以及复杂分析任务 (如 GAIA、HLE) 中都保持强劲表现。探索型任务中它通过报告综合保持聚焦；分析型任务中则借助周期性推理检查过滤噪声。

消融研究: 拆解设计

消融研究结果表。表中展示了训练方法 (EAPO vs. GSPO vs. SFT) 以及范式类型 (迭代式 vs. 单一上下文) 的影响。

表 2: 消融研究揭示效率感知训练与迭代式工作空间设计带来的优势。

两点发现尤为重要:

效率感知策略优化有效: 采用 EAPO 训练的智能体在达到同等或更高准确率的同时, 轮次减少 5.7% , 验证了几何奖励激励更紧凑且目的明确的探索。
迭代优于累积: 在相同数据条件下，迭代范式平均比单一上下文智能体高出 12.6 个百分点——尽管后者上下文长度为 64K，而 IterResearch 仅为 40K。单纯扩大记忆并不能克服线性累积带来的低效。

扩展至极限: 2048 次交互及超越

为验证可扩展性，作者在 BrowseComp 基准上运行 IterResearch，将最大允许轮次从 2 扩展至惊人的 2048。

交互扩展图表。随着最大允许轮次 (x 轴) 增加，准确率 (紫线) 显著提升，而平均实际使用轮次 (橙线) 呈亚线性增长。

图 5: 交互扩展性显示，随着交互预算从 2 提升至 2048，准确率从 3.5% 增至 42.5%。

结果令人惊艳: 准确率从 2 轮的 3.5% 提升到 2048 轮的 42.5% , 证明更深层次探索显著提升研究性能。即使允许数千轮交互，智能体仍能智能调节搜索节奏——平均仅使用约 130 轮，一旦信息充分便自主停止。

这一扩展性实验证明，长时程任务的难度主要源于探索受限，而非任务本身的复杂性。

IterResearch 作为提示策略: 无需训练

IterResearch 与 ReAct 作为提示策略在两类前沿模型中的性能对比。IterResearch 提示始终优于标准 ReAct 提示。

图 6: 与传统 ReAct 对比，IterResearch 的提示设计显著提升 o3 与 DeepSeek-V3.1 等前沿模型性能。

最后，作者探索是否能将 IterResearch 的结构化推理循环直接作为一种 提示策略——让现有大型模型无需额外训练即可继承其优势。

结果极为可观: 在 OpenAI o3 和 DeepSeek-V3.1 上测试时，IterResearch 提示分别提升 12.7 个百分点 (o3) 与 19.2 个百分点 (DeepSeek) , 尤其在长时程基准 BrowseComp 上表现突出。这表明 IterResearch 的结构性推理框架对各种模型架构均具普适益处。

结论与启示

IterResearch 标志着 AI 智能体在处理复杂多步推理方面的一次革新。它不再让上下文无限堆积，而是引入周期性的 探索与综合 , 以马尔可夫视角重塑推理流程。这一简洁而深刻的转变同时消除了上下文窒息与噪声污染两大顽疾，并实现了理论上无界的推理深度。

主要启示如下:

迭代优于累积: 持续推理源自周期性综合，而非无限记忆延展。
无界可扩展性: 马尔可夫框架让智能体能在数千次交互中保持稳定性能。
广泛适用性: IterResearch 既可作为强化学习训练框架，也可作为现有 LLM 的即插即用提示方法。

归根结底，建设更聪明的智能体不在于更大模型或更长上下文窗口，而在于更优的思维结构。通过教机器学会 停顿、总结并重建 工作空间，我们朝着能在现实世界中真正进行研究与长期推理的 AI 系统迈出了关键一步。

引言: 智能体的两难困境#

背景: 从 RAG 到单一上下文陷阱#

核心方法: IterResearch 的综合循环#

秘诀: 马尔可夫式工作空间重构#

训练高效研究员: 效率感知策略优化 (EAPO)#

1. 几何折扣提升效率#

2. 自适应下采样确保稳定训练#

实验与结果: 检验 IterResearch#

主要结果: 崭新的技术前沿#

消融研究: 拆解设计#

扩展至极限: 2048 次交互及超越#

IterResearch 作为提示策略: 无需训练#

结论与启示#