大型语言模型 (LLMs) 正从简单的聊天机器人进化为能够使用工具完成复杂任务的高级智能体。在智能体的工具箱中,最关键的能力之一就是浏览网页——这一通向全世界信息的入口。
尽管 OpenAI 的 GPT-4 和 Google 的 Gemini 等商业模型取得了令人瞩目的进步,但它们的网页浏览策略仍属专有。相比之下,许多开源网页智能体在性能上难以匹敌,尤其是在那些需要深入、多步骤研究的任务中更为突出。
瓶颈在哪里?
一篇新论文《WEBEXPLORER: Explore and Evolve for Training Long-Horizon Web Agents》指出,限制因素并非模型本身,而是训练数据。要构建一个能够解决复杂问题的智能体,必须在真正具有挑战性的查询上进行训练——这种问题甚至可能难倒人类研究人员。
作者们提出了一个巧妙的双阶段框架,可自动生成大规模且困难的网络问答数据集。通过在该数据集上训练一个拥有 80 亿参数的模型 WEBEXPLORER-8B,他们在同规模中实现了最先进的性能——在多个基准测试中甚至超过了比它大十倍的模型。
核心问题: 高难度问题的稀缺性
现代网页智能体的基准测试,如 BrowseComp,其问题之难以至于人类标注员即便耗费数小时,也无法解答其中一半以上。这类基准测试非常适合评估,但规模太小且成本过高,不适合大规模训练。
现有的数据合成方法存在不足:
- 基于图的方法 通过爬取网页构建显式知识图谱,但需要复杂的启发式规则来进行节点扩展与选择。
- 基于演化的方法 通过修改简单问题,使其变得更长、更“表面困难”。然而,结果常常显得生硬晦涩,无法模拟真实的搜索难度。
作者们意识到一个机会: 大规模地生成那些隐性困难的问题——这类查询需要真正的探索与多跳推理,类似最难的人力策划基准。
WEBEXPLORER 框架: 探索与演化
解决方案是一个双步骤流程,模仿好奇的人类研究员的工作方式: 先深入探索某个主题,然后创造一个问题,让他人必须走上一条同样富有挑战性的探究之路。
第一阶段: 基于模型的探索
不同于构建僵化的知识图谱,WEBEXPLORER 使用大型语言模型进行自主探索。
该过程从一个种子实体开始——例如 巴西国家队。模型按照研究员的角色被提示,仅配备两种工具:
search(query)
: 向搜索引擎发起查询。browse(url, query)
: 阅读网页并提取目标信息。
借助这些工具,模型迭代地执行搜索与浏览,深入关联主题,串联线索,汇聚出一组丰富、相互关联的事实。它自主决定何时停止,并基于这一信息空间合成一个初始问答 (QA) 对。
示例:
从种子 巴西国家队 出发,智能体链接了:
- 1950 年世界杯决赛及其创纪录的观众人数;
- 当场比赛裁判 George Reader;
- Reader 后来担任南安普顿足球俱乐部主席;
- 南安普顿 1976 年足总杯胜利;
- 进球者 Bobby Stokes 及其出生地。
生成的结果是跨越多个信息来源、需要真正多步推理的问答对。
第二阶段: 迭代式查询演化 (从长到短)
第一阶段的初始 QA 对虽已需跨站点导航,但对于 Claude-4-Sonnet 这样的强大专有模型来说仍太容易,其准确率高达 86.6%。
问题在于,显性线索过多。日期、姓名、直接引用就像“开卷提示”,使模型或人类可以快速找到捷径。
作者们发现,最难的基准题几乎完全避免此类线索,而是使用模糊但精准的描述。因此,第二阶段的重点转向通过移除线索 (而非增加) 来提升难度。
演化过程依照三条规则:
- 移除显著信息——删除明显标识。
- 引入模糊化——用间接描述替代姓名与日期。
- 使用替代说法——改写直接引用。
示例演化:
初始查询:
一场足球比赛在一个体育场举行,其官方观众人数创下了至今仍保持的 FIFA 世界杯比赛记录。这场比赛的裁判是世界杯决赛史上最年长的主裁,并且在这场比赛整整 26 年后,他担任主席的俱乐部在足总杯决赛中击败了曼联队。攻入制胜球的球员出生于 1920 年并入其现今城市的一个地区,且该球员在 44 岁时去世。请问这粒制胜球是在决赛的第几分钟打入的?
答案: 第 83 分钟
演化后的查询:
在一届以没有淘汰赛决赛而结束的独特 FIFA 世界杯赛制中,一位比赛官员后来带领一支乙级俱乐部,在君主最后一次出席此类场合时战胜了一支甲级豪门。制胜球员曾被其儿时支持的俱乐部拒绝,他来自一个在 20 世纪 20 年代并入一座有数百年皇家海军历史要塞的地区。请问这粒决定性的进球发生在第几分钟?
答案: 第 83 分钟
通过剥离直接线索并引入叙事化的隐性描述,演化版查询迫使研究过程更深入。
最终数据集: WEBEXPLORER-QA
作者们将这一双阶段方法应用于大规模生成 WEBEXPLORER-QA 数据集 (约 4 万个演化后 QA 对) ,种子实体来源丰富多样的维基百科条目。
为评估难度,研究人员在多个数据集上测试了 Claude-4-Sonnet:
数据集 | 平均轮次 | 准确率 (%) |
---|---|---|
初始 QA | 7.9 | 86.6 |
演化后 QA | 9.9 | 67.1 |
WebDancer | 5.4 | 62.0 |
SailorFog | 8.2 | 35.0 |
WebShaper | 8.4 | 67.4 |
ASearcher | 6.5 | 62.0 |
结果表明,演化过程确实提高了难度: 更多工具调用、准确率下降、更高的推理要求。
训练 WEBEXPLORER-8B
数据集完成后,作者们分两阶段训练 WEBEXPLORER-8B:
监督微调 (SFT)
使用高质量商业模型轨迹教授基本技能: 逐步推理、工具调用格式、长程思维。强化学习 (RL)
\[ R = 0.2 \cdot R_{\text{format}} + R_{\text{correct}} \]
在 SFT 基础上,RL 允许模型尝试自研策略。奖励函数结合格式与正确性:
RL 的核心创新之一是渐进式上下文扩展:
- 起始: 64k tokens,最多 50 轮;
- 中期: 96k tokens,75 轮;
- 最终: 128k tokens,最多 100 轮。
这使模型能处理真正的长时推理。
成果: 小体量大能耐的 8B 模型
WEBEXPLORER-8B 展现了卓越表现:
模型 | BC-en | BC-zh | GAIA | WebWalkerQA | FRAMES | Xbench-DS | HLE |
---|---|---|---|---|---|---|---|
WebSailor-72B | 12.0 | 30.1 | 55.4 | - | - | 55.0 | - |
WebThinker-32B | 2.8 | - | 48.5 | 46.5 | - | - | 15.8 |
MiroThinker-8B-DPO-v0.1 | 8.7 | 13.6 | 46.6 | 45.7 | 64.4 | - | - |
WebExplorer-8B (SFT) | 7.9 | 21.3 | 43.7 | 59.8 | 72.6 | 47.5 | 16.0 |
WebExplorer-8B (RL) | 15.7 | 32.0 | 50.0 | 62.7 | 75.7 | 53.7 | 17.3 |
主要亮点:
- 同规模最优 (SOTA) : 在 BrowseComp-en/zh、WebWalkerQA、FRAMES 上刷新 100B 以下开源模型最佳记录。
- 参数效率高: 在 BrowseComp-en 上以 15.7% 对 12.0% 击败 WebSailor-72B。
- 泛化强: HLE STEM 基准成绩 17.3%,超越此前的 32B 模型,尽管训练数据并非 STEM 领域。
RL 训练动态
RL 训练日志一目了然:
- 工具调用次数: 由每轨迹约 11 次增至 16+ 次。
- 轨迹长度: 增长至 40k+ tokens。
- 准确率: BrowseComp-en 与 BrowseComp-zh 上稳步提升。
这些迹象表明,训练过程中涌现了更深入、更复杂的推理链。
结论与启示
WEBEXPLORER 框架表明,通往超人级网页智能体的关键在于更优质的训练数据,而不仅仅是更大的模型。
通过全面“探索”主题并“演化”查询以去掉简单线索,作者们在大规模上合成了真实且高难度的数据集;在此基础上,结合 SFT 与 RL 的训练流程,诞生了一个 8B 模型,其性能超越诸多更大规模系统,并具备出色的泛化能力。
这一研究为下一代开源网页智能体提供了清晰路线:
自主生成难题 + 渐进式 RL 训练 = 强大且能处理长程任务的智能体,能够应对真实世界中 AI 助手的复杂挑战。