WebWatcher：训练 AI 智能体像专业研究员一样看、读、推理

人工智能在研究领域正变得异常出色。像 OpenAI 的 DeepResearch 和 Google 的 Gemini 这样的系统，现在已经能够通过网页搜索、阅读文档和多步骤综合信息来解决复杂问题。这些 深度研究 智能体正在推动人工智能能力的边界。但它们有一个巨大的盲点: 几乎完全依赖文本。

在现实世界——尤其是在网络上——信息不仅仅存在于文本中，还包括图表、示意图、产品图片、截图和信息图。一个不能看见的智能体，就会错过一半的信息。AI 智能体的下一个重要前沿是结合视觉与语言，来执行真正全面的研究。

应对这一挑战远比听起来更难。一个多模态智能体需要的不仅仅是“眼睛”，它还需要复杂的推理能力，将所见与所读相结合。它必须掌握更丰富的工具，用于感知、知识检索、计算和跨模态推理。而现有的方法往往局限于简单的视觉任务或制式化、模板化的工作流。

阿里巴巴集团的一篇新论文介绍了 WebWatcher —— 一种旨在突破这些限制的视觉-语言智能体。WebWatcher 通过利用 高质量、自动生成的训练数据、灵活多样的工具集，以及结合监督学习与强化学习的 两阶段训练过程，来学习开展深度研究。

为评估其能力，作者还创建了 BrowseComp-VL —— 一个极具挑战性的多模态研究任务集。结果如何？WebWatcher 不仅略胜一筹，更在多项难度极高的多模态评估中， decisively 超越了 GPT-4o 和 Gemini-2.5-flash 等专有模型。

现代 AI 智能体的盲点

要理解 WebWatcher 的影响力，我们首先要看清当前智能体在视觉-语言推理中失败的原因。许多智能体陷入以下两种困境之一:

视觉专家: 能看但无法进行深度推理。
文本专家: 能推理却无法正确地看。

研究人员用 GAIA 基准测试中的一个棘手案例完美展示了这一问题: 智能体必须仅凭一张动物的图片，找到该动物在维基百科页面上 (2020 年之前) “visual edit” 标签的数量。

一张图表比较了三种类型的智能体——VL 智能体、WebWatcher 和搜索智能体——试图根据一张海鹦的图片回答问题。WebWatcher 是唯一一个通过多步骤、多工具的推理过程成功的。

图 1: 智能体解决复杂视觉-语言任务的三种方法对比。只有 WebWatcher 的多工具集成推理得出正确答案。 (原论文图 2)

具体表现如下:

标准 VL 智能体 —— 错误地识别动物 (“看起来像鹈鹕”) ，因此陷入僵局。它过度依赖浅层视觉分析，缺乏深度推理与网页浏览能力。
纯文本搜索智能体 —— 无法将搜索与给定图像对应起来。它猜测 (“可能是企鹅或海鸥”) ，结果进行无关搜索，错失答案。
WebWatcher —— 执行真正的多步骤推理，在灵活的循环中结合 OCR、网页搜索、访问页面与交叉验证，直到找到正确答案。

结论很明确: 解决复杂的现实问题需要 跨模态的深度推理 以及 多样化工具的有效使用 —— 这正是 WebWatcher 的设计目标。

构建更好的训练场: BrowseComp-VL 基准测试

没有复杂的数据，就不可能训练出复杂的智能体。然而，大多数现有的视觉问答 (VQA) 数据集都聚焦于 *简单感知 *(如“车是什么颜色？”) 或 单步查询。它们缺乏开展深度研究所需的多跳推理与策略规划。

研究人员为此创建了 BrowseComp-VL —— 一个在真实网络环境中进行高级多模态推理的基准测试。

$两个甜甜圈图，显示了 BrowseComp-VL 数据集 Level\u00a01 和 Level\u00a02 的领域分布，并附有示例问题。$

图 2: BrowseComp-VL 的两个难度级别下的领域分布。 (原论文图 3)

BrowseComp-VL 涵盖五大领域 —— 娱乐、人文、科技、自然科学及其他 —— 并分为两个难度级别:

Level 1:
问题需要多跳推理，但引用的是明确的实体。答案可通过迭代检索获得，但仍需整合多来源信息。
Level 2:
实体被 模糊化 或隐藏。例如，问题不会直接说“James Roy Kinghorn”，而会描述为“与 Captain Fortune Show 有关联的著名动物学家”。这迫使智能体进行 推断与信息整合，而不仅是检索。

数据生成流程

要生成数以万计这样的样例，需要自动化支持。研究团队设计了可扩展的生成管线:

$一个流程图，展示了数据生成管线，从知识图谱到图像搜索，最终生成 Level\u00a01 和 Level\u00a02 VQA 问题。$

图 3: 生成高质量 VQA 对的自动化流程。 (原论文图 4)

步骤 1: 生成复杂的文本 QA 对
系统从权威领域数据 (如维基百科) 构建知识图谱，并通过遍历超链接生成多跳推理链。Level 2 问题进行模糊化 —— 用笼统描述替换具体细节。

步骤 2: 将文本 QA 转换为 VQA
为每个 QA 对识别关键实体，并通过网络图片搜索获取真实世界图像。问题改写为引用“图像中的实体”而不直接点名。

步骤 3: 质量控制
筛选器 (Selector) 会剔除重写不佳或不相关的问题/图片；检验器 (Examiner) 会测试这些问题是否能在给定图片及相关文本上下文中解答。所有检查由 GPT-4o 驱动，以确保对齐和一致性。

这一管线生成了丰富而具有挑战性的数据集，非常适合训练多模态研究智能体。

训练多模态研究智能体

数据集准备完毕后，下一步是教会智能体如何推理和采取行动。

智能体的工具集

WebWatcher 配备五项工具:

网页图片搜索 —— 获取图片、标题及相关 URL。
网页文本搜索 —— 从网络进行开放域文本检索。
访问 —— 打开 URL 并摘要与任务目标相关的内容。
代码解释器 —— 执行计算、解析和符号推理。
OCR —— 从图像中提取嵌入文本。

阶段 1: 学习类专家的推理轨迹

研究人员使用 GPT-4o 按 ReAct 框架自动生成“轨迹” —— 思路、工具调用和观察的脚本化序列:

\[ \tau = \{ (t_0, o_0), (t_1, o_1), \dots, (t_L, o_L) \} \]

其中 $t_i$ 是第 $i$ 步的工具/动作，$o_i$ 是其输出。

仅保留满足以下条件的轨迹:

以正确答案结束
每步逻辑一致
至少调用工具三次

这样可确保学习来源于真实且不平凡的推理过程。

阶段 2: 两步训练 —— SFT 冷启动 + RL 精炼

第一阶段: 监督微调 (SFT)
利用筛选后的轨迹对 WebWatcher 进行微调，以预测正确的下一步动作:

\[ \max_{\theta} \sum_{i=1}^{K} \sum_{l=1}^{L_{i}} \log P_{\theta} \left( t_{l}^{(i)} | I^{(i)}, q^{(i)}, t_{冷启动阶段在自主学习前教授工具语法、调用序列及多步推理的基础。

第二阶段: 使用 GRPO 的强化学习
采用 群体相对策略优化 (Group-Relative Policy Optimization)，智能体为每个查询生成 $K$ 条轨迹、评分，并根据相对成功度更新策略:

\[ A_{\rm rel}(\tau^{(i)}) = R^{(i)} - \frac{1}{K} \sum_{j=1}^{K} R^{(j)} \]

总奖励结合格式正确性 ($r_f$) 与答案准确性 ($r_a$):

\[ R = w r_f + (1 - w) r_a \]

GRPO 鼓励整体推理路径的优化，而不仅仅依赖侥幸的步骤。

结果: 新的业界标杆

WebWatcher 与直接推理、RAG 工作流，以及包括 GPT-4o、Gemini-2.5-flash、Claude-3.7、OmniSearch 和 Qwen2.5-VL 等在内的其他智能体进行了对比测试。

条形图比较了 WebWatcher-32B 与 GPT-4、Gemini 2.5-flash、Qwen2.5-VL-7B 和 Claude-3.7 在四个基准测试: HLE-VL、BrowseComp-VL、LiveVQA 和 MMSearch 中的性能。WebWatcher 始终领先。

图 4: WebWatcher 在四个推理基准中的整体性能对比。 (原论文图 1)

在 人类终极考试 (HLE) —— 一个要求极高的学术基准中，直接推理模型的得分不到 10%。RAG 有一定提升，但最佳表现来自智能体的多步推理。WebWatcher-32B 排名第一。

HLE 基准测试结果表，显示 WebWatcher-32B 取得了最高平均分 (13.6) ，超过了各种直接推理、RAG 及其他智能体方法的模型。

表 1: HLE 结果。WebWatcher 在智能体中领先，击败了强大的 GPT-4o 基线。 (原论文表 1)

这一模式在其他基准中同样显著:

BrowseComp-VL、LiveVQA、MMSearch 和 SimpleVQA 的结果表。WebWatcher-32B 始终在所有智能体中得分最高。

表 2: BrowseComp-VL、LiveVQA、MMSearch 和 SimpleVQA 的结果。WebWatcher 持续位居榜首。 (原论文表 2)

在 BrowseComp-VL 上，大多数基线模型得分不足 20%，显示了任务的高难度。WebWatcher 的动态工具循环在此大显身手。在 **LiveVQA **(最新视觉知识) 和 **MMSearch **(多模态搜索) 上，它同样领先明显。

WebWatcher 成功的原因

灵活的工具使用

六个条形图显示五个基准及总体中，各工具 (文本搜索、图片搜索、代码、访问) 的调用比例。

图 5: 工具使用模式随基准不同而变化，展示了自适应策略。 (原论文图 5)

在 HLE 中，文本搜索、图片搜索与代码使用比例较为均衡；在 BrowseComp-VL 中，文本搜索占 62% 的主导位置。对于 LiveVQA / MMSearch 这种以视觉为主的任务，图片搜索优先。WebWatcher 会根据任务自适应选择工具。

冷启动的重要性

三张折线图对比有无 SFT 冷启动的 RL 训练表现。冷启动模型始终更优。

图 6: RL 训练的有无 SFT 冷启动对比。缺乏 SFT 时学习停滞。 (原论文图 6)

未经过 SFT (“Instruct”) 直接开始的模型，在 RL 下几乎无改进，且常出工具格式错误。冷启动模型初始表现更好，并稳步提升 —— 尤其是在 LiveVQA 上 —— 证明了 SFT 的重要性。

Pass@k 下的扩展能力

一张折线图显示 WebWatcher 在 HLE 上的 Pass@k 表现: k=1 时约 13%，到 k=32 时超过 40%。

图 7: HLE 的 Pass@k 扩展性。更多多样化尝试带来成倍提升。 (原论文图 7)

即便只有一次尝试 ($k=1$)，WebWatcher 也领先大多数基线模型。随着多次并行且去相关的尝试，性能迅速提升 —— 在 $k=16$ 时达 35.7%，在 $k=32$ 时达 41.9%。每次尝试都增加了有效覆盖。

结论: 会看、会读、会推理 —— 研究级能力

WebWatcher 是多模态 AI 智能体发展的一个里程碑:

挑战真实存在 —— 将视觉与语言结合用于深度研究，不只是添加视觉工具，更需要高水平整合与推理。
数据至关重要 —— BrowseComp-VL 基准测试及其可扩展、质量可控的数据生成管线，使得稳健训练与评估成为可能。
训练决定成败 —— SFT 冷启动与 GRPO 强化学习结合，为智能体带来灵活的多工具推理能力。

通过赋予智能体看、读、推理的能力，WebWatcher 为能够自主解决复杂现实问题的系统提供了蓝图 —— 充分利用网络中的多模态知识。这是对 AI 研究未来的一次有力展望。

现代 AI 智能体的盲点#

构建更好的训练场: BrowseComp-VL 基准测试#

数据生成流程#

训练多模态研究智能体#

智能体的工具集#

阶段 1: 学习类专家的推理轨迹#

阶段 2: 两步训练 —— SFT 冷启动 + RL 精炼#

结果: 新的业界标杆#

WebWatcher 成功的原因#

灵活的工具使用#

冷启动的重要性#

Pass@k 下的扩展能力#

结论: 会看、会读、会推理 —— 研究级能力#