人工智能在研究领域正变得异常出色。像 OpenAI 的 DeepResearch 和 Google 的 Gemini 这样的系统,现在已经能够通过网页搜索、阅读文档和多步骤综合信息来解决复杂问题。这些 深度研究 智能体正在推动人工智能能力的边界。但它们有一个巨大的盲点: 几乎完全依赖文本。

在现实世界——尤其是在网络上——信息不仅仅存在于文本中,还包括图表、示意图、产品图片、截图和信息图。一个不能看见的智能体,就会错过一半的信息。AI 智能体的下一个重要前沿是结合 视觉语言,来执行真正全面的研究。

应对这一挑战远比听起来更难。一个多模态智能体需要的不仅仅是“眼睛”,它还需要复杂的推理能力,将所见与所读相结合。它必须掌握更丰富的工具,用于感知、知识检索、计算和跨模态推理。而现有的方法往往局限于简单的视觉任务或制式化、模板化的工作流。

阿里巴巴集团的一篇新论文介绍了 WebWatcher —— 一种旨在突破这些限制的视觉-语言智能体。WebWatcher 通过利用 高质量、自动生成的训练数据灵活多样的工具集,以及结合监督学习与强化学习的 两阶段训练过程,来学习开展深度研究。

为评估其能力,作者还创建了 BrowseComp-VL —— 一个极具挑战性的多模态研究任务集。结果如何?WebWatcher 不仅略胜一筹,更在多项难度极高的多模态评估中, decisively 超越了 GPT-4o 和 Gemini-2.5-flash 等专有模型。


现代 AI 智能体的盲点

要理解 WebWatcher 的影响力,我们首先要看清当前智能体在视觉-语言推理中失败的原因。许多智能体陷入以下两种困境之一:

  • 视觉专家: 能看但无法进行深度推理。
  • 文本专家: 能推理却无法正确地看。

研究人员用 GAIA 基准测试中的一个棘手案例完美展示了这一问题: 智能体必须仅凭一张动物的图片,找到该动物在维基百科页面上 (2020 年之前) “visual edit” 标签的数量。

一张图表比较了三种类型的智能体——VL 智能体、WebWatcher 和搜索智能体——试图根据一张海鹦的图片回答问题。WebWatcher 是唯一一个通过多步骤、多工具的推理过程成功的。

图 1: 智能体解决复杂视觉-语言任务的三种方法对比。只有 WebWatcher 的多工具集成推理得出正确答案。 (原论文图 2)

具体表现如下:

  • 标准 VL 智能体 —— 错误地识别动物 (“看起来像鹈鹕”) ,因此陷入僵局。它过度依赖浅层视觉分析,缺乏深度推理与网页浏览能力。
  • 纯文本搜索智能体 —— 无法将搜索与给定图像对应起来。它猜测 (“可能是企鹅或海鸥”) ,结果进行无关搜索,错失答案。
  • WebWatcher —— 执行真正的多步骤推理,在灵活的循环中结合 OCR、网页搜索、访问页面与交叉验证,直到找到正确答案。

结论很明确: 解决复杂的现实问题需要 跨模态的深度推理 以及 多样化工具的有效使用 —— 这正是 WebWatcher 的设计目标。


构建更好的训练场: BrowseComp-VL 基准测试

没有复杂的数据,就不可能训练出复杂的智能体。然而,大多数现有的视觉问答 (VQA) 数据集都聚焦于 *简单感知 *(如“车是什么颜色?”) 或 单步查询。它们缺乏开展深度研究所需的多跳推理与策略规划。

研究人员为此创建了 BrowseComp-VL —— 一个在真实网络环境中进行高级多模态推理的基准测试。

两个甜甜圈图,显示了 BrowseComp-VL 数据集 Level\u00a01 和 Level\u00a02 的领域分布,并附有示例问题。

图 2: BrowseComp-VL 的两个难度级别下的领域分布。 (原论文图 3)

BrowseComp-VL 涵盖五大领域 —— 娱乐、人文、科技、自然科学及其他 —— 并分为两个难度级别:

  • Level 1:
    问题需要多跳推理,但引用的是明确的实体。答案可通过迭代检索获得,但仍需整合多来源信息。

  • Level 2:
    实体被 模糊化 或隐藏。例如,问题不会直接说“James Roy Kinghorn”,而会描述为“与 Captain Fortune Show 有关联的著名动物学家”。这迫使智能体进行 推断与信息整合,而不仅是检索。


数据生成流程

要生成数以万计这样的样例,需要自动化支持。研究团队设计了可扩展的生成管线:

一个流程图,展示了数据生成管线,从知识图谱到图像搜索,最终生成 Level\u00a01 和 Level\u00a02 VQA 问题。

图 3: 生成高质量 VQA 对的自动化流程。 (原论文图 4)

步骤 1: 生成复杂的文本 QA 对
系统从权威领域数据 (如维基百科) 构建知识图谱,并通过遍历超链接生成多跳推理链。Level 2 问题进行模糊化 —— 用笼统描述替换具体细节。

步骤 2: 将文本 QA 转换为 VQA
为每个 QA 对识别关键实体,并通过网络图片搜索获取真实世界图像。问题改写为引用“图像中的实体”而不直接点名。

步骤 3: 质量控制
筛选器 (Selector) 会剔除重写不佳或不相关的问题/图片;检验器 (Examiner) 会测试这些问题是否能在给定图片及相关文本上下文中解答。所有检查由 GPT-4o 驱动,以确保对齐和一致性。

这一管线生成了丰富而具有挑战性的数据集,非常适合训练多模态研究智能体。


训练多模态研究智能体

数据集准备完毕后,下一步是教会智能体如何推理和采取行动。

智能体的工具集

WebWatcher 配备五项工具:

  1. 网页图片搜索 —— 获取图片、标题及相关 URL。
  2. 网页文本搜索 —— 从网络进行开放域文本检索。
  3. 访问 —— 打开 URL 并摘要与任务目标相关的内容。
  4. 代码解释器 —— 执行计算、解析和符号推理。
  5. OCR —— 从图像中提取嵌入文本。

阶段 1: 学习类专家的推理轨迹

研究人员使用 GPT-4o 按 ReAct 框架自动生成“轨迹” —— 思路、工具调用和观察的脚本化序列:

\[ \tau = \{ (t_0, o_0), (t_1, o_1), \dots, (t_L, o_L) \} \]

其中 \(t_i\) 是第 \(i\) 步的工具/动作,\(o_i\) 是其输出。

仅保留满足以下条件的轨迹:

  • 以正确答案结束
  • 每步逻辑一致
  • 至少调用工具三次

这样可确保学习来源于真实且不平凡的推理过程。


阶段 2: 两步训练 —— SFT 冷启动 + RL 精炼

第一阶段: 监督微调 (SFT)
利用筛选后的轨迹对 WebWatcher 进行微调,以预测正确的下一步动作:

\[ \max_{\theta} \sum_{i=1}^{K} \sum_{l=1}^{L_{i}} \log P_{\theta} \left( t_{l}^{(i)} | I^{(i)}, q^{(i)}, t_{冷启动阶段在自主学习前教授工具语法、调用序列及多步推理的基础。

第二阶段: 使用 GRPO 的强化学习
采用 群体相对策略优化 (Group-Relative Policy Optimization),智能体为每个查询生成 \(K\) 条轨迹、评分,并根据相对成功度更新策略:

\[ A_{\rm rel}(\tau^{(i)}) = R^{(i)} - \frac{1}{K} \sum_{j=1}^{K} R^{(j)} \]

总奖励结合格式正确性 (\(r_f\)) 与答案准确性 (\(r_a\)):

\[ R = w r_f + (1 - w) r_a \]

GRPO 鼓励整体推理路径的优化,而不仅仅依赖侥幸的步骤。


结果: 新的业界标杆

WebWatcher 与直接推理、RAG 工作流,以及包括 GPT-4o、Gemini-2.5-flash、Claude-3.7、OmniSearch 和 Qwen2.5-VL 等在内的其他智能体进行了对比测试。

条形图比较了 WebWatcher-32B 与 GPT-4、Gemini 2.5-flash、Qwen2.5-VL-7B 和 Claude-3.7 在四个基准测试: HLE-VL、BrowseComp-VL、LiveVQA 和 MMSearch 中的性能。WebWatcher 始终领先。

图 4: WebWatcher 在四个推理基准中的整体性能对比。 (原论文图 1)

人类终极考试 (HLE) —— 一个要求极高的学术基准中,直接推理模型的得分不到 10%。RAG 有一定提升,但最佳表现来自智能体的多步推理。WebWatcher-32B 排名第一。

HLE 基准测试结果表,显示 WebWatcher-32B 取得了最高平均分 (13.6) ,超过了各种直接推理、RAG 及其他智能体方法的模型。

表 1: HLE 结果。WebWatcher 在智能体中领先,击败了强大的 GPT-4o 基线。 (原论文表 1)

这一模式在其他基准中同样显著:

BrowseComp-VL、LiveVQA、MMSearch 和 SimpleVQA 的结果表。WebWatcher-32B 始终在所有智能体中得分最高。

表 2: BrowseComp-VL、LiveVQA、MMSearch 和 SimpleVQA 的结果。WebWatcher 持续位居榜首。 (原论文表 2)

BrowseComp-VL 上,大多数基线模型得分不足 20%,显示了任务的高难度。WebWatcher 的动态工具循环在此大显身手。在 **LiveVQA **(最新视觉知识) 和 **MMSearch **(多模态搜索) 上,它同样领先明显。


WebWatcher 成功的原因

灵活的工具使用

六个条形图显示五个基准及总体中,各工具 (文本搜索、图片搜索、代码、访问) 的调用比例。

图 5: 工具使用模式随基准不同而变化,展示了自适应策略。 (原论文图 5)

在 HLE 中,文本搜索、图片搜索与代码使用比例较为均衡;在 BrowseComp-VL 中,文本搜索占 62% 的主导位置。对于 LiveVQA / MMSearch 这种以视觉为主的任务,图片搜索优先。WebWatcher 会根据任务自适应选择工具。


冷启动的重要性

三张折线图对比有无 SFT 冷启动的 RL 训练表现。冷启动模型始终更优。

图 6: RL 训练的有无 SFT 冷启动对比。缺乏 SFT 时学习停滞。 (原论文图 6)

未经过 SFT (“Instruct”) 直接开始的模型,在 RL 下几乎无改进,且常出工具格式错误。冷启动模型初始表现更好,并稳步提升 —— 尤其是在 LiveVQA 上 —— 证明了 SFT 的重要性。


Pass@k 下的扩展能力

一张折线图显示 WebWatcher 在 HLE 上的 Pass@k 表现: k=1 时约 13%,到 k=32 时超过 40%。

图 7: HLE 的 Pass@k 扩展性。更多多样化尝试带来成倍提升。 (原论文图 7)

即便只有一次尝试 (\(k=1\)),WebWatcher 也领先大多数基线模型。随着多次并行且去相关的尝试,性能迅速提升 —— 在 \(k=16\) 时达 35.7%,在 \(k=32\) 时达 41.9%。每次尝试都增加了有效覆盖。


结论: 会看、会读、会推理 —— 研究级能力

WebWatcher 是多模态 AI 智能体发展的一个里程碑:

  1. 挑战真实存在 —— 将视觉与语言结合用于深度研究,不只是添加视觉工具,更需要高水平整合与推理。
  2. 数据至关重要 —— BrowseComp-VL 基准测试及其可扩展、质量可控的数据生成管线,使得稳健训练与评估成为可能。
  3. 训练决定成败 —— SFT 冷启动与 GRPO 强化学习结合,为智能体带来灵活的多工具推理能力。

通过赋予智能体看、读、推理的能力,WebWatcher 为能够自主解决复杂现实问题的系统提供了蓝图 —— 充分利用网络中的多模态知识。这是对 AI 研究未来的一次有力展望。