人工智能在研究领域正变得异常出色。像 OpenAI 的 DeepResearch 和 Google 的 Gemini 这样的系统,现在已经能够通过网页搜索、阅读文档和多步骤综合信息来解决复杂问题。这些 深度研究 智能体正在推动人工智能能力的边界。但它们有一个巨大的盲点: 几乎完全依赖文本。
在现实世界——尤其是在网络上——信息不仅仅存在于文本中,还包括图表、示意图、产品图片、截图和信息图。一个不能看见的智能体,就会错过一半的信息。AI 智能体的下一个重要前沿是结合 视觉 与 语言,来执行真正全面的研究。
应对这一挑战远比听起来更难。一个多模态智能体需要的不仅仅是“眼睛”,它还需要复杂的推理能力,将所见与所读相结合。它必须掌握更丰富的工具,用于感知、知识检索、计算和跨模态推理。而现有的方法往往局限于简单的视觉任务或制式化、模板化的工作流。
阿里巴巴集团的一篇新论文介绍了 WebWatcher —— 一种旨在突破这些限制的视觉-语言智能体。WebWatcher 通过利用 高质量、自动生成的训练数据、灵活多样的工具集,以及结合监督学习与强化学习的 两阶段训练过程,来学习开展深度研究。
为评估其能力,作者还创建了 BrowseComp-VL —— 一个极具挑战性的多模态研究任务集。结果如何?WebWatcher 不仅略胜一筹,更在多项难度极高的多模态评估中, decisively 超越了 GPT-4o 和 Gemini-2.5-flash 等专有模型。
现代 AI 智能体的盲点
要理解 WebWatcher 的影响力,我们首先要看清当前智能体在视觉-语言推理中失败的原因。许多智能体陷入以下两种困境之一:
- 视觉专家: 能看但无法进行深度推理。
- 文本专家: 能推理却无法正确地看。
研究人员用 GAIA 基准测试中的一个棘手案例完美展示了这一问题: 智能体必须仅凭一张动物的图片,找到该动物在维基百科页面上 (2020 年之前) “visual edit” 标签的数量。
图 1: 智能体解决复杂视觉-语言任务的三种方法对比。只有 WebWatcher 的多工具集成推理得出正确答案。 (原论文图 2)
具体表现如下:
- 标准 VL 智能体 —— 错误地识别动物 (“看起来像鹈鹕”) ,因此陷入僵局。它过度依赖浅层视觉分析,缺乏深度推理与网页浏览能力。
- 纯文本搜索智能体 —— 无法将搜索与给定图像对应起来。它猜测 (“可能是企鹅或海鸥”) ,结果进行无关搜索,错失答案。
- WebWatcher —— 执行真正的多步骤推理,在灵活的循环中结合 OCR、网页搜索、访问页面与交叉验证,直到找到正确答案。
结论很明确: 解决复杂的现实问题需要 跨模态的深度推理 以及 多样化工具的有效使用 —— 这正是 WebWatcher 的设计目标。
构建更好的训练场: BrowseComp-VL 基准测试
没有复杂的数据,就不可能训练出复杂的智能体。然而,大多数现有的视觉问答 (VQA) 数据集都聚焦于 *简单感知 *(如“车是什么颜色?”) 或 单步查询。它们缺乏开展深度研究所需的多跳推理与策略规划。
研究人员为此创建了 BrowseComp-VL —— 一个在真实网络环境中进行高级多模态推理的基准测试。
图 2: BrowseComp-VL 的两个难度级别下的领域分布。 (原论文图 3)
BrowseComp-VL 涵盖五大领域 —— 娱乐、人文、科技、自然科学及其他 —— 并分为两个难度级别:
Level 1:
问题需要多跳推理,但引用的是明确的实体。答案可通过迭代检索获得,但仍需整合多来源信息。Level 2:
实体被 模糊化 或隐藏。例如,问题不会直接说“James Roy Kinghorn”,而会描述为“与 Captain Fortune Show 有关联的著名动物学家”。这迫使智能体进行 推断与信息整合,而不仅是检索。
数据生成流程
要生成数以万计这样的样例,需要自动化支持。研究团队设计了可扩展的生成管线:
图 3: 生成高质量 VQA 对的自动化流程。 (原论文图 4)
步骤 1: 生成复杂的文本 QA 对
系统从权威领域数据 (如维基百科) 构建知识图谱,并通过遍历超链接生成多跳推理链。Level 2 问题进行模糊化 —— 用笼统描述替换具体细节。
步骤 2: 将文本 QA 转换为 VQA
为每个 QA 对识别关键实体,并通过网络图片搜索获取真实世界图像。问题改写为引用“图像中的实体”而不直接点名。
步骤 3: 质量控制
筛选器 (Selector) 会剔除重写不佳或不相关的问题/图片;检验器 (Examiner) 会测试这些问题是否能在给定图片及相关文本上下文中解答。所有检查由 GPT-4o 驱动,以确保对齐和一致性。
这一管线生成了丰富而具有挑战性的数据集,非常适合训练多模态研究智能体。
训练多模态研究智能体
数据集准备完毕后,下一步是教会智能体如何推理和采取行动。
智能体的工具集
WebWatcher 配备五项工具:
- 网页图片搜索 —— 获取图片、标题及相关 URL。
- 网页文本搜索 —— 从网络进行开放域文本检索。
- 访问 —— 打开 URL 并摘要与任务目标相关的内容。
- 代码解释器 —— 执行计算、解析和符号推理。
- OCR —— 从图像中提取嵌入文本。
阶段 1: 学习类专家的推理轨迹
研究人员使用 GPT-4o 按 ReAct 框架自动生成“轨迹” —— 思路、工具调用和观察的脚本化序列:
\[ \tau = \{ (t_0, o_0), (t_1, o_1), \dots, (t_L, o_L) \} \]其中 \(t_i\) 是第 \(i\) 步的工具/动作,\(o_i\) 是其输出。
仅保留满足以下条件的轨迹:
- 以正确答案结束
- 每步逻辑一致
- 至少调用工具三次
这样可确保学习来源于真实且不平凡的推理过程。
阶段 2: 两步训练 —— SFT 冷启动 + RL 精炼
第一阶段: 监督微调 (SFT)
利用筛选后的轨迹对 WebWatcher 进行微调,以预测正确的下一步动作:
第二阶段: 使用 GRPO 的强化学习
采用 群体相对策略优化 (Group-Relative Policy Optimization),智能体为每个查询生成 \(K\) 条轨迹、评分,并根据相对成功度更新策略:
总奖励结合格式正确性 (\(r_f\)) 与答案准确性 (\(r_a\)):
\[ R = w r_f + (1 - w) r_a \]GRPO 鼓励整体推理路径的优化,而不仅仅依赖侥幸的步骤。
结果: 新的业界标杆
WebWatcher 与直接推理、RAG 工作流,以及包括 GPT-4o、Gemini-2.5-flash、Claude-3.7、OmniSearch 和 Qwen2.5-VL 等在内的其他智能体进行了对比测试。
图 4: WebWatcher 在四个推理基准中的整体性能对比。 (原论文图 1)
在 人类终极考试 (HLE) —— 一个要求极高的学术基准中,直接推理模型的得分不到 10%。RAG 有一定提升,但最佳表现来自智能体的多步推理。WebWatcher-32B 排名第一。
表 1: HLE 结果。WebWatcher 在智能体中领先,击败了强大的 GPT-4o 基线。 (原论文表 1)
这一模式在其他基准中同样显著:
表 2: BrowseComp-VL、LiveVQA、MMSearch 和 SimpleVQA 的结果。WebWatcher 持续位居榜首。 (原论文表 2)
在 BrowseComp-VL 上,大多数基线模型得分不足 20%,显示了任务的高难度。WebWatcher 的动态工具循环在此大显身手。在 **LiveVQA **(最新视觉知识) 和 **MMSearch **(多模态搜索) 上,它同样领先明显。
WebWatcher 成功的原因
灵活的工具使用
图 5: 工具使用模式随基准不同而变化,展示了自适应策略。 (原论文图 5)
在 HLE 中,文本搜索、图片搜索与代码使用比例较为均衡;在 BrowseComp-VL 中,文本搜索占 62% 的主导位置。对于 LiveVQA / MMSearch 这种以视觉为主的任务,图片搜索优先。WebWatcher 会根据任务自适应选择工具。
冷启动的重要性
图 6: RL 训练的有无 SFT 冷启动对比。缺乏 SFT 时学习停滞。 (原论文图 6)
未经过 SFT (“Instruct”) 直接开始的模型,在 RL 下几乎无改进,且常出工具格式错误。冷启动模型初始表现更好,并稳步提升 —— 尤其是在 LiveVQA 上 —— 证明了 SFT 的重要性。
Pass@k 下的扩展能力
图 7: HLE 的 Pass@k 扩展性。更多多样化尝试带来成倍提升。 (原论文图 7)
即便只有一次尝试 (\(k=1\)),WebWatcher 也领先大多数基线模型。随着多次并行且去相关的尝试,性能迅速提升 —— 在 \(k=16\) 时达 35.7%,在 \(k=32\) 时达 41.9%。每次尝试都增加了有效覆盖。
结论: 会看、会读、会推理 —— 研究级能力
WebWatcher 是多模态 AI 智能体发展的一个里程碑:
- 挑战真实存在 —— 将视觉与语言结合用于深度研究,不只是添加视觉工具,更需要高水平整合与推理。
- 数据至关重要 —— BrowseComp-VL 基准测试及其可扩展、质量可控的数据生成管线,使得稳健训练与评估成为可能。
- 训练决定成败 —— SFT 冷启动与 GRPO 强化学习结合,为智能体带来灵活的多工具推理能力。
通过赋予智能体看、读、推理的能力,WebWatcher 为能够自主解决复杂现实问题的系统提供了蓝图 —— 充分利用网络中的多模态知识。这是对 AI 研究未来的一次有力展望。