引言: 精通网络的 AI 面临的数据瓶颈

由大型语言模型 (LLM) 驱动的智能体正迅速从简单的聊天机器人演化为能够处理复杂、开放任务的先进数字助手。像 OpenAI 的 Deep Research、谷歌的 Gemini 和 Perplexity AI 这样的系统,能够浏览网页、从多个来源收集信息,并综合回答几年前还无法解决的问题。这一核心能力被称为**信息寻求 **(Information-Seeking, IS) ——它是驱动下一代人工智能的引擎。

然而,一个主要障碍正在阻碍进展: 高质量训练数据的稀缺。要教会智能体如何高效地寻求信息,你需要海量的数据集,其中包含复杂问题及解决这些问题所需的逐步推理和网页浏览过程。手动创建这类数据极其昂贵且耗时。

研究人员自然想到用 AI 来生成合成数据。目前的主流方法——作者称之为**信息驱动 **(information-driven) ——是先从网络上抓取大量语料,再提示 LLM 基于这些内容生成问题。

一张图表展示了从信息驱动到形式化驱动的数据合成范式的转变。

图 2: 数据合成范式从信息驱动 (左) 到形式化驱动 (右) 的转变。WebShaper 在收集数据前先定义精确的任务结构,颠覆了传统流程。

虽然这看似合理,但存在两个关键缺陷:

  1. LLM 可能难以构建推理结构完全匹配检索信息的问题,导致答案不一致或错误。
  2. “先收集,再提问”的方法效率低,经常出现冗余数据,限制了多样性。

为解决这一问题,阿里巴巴集团的研究人员在论文《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中提出了一种根本性转变。他们不再先处理杂乱、无结构的网络数据,而是从一个关于 IS 任务的形式化数学蓝图入手。这种**形式化驱动 **(formalization-driven) 的方法,使他们能在收集所需信息之前精确控制任务的复杂性和结构,从而生成质量更高、更丰富且更一致的训练数据。

本文将深入解析 WebShaper 框架: 其基于集合论的 IS 任务形式化方法、用于深度问题扩展的自主智能体系统,以及实验结果如何展示这一新范式能够训练出最先进的开源 IS 智能体。


寻求知识的形式化蓝图

在构造更好的问题之前,我们需要一种更好的方式来定义问题。作者认为,自然语言在系统化数据生成中过于模糊。因此,他们提出了一种用于 IS 任务的基于集合论的形式化语言

考虑论文中的这个例子:

哪位球员曾在 2004–05 赛季为一支成立于 1966 年的东德足球队效力,并且出生于 90 年代?

要回答这个问题,你需要:

  1. 找到一支成立于 1966 年 是东德足球队的球队 (→ 柏林迪纳摩足球俱乐部) 。
  2. 找到在 2004 年 2005 年为该队效力的球员。
  3. 找到所有出生于 1990 年代的球员。
  4. 将步骤 2 和步骤 3 的结果取交集。

形式化的基本单位是**知识投影 **(Knowledge Projection, KP) ——即与另一集合存在特定关系的实体集合。对于集合 \(V\) 和关系 \(R\):

\[ R(V) = \{ u \mid \exists v \in V,\ (u, v) \in R \ \text{or} \ (v, u) \in R \} \]

例如,如果 \(R\) = bornIn (出生于) ,且 \(V\) = {'90s'} (90 年代) ,那么 \(R(V)\) 就是所有出生在 1990 年代的人的集合。

一个使用知识投影形式化问题的示例,展示了如何通过集合运算组合找到答案。

图 3: WebShaper 形式化的一个问答示例。紫色形状表示由关系连接的集合。

IS 任务通过以下方式由 KP 构建:

  1. 交集 (∩): 目标必须满足所有条件。
    例如: 在 2000 年踢球 出生于 90 年代的球员:

    \[ R(V) = R_1(S_1) \cap R_2(S_2) \cap \dots \cap R_n(S_n) \]
  2. R-并集 (∪): 目标可以满足任意一个条件。
    例如: 在 2004 年 2005 年踢球的球员:

    \[ R(V) = R(S_1) \cup R(S_2) \cup \dots \cup R(S_m) \]

任何 IS 任务都可归结为找到由这些运算构建的目标集 \(T\) 的元素:

\[ q(T) \triangleq ?T \]

对于足球例子:

\[ \begin{aligned} q(T) &\triangleq T = R_{playIn}(T_1) \cap \big( R_{playAt}(\{2004\}) \cup R_{playAt}(\{2005\}) \big) \\ &\quad \cap \bigcup_{y=1990}^{1999} R_{bornIn}(\{y\}) \\ T_1 &= R_{foundIn}(\{1966\}) \cap R_{isA}(\text{East German football team}) \end{aligned} \]

这种机器可读的框架让 WebShaper 能够精准控制推理路径。


WebShaper 流水线: 从蓝图到高质量数据

形式化语言是骨架;而流水线则将其转化为丰富的数据集。

第 1 步: 播种

研究人员首先通过在链接文章上进行随机漫步,从离线维基百科知识图谱中生成了 18,000 个高质量的“种子问题”。LLM 根据访问内容生成问答对,并通过筛选移除带噪声或产生幻觉的种子。

第 2 步: 智能体扩展

种子经由自主的**扩展器 **(Expander) 智能体扩展为复杂的多跳任务。扩展器使用 WebShaper 的 KP 表示,例如:

1
[V@T, playIn, V@X], [V@T, playAt, C@2004_05], [V@T, bornIn, C@90s], [V@X, foundIn, C@1966], [V@X, isA, C@East German football team]

简单扩展可能导致:

  • 冗余: 添加连接常量的事实,但不增加推理深度。
  • 推理捷径: 添加直接连接到目标变量的事实。

比较随机、顺序和分层扩展结构的图,突出分层扩展如何避免冗余和推理捷径。

图 4: 扩展方式比较。分层扩展避免了随机/顺序结构中的陷阱。

分层扩展策略
将每个问题视为变量/常量图。扩展器会:

  1. 找到所有“叶子”常量。
  2. 用可推导出该常量的子问题替换它。
  3. 将子问题合并到主查询中,保持原始答案不变。

这样可在不引入捷径的情况下加深推理链。
例如: 用一个球队成立年份的子问题替换 C@1966,该年份通过另一个历史事实推断获得。

扩展器工具:

  • 搜索 (Search) : 在 Google 上查询目标信息。
  • 总结 (Summarize) : 合并多个来源 (可实现 R-并集) 。
  • 验证 (Validate) : 确认正确性和复杂性,拒绝过于简单的子问题。

第 3 & 4 步: 轨迹构建与训练

第二个智能体解决扩展后的问题,生成逐步的“思考–行动–观察”轨迹。筛选正确性后,保留 5,000 条轨迹用于监督微调 (SFT) 和强化学习 (RL) ,训练 WebShaper 智能体。


实验: WebShaper 的测试结果

基于 Qwen-2.5 (32B、72B) 和 QwQ-32B 的 WebShaper 智能体在 GAIAWebWalkerQA 上使用 Pass@1 进行评估。

主要结果

表格展示 GAIA 和 WebWalkerQA 的主要结果,其中 WebShaper 模型在开源方法中得分最高。

表 1: WebShaper 在开源基准中领先。

在 GAIA 上,WebShaper-72B 得分 60.1,超越 WebDancer (51.5) 和 WebSailor (55.4) 。
柱状图比较各 AI 智能体在 GAIA 基准上的表现,WebShaper-72B 领先所有开源模型。

图 1: GAIA 排行榜。WebShaper 是顶尖的开源模型。

性能提升在所有模型骨干上均保持稳定,证明数据集的通用性。


WebShaper 为何有效: 形式化与结构

消融实验揭示了关键创新点:

两张柱状图展示消融结果。左图显示形式化 (FL) 优于自然语言 (NL) ,右图显示分层扩展优于顺序扩展。

图 7: 左 — 形式化 (FL) 始终优于自然语言 (NL) 。
右 — 分层扩展优于顺序扩展。

  • 形式化 vs. 自然语言: KP 形式化表示能生成更丰富、更精准的任务。
  • 分层 vs. 顺序: 受控扩展避免冗余和捷径,产出更高质量的推理链。

生成更深层推理任务

折线图显示工具调用分布。WebShaper 的问题 (紫线) 始终需要更多 Search 和 Visit 操作,表明其复杂度更高。

图 8: 工具调用分布。WebShaper 任务更依赖多跳搜索和访问。

WebShaper 的问题呈现出超过 3 次工具调用的“长尾”,体现了其复杂多跳推理的需求。


案例研究: 结构完整性

其他系统的缺陷案例,显示冗余和捷径——正是 WebShaper 分层扩展要避免的问题。

图 10: 其他系统的示例,存在冗余和推理捷径问题。

相比之下,WebShaper 生成的查询避免了无关常量,并确保推理路径涵盖所有必要变量——不会提前将目标直接链接。


结论: 信息寻求数据合成的范式转变

WebShaper 的形式化驱动方法克服了传统信息驱动合成的缺陷:

  • 精确性: 基于集合论的任务定义可控推理路径。
  • 多样性与覆盖: 形式化鼓励多样化、高复杂度任务。
  • 结构完整性: 分层扩展确保每个事实都发挥作用。

成果是?在 GAIA 和 WebWalkerQA 上训练出最先进的开源 IS 智能体。

WebShaper 不仅仅是一个数据集,它更提供了为 AI 智能体设计认知挑战的通用方法——将任务规范与数据生成解耦,实现对难度、质量和规模的精细化控制。这种主动、蓝图优先的范式,为打造真正能在开放网络中掌握信息寻求能力的 AI 铺平了道路。