引言: 精通网络的 AI 面临的数据瓶颈
由大型语言模型 (LLM) 驱动的智能体正迅速从简单的聊天机器人演化为能够处理复杂、开放任务的先进数字助手。像 OpenAI 的 Deep Research、谷歌的 Gemini 和 Perplexity AI 这样的系统,能够浏览网页、从多个来源收集信息,并综合回答几年前还无法解决的问题。这一核心能力被称为**信息寻求 **(Information-Seeking, IS) ——它是驱动下一代人工智能的引擎。
然而,一个主要障碍正在阻碍进展: 高质量训练数据的稀缺。要教会智能体如何高效地寻求信息,你需要海量的数据集,其中包含复杂问题及解决这些问题所需的逐步推理和网页浏览过程。手动创建这类数据极其昂贵且耗时。
研究人员自然想到用 AI 来生成合成数据。目前的主流方法——作者称之为**信息驱动 **(information-driven) ——是先从网络上抓取大量语料,再提示 LLM 基于这些内容生成问题。
图 2: 数据合成范式从信息驱动 (左) 到形式化驱动 (右) 的转变。WebShaper 在收集数据前先定义精确的任务结构,颠覆了传统流程。
虽然这看似合理,但存在两个关键缺陷:
- LLM 可能难以构建推理结构完全匹配检索信息的问题,导致答案不一致或错误。
- “先收集,再提问”的方法效率低,经常出现冗余数据,限制了多样性。
为解决这一问题,阿里巴巴集团的研究人员在论文《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中提出了一种根本性转变。他们不再先处理杂乱、无结构的网络数据,而是从一个关于 IS 任务的形式化数学蓝图入手。这种**形式化驱动 **(formalization-driven) 的方法,使他们能在收集所需信息之前精确控制任务的复杂性和结构,从而生成质量更高、更丰富且更一致的训练数据。
本文将深入解析 WebShaper 框架: 其基于集合论的 IS 任务形式化方法、用于深度问题扩展的自主智能体系统,以及实验结果如何展示这一新范式能够训练出最先进的开源 IS 智能体。
寻求知识的形式化蓝图
在构造更好的问题之前,我们需要一种更好的方式来定义问题。作者认为,自然语言在系统化数据生成中过于模糊。因此,他们提出了一种用于 IS 任务的基于集合论的形式化语言。
考虑论文中的这个例子:
哪位球员曾在 2004–05 赛季为一支成立于 1966 年的东德足球队效力,并且出生于 90 年代?
要回答这个问题,你需要:
- 找到一支成立于 1966 年 且 是东德足球队的球队 (→ 柏林迪纳摩足球俱乐部) 。
- 找到在 2004 年 或 2005 年为该队效力的球员。
- 找到所有出生于 1990 年代的球员。
- 将步骤 2 和步骤 3 的结果取交集。
形式化的基本单位是**知识投影 **(Knowledge Projection, KP) ——即与另一集合存在特定关系的实体集合。对于集合 \(V\) 和关系 \(R\):
\[ R(V) = \{ u \mid \exists v \in V,\ (u, v) \in R \ \text{or} \ (v, u) \in R \} \]例如,如果 \(R\) = bornIn
(出生于) ,且 \(V\) = {'90s'
} (90 年代) ,那么 \(R(V)\) 就是所有出生在 1990 年代的人的集合。
图 3: WebShaper 形式化的一个问答示例。紫色形状表示由关系连接的集合。
IS 任务通过以下方式由 KP 构建:
交集 (∩): 目标必须满足所有条件。
\[ R(V) = R_1(S_1) \cap R_2(S_2) \cap \dots \cap R_n(S_n) \]
例如: 在 2000 年踢球 且 出生于 90 年代的球员:R-并集 (∪): 目标可以满足任意一个条件。
\[ R(V) = R(S_1) \cup R(S_2) \cup \dots \cup R(S_m) \]
例如: 在 2004 年 或 2005 年踢球的球员:
任何 IS 任务都可归结为找到由这些运算构建的目标集 \(T\) 的元素:
\[ q(T) \triangleq ?T \]对于足球例子:
\[ \begin{aligned} q(T) &\triangleq T = R_{playIn}(T_1) \cap \big( R_{playAt}(\{2004\}) \cup R_{playAt}(\{2005\}) \big) \\ &\quad \cap \bigcup_{y=1990}^{1999} R_{bornIn}(\{y\}) \\ T_1 &= R_{foundIn}(\{1966\}) \cap R_{isA}(\text{East German football team}) \end{aligned} \]这种机器可读的框架让 WebShaper 能够精准控制推理路径。
WebShaper 流水线: 从蓝图到高质量数据
形式化语言是骨架;而流水线则将其转化为丰富的数据集。
第 1 步: 播种
研究人员首先通过在链接文章上进行随机漫步,从离线维基百科知识图谱中生成了 18,000 个高质量的“种子问题”。LLM 根据访问内容生成问答对,并通过筛选移除带噪声或产生幻觉的种子。
第 2 步: 智能体扩展
种子经由自主的**扩展器 **(Expander) 智能体扩展为复杂的多跳任务。扩展器使用 WebShaper 的 KP 表示,例如:
|
|
简单扩展可能导致:
- 冗余: 添加连接常量的事实,但不增加推理深度。
- 推理捷径: 添加直接连接到目标变量的事实。
图 4: 扩展方式比较。分层扩展避免了随机/顺序结构中的陷阱。
分层扩展策略
将每个问题视为变量/常量图。扩展器会:
- 找到所有“叶子”常量。
- 用可推导出该常量的子问题替换它。
- 将子问题合并到主查询中,保持原始答案不变。
这样可在不引入捷径的情况下加深推理链。
例如: 用一个球队成立年份的子问题替换 C@1966
,该年份通过另一个历史事实推断获得。
扩展器工具:
- 搜索 (Search) : 在 Google 上查询目标信息。
- 总结 (Summarize) : 合并多个来源 (可实现 R-并集) 。
- 验证 (Validate) : 确认正确性和复杂性,拒绝过于简单的子问题。
第 3 & 4 步: 轨迹构建与训练
第二个智能体解决扩展后的问题,生成逐步的“思考–行动–观察”轨迹。筛选正确性后,保留 5,000 条轨迹用于监督微调 (SFT) 和强化学习 (RL) ,训练 WebShaper 智能体。
实验: WebShaper 的测试结果
基于 Qwen-2.5 (32B、72B) 和 QwQ-32B 的 WebShaper 智能体在 GAIA 和 WebWalkerQA 上使用 Pass@1 进行评估。
主要结果
表 1: WebShaper 在开源基准中领先。
在 GAIA 上,WebShaper-72B 得分 60.1,超越 WebDancer (51.5) 和 WebSailor (55.4) 。
图 1: GAIA 排行榜。WebShaper 是顶尖的开源模型。
性能提升在所有模型骨干上均保持稳定,证明数据集的通用性。
WebShaper 为何有效: 形式化与结构
消融实验揭示了关键创新点:
图 7: 左 — 形式化 (FL) 始终优于自然语言 (NL) 。
右 — 分层扩展优于顺序扩展。
- 形式化 vs. 自然语言: KP 形式化表示能生成更丰富、更精准的任务。
- 分层 vs. 顺序: 受控扩展避免冗余和捷径,产出更高质量的推理链。
生成更深层推理任务
图 8: 工具调用分布。WebShaper 任务更依赖多跳搜索和访问。
WebShaper 的问题呈现出超过 3 次工具调用的“长尾”,体现了其复杂多跳推理的需求。
案例研究: 结构完整性
图 10: 其他系统的示例,存在冗余和推理捷径问题。
相比之下,WebShaper 生成的查询避免了无关常量,并确保推理路径涵盖所有必要变量——不会提前将目标直接链接。
结论: 信息寻求数据合成的范式转变
WebShaper 的形式化驱动方法克服了传统信息驱动合成的缺陷:
- 精确性: 基于集合论的任务定义可控推理路径。
- 多样性与覆盖: 形式化鼓励多样化、高复杂度任务。
- 结构完整性: 分层扩展确保每个事实都发挥作用。
成果是?在 GAIA 和 WebWalkerQA 上训练出最先进的开源 IS 智能体。
WebShaper 不仅仅是一个数据集,它更提供了为 AI 智能体设计认知挑战的通用方法——将任务规范与数据生成解耦,实现对难度、质量和规模的精细化控制。这种主动、蓝图优先的范式,为打造真正能在开放网络中掌握信息寻求能力的 AI 铺平了道路。