我们都经历过这种情况——你在寻找某个极其刁钻、具体问题的答案时,简单的谷歌搜索根本不够用。你最终会打开几十个标签页,交叉引用事实,从零散的来源中拼凑线索。这种 深度搜索 是一种独特的人类技能,需要耐心、批判性思维以及连接看似无关信息的能力。

对于 大语言模型 (LLMs) 来说,深度搜索仍是最后的疆域。当答案已经固化在其参数中时,它们表现出色,但在需要调用浏览工具进行多步调查的复杂现实世界问题上却会表现不佳。这种差距在尖端闭源模型和其开源对应物之间尤为明显。

来自 清华大学东北大学 的研究团队在新论文《DeepDive: 利用知识图谱和多轮强化学习推进深度搜索智能体》 (“DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL”) 中,直面了这一挑战。作者指出了两个主要障碍:

  1. 缺乏真正困难的训练数据 —— 大多数问答数据集过于简单,不要求长程推理。
  2. 训练方法低效 —— 现有方法未能教会模型如何将深度推理与多步工具使用结合起来。

于是,DeepDive 出现了——一个旨在创建新一代开源“深度搜索智能体”的框架。如下图所示,他们的 DeepDive-32B 模型在难度极高的 BrowseComp 基准测试中树立了新的竞争性标准,超越了许多强大的系统。

图 1: DeepDive 的性能比较。左图显示 DeepDive-32B 在 BrowseComp 基准测试中优于其他开源与闭源模型。中图和右图则突显了多轮强化学习如何提升深度搜索能力和性能。

图 1: 左——DeepDive-32B 在 BrowseComp 上超越了领先的开源深度搜索模型和闭源模型。中——强化学习训练提升了长程搜索能力,并随最大工具调用次数上限的增加而扩展。右——多轮强化学习在不同基准任务上持续带来性能提升。

本文将深入介绍他们的方法——如何自动构造“不可能”的问题,并利用强化学习训练出一个能像资深研究员一样浏览的 AI。

挑战: 为什么深度搜索对 AI 如此困难

要理解 DeepDive 的价值,首先需要明白真实的深度搜索有多么复杂。像 HotpotQA 这样的基准测试只是检索关于明确实体的事实。而深度搜索任务往往涉及模糊实体,描述含糊,需要跨越多个步骤进行推理。

来看这个 BrowseComp 例子:

“请找出一位虚构角色,他偶尔会与观众打破第四面墙,其背景故事涉及到无私苦行僧的帮助,以幽默著称,其主演的一档电视剧于 1960 年代至 1980 年代之间播出,且集数少于 50 集。”

解决这个问题,模型必须:

  • 分解多个线索中的约束条件。
  • 处理不精确描述 (“1960 年代至 1980 年代之间”) 。
  • 针对每条证据进行迭代搜索。
  • 综合不同标签页的内容。
  • 排除错误候选,收敛至正确答案
    (如果你感兴趣,正确答案是《功夫》中的 Caine) 。

即便是推理能力很强的模型,也可能在此失利——它们可能搜索流于表面、幻觉信息或陷入死循环。DeepDive 的核心洞见是: 在反映这种难度的数据上进行训练,并用 多轮强化学习 奖励持续探索。

DeepDive 方法: 双重配方

DeepDive 框架基于两项创新:

  1. 新型数据合成流水线,用于生成难以找到的复杂问题。
  2. 端到端多轮强化学习策略,用于训练搜索智能体。

第一部分: 利用知识图谱构造“不可能”的问题

手动编写数千个复杂问题几乎是不可能完成的任务。团队转而使用 知识图谱 (KGs) 自动生成——知识图谱是表示实体及其关系的结构化数据库 (例如 [列奥纳多·达·芬奇] → 绘制 → [蒙娜丽莎]) 。

知识图谱适合这一任务,因为:

  • 编码了可验证的事实
  • 支持构造具备复杂性的多跳路径
  • 节点属性可被模糊化以控制难度。

合成流水线 (图 2) 包括三步:

图 2: 自动化数据合成流水线。该过程从知识图谱上的随机游走开始,用属性丰富路径,然后进行模糊化处理,最后使用大语言模型生成复杂的问答对。

图 2: 基于知识图谱的自动问答合成——随机游走、属性丰富化、模糊化处理,最终生成深度搜索问题。

  1. 随机游走 —— 在图上遍历,形成多跳路径 (如,足球机构 → 中场球员 → 锦标赛 → 俱乐部) 。
  2. 富属性路径 —— 为每个节点添加描述性属性 (日期、地点、奖项) : \[ P_A = \big[(v_0, [a_0^0, a_0^1, \dots]),\ (v_1, [a_1^0, \dots]), \dots \big] \] 再由大语言模型将这些属性模糊化 (如“1948”→“1940年代末”) 。
  3. 合成问答对 —— 大语言模型将模糊路径转化为问题,最终答案取自最后节点的某个选定属性: \[ (q, a^i_k) = \mathrm{LLM\!-\!obscure}(P_A) \]

生成示例:

问: 从一个成立于 1940 年代末的国家足球管理机构开始,据报道该机构曾因一场俱乐部比赛处罚了其一位著名的攻击型中场 (生于 1980 年代中期) ,再追踪该球员入选国家队参加 2019 年初某洲际锦标赛的过程。在该赛事记录中,另一国家队做了最后一分钟的换人。这位替补效力于一个 1930 年代在首都成立的历史豪门俱乐部,该俱乐部多次赢得国内顶级淘汰杯赛冠军。
该国内淘汰杯赛的冠军可获得哪项洲际俱乐部赛事的参赛资格?
答: 亚足联杯 (AFC Cup)

质量过滤包括:

  • 避免过于热门或冷门的节点。
  • 用大语言模型确保路径逻辑一致。
  • 难度过滤: 前沿模型 (如 GPT-4o) 需在多次尝试中均失败,该问题才会保留。

第二部分: 多轮强化学习训练

有了高难度数据后,DeepDive 在网页交互环境中,通过 多轮强化学习 训练智能体。每个问题经历如下循环:

\[ \mathcal{T} = [q, (c_1, a_1, o_1), \dots, (c_m, a_m, o_m), c_{\mathrm{ans}}, a_{\mathrm{eos}}] \]
  • 推理 —— 生成思维链 (\(c_t\)) 。
  • 行动 —— 调用搜索、点击、打开等工具 (\(a_t\)) 。
  • 观察 —— 阅读网页内容 (\(o_t\)) 。
  • 重复至终止 (\(a_{\mathrm{eos}}\)) 。

图 3: 多轮强化学习训练循环示意。DeepDive 智能体迭代推理、调用工具并观察网页内容,直到输出最终答案,然后根据答案产生奖励信号进行学习。

图 3: 多轮强化学习循环——推理、调用工具、观察,循环直至最终回答。

DeepDive 使用 组相对策略优化 (GRPO) ,并引入严格的二元奖励:

\[ r(\mathcal{T}) = \begin{cases} 1, & \forall i: \mathrm{Format}(c_i, a_i) \ \wedge\ \mathrm{Judge}(a_{\mathrm{eos}}, a^*) \\ 0, & \mathrm{otherwise} \end{cases} \]

模型只有在所有步骤格式正确最终答案匹配真实答案时,才能获得 +1。任何格式错误都会立即终止轨迹。这能防止“奖励投机”,迫使模型形成稳健的搜索策略。

实验与结果

DeepDive 在四个高难基准测试中进行了验证。DeepDive-32B 在 BrowseComp 上取得了 14.8% 的成绩,为开源智能体的最高记录。

表 1: 完整基准结果。DeepDive-32B 在多个深度搜索基准测试中实现了开源模型最佳性能,显著优于其他网页智能体。

表 1: 基准得分——DeepDive 经 RL 训练的智能体在深度搜索任务上展现了领先的开源性能。

强化学习是核心驱动力

强化学习始终优于 SFT 基线。图 4 展示训练过程: 在 RL 阶段,奖励与准确率均上升,平均工具调用次数增长约 30%,显示搜索更深入。

图 4: RL 训练动态。在 RL 阶段,模型奖励 (a) 与准确率 (b) 上升,同时平均工具调用次数 (c) 增加,显示模型学会了更深度搜索。

图 4: RL 同时提升准确率与搜索持久性——更多工具调用与解决更难问题相关。

简单任务的泛化能力

针对难任务的专精会削弱简单 QA 表现吗?在 HotpotQA 等数据集上的测试显示——恰恰相反,DeepDive 同样表现优异。

图 5: 简单搜索基准上的表现。DeepDive 不仅在复杂任务上表现优异,在 HotpotQA 等简单搜索任务中也能超越强大的闭源模型。

图 5: 深度搜索学到的技能能很好迁移到简单任务。

推理时扩展

两种策略带来更高性能:

  1. 提升工具调用次数 —— 推理阶段允许更多调用可稳步提高准确率 (图 6) 。
  2. 并行采样 —— 多轮推理并选择调用次数最少的那一次的答案,准确率几乎翻倍 (12.0% → 24.8%) 。

图 6: 工具调用次数扩展效果。允许的最大调用次数增加,SFT-only 与完整 DeepDive-32B 在 BrowseComp 和 BrowseComp-ZH 上成功率均稳步提高。

图 6: 更大的工具预算带来更高成功率。

图 7: 并行采样策略。多数投票有帮助,但选择最少调用次数的运行结果带来了更大性能提升。

图 7: “早成功”启发式比多数投票更显著提升准确率。

高质量数据的重要性

消融实验强调:** 数据质量为王**。定制合成的知识图谱数据集在准确率和工具使用提升上,明显优于标准数据集 (如 HotpotQA) 。

表 2: 消融实验结果。使用定制合成数据集 (“our data”) 在 SFT 和 RL 阶段均带来了远超 HotpotQA 等标准数据的准确率与工具使用提升。

表 2: 合成知识图谱数据在微调和 RL 阶段都至关重要。

结论: 开源深度搜索智能体的蓝图

DeepDive 提供了构建高水平深度搜索智能体的强大蓝图:

  • 复杂且可验证的知识图谱数据合成,提供一种可扩展的高难问题生成管线。
  • 结合严格奖励的多轮强化学习,教授模型推理与迭代工具使用的整合。
  • **推理时扩展 **(更大工具预算 + 并行采样) 可进一步提升表现。

通过开源其数据、模型与代码,DeepDive 团队使社区能够推动开源 LLM 向人类级深度搜索能力迈进——具备资深研究员的韧性与洞察力去驾驭网络。