我们正处在一个大语言模型 (LLM) 日益强大的时代。然而,对许多用户来说,与它们互动依然像简单的问答: 你提问,它回答。

但如果 AI 能走得更远呢?想象一下,你提出一个复杂的问题——比如*“量子计算对金融业的长期经济影响是什么?”*——然后 AI 能够自主地研究这个问题,浏览相关来源,分析数据,并呈现一份全面、有证据支撑的报告。

这个愿景正是智能体 AI (agentic AI) 的核心: 构建能够推理、规划并使用工具完成多步骤目标的系统。其中挑战性最高的应用之一是深度研究 (Deep Research, DR) ——智能体必须在浩如烟海的信息空间中导航,并通过灵活、多工具的工作流,综合出可靠的答案。

Salesforce AI Research 最近的一篇论文 SFR-DeepResearch 针对这一挑战提出了一种引人瞩目的方法。他们不去编排复杂的多智能体系统,而是专注于打造一个能够端到端处理研究过程的单个自主智能体。他们的“秘方”是一种全新的强化学习 (RL) 训练配方——完全由合成数据驱动——用于教会经过推理优化的 LLM 成为高效、自我驱动的研究员。

本文将探讨他们的方法论: 精心设计的智能体工作流、标准 RL 在此类任务中为何不足,以及其改进如何在深度研究中达到最先进的表现。


单智能体 vs 多智能体团队

在深入训练创新之前,先来看构建 DR 系统的两种主要路径。

多智能体系统
可以将其类比为项目团队。一个顶层的协调器将复杂查询拆解为子任务,并分派给不同的专职智能体:

  • 规划器 (Planner) 负责分解步骤,
  • 研究员 (Researcher) 负责搜索和检索信息,
  • 编码器 (Coder) 负责执行计算,
  • 写作者 (Writer) 负责整合最终报告。

这种结构化分工很有威力,但容易将智能体限制在固定工作流中。

单智能体系统
在这里,一个能力强大的 LLM 接收问题和一套工具,自主决定下一步最优操作——搜索、浏览、编码——过程中无需额外指令。这种自主性带来灵活性,并可能在未见任务上具备更强的泛化能力,因为它不受僵化、预设步骤的约束。

SFR-DeepResearch 完全聚焦这种单智能体范式。作者认为,一个高度能力化的单智能体更具适应性,在需要时也能作为子模块融入更大的多智能体架构中,从而降低整体复杂度。


SFR-DeepResearch 的配方

该团队通过三大支柱将强推理 LLM 转变为自主研究智能体:

  1. 针对基础模型优化的智能体工作流
  2. 具有挑战性的合成训练数据
  3. 为稳定性定制的强化学习算法

1. 构建模型专属工作流

智能体如何调用工具、管理上下文至关重要。作者设计了极简工具集,辅以与模型优势匹配的工作流。

极简工具箱

智能体仅配备三种核心工具:

  1. search_internet(query: str) – 基础型网络搜索 API,返回前 10 条自然搜索结果,包括标题、URL 和摘要。
  2. browse_page(url: str, section_id: int) – 抓取 HTML 并清理为 Markdown,去除超链接,使页面呈现为“静态”。如需访问新链接,智能体必须重新发起搜索。
  3. code_interpreter(code: str) – 安全、无状态的 Python 执行器。每次运行相互隔离,无变量持久化或访问危险包的权限。

通过限制工具复杂度,作者确保智能体在战略规划与高效推理上面临真正挑战。

适应模型特性

部分模型天生更擅长单步推理。对于 QwQ-32BQwen3-8B,多轮对话会削弱性能: 模型的“思考”词元 (逐步推理轨迹) 在长会话中趋于不稳定。

解决方案?将交互改造成**迭代式单轮上下文打包 **(见图 1) 。每一步提示中包含:

  • 原始问题
  • 所有先前的工具调用及输出
    并合并为一条用户消息

这样可让智能体持续以其最优的单轮模式运行。

一个工具调用轨迹的示例。该过程被构建为一个单轮的上下文问答问题,其中用户提示随着每一步的进行而增长,以包含工具调用和结果的全部历史记录。

图 1: QwQ-32B/Qwen3 的工具调用轨迹示例。先前步骤的动作和结果被打包到单个用户轮次中,以保持单轮优化。

对于擅长多轮交流的 gpt-oss-20b,则保留标准多轮聊天模式。

自主管理内存

深度研究会生成很长的上下文,可能超出 LLM 的词元上限。为避免盲目截断,智能体配备了 clean_memory(content: str) 工具。当接近溢出时,其唯一正确操作就是使用该工具——总结并保留核心事实,舍弃无关细节。这种机制培养了为长周期目标进行上下文压缩的能力。


2. 打造真正有挑战性的数据

团队发现,现有多跳问答数据集 (如 HotpotQA 等) 过于简单——无需搜索即可完成。

因此,他们合成了两类高难度任务:

  • 短格式问答 – 多跳、事实检索类提问,加之数学和代码问题,要求多轮搜索迭代。
  • 长篇报告 – 开放式提问,要求撰写完整报告,并结合事实性、写作质量、引用等评估指标。

这些任务搜索密集,有时需多达 50 次工具调用。即便是基于 o3 的 OpenAI 深度研究智能体,准确率也不足 65%,许多基准模型甚至低于 40%。


3. 稳定化强化学习

训练一连串工具调用以最大化最终奖励极具挑战——尤其当轨迹长短差异很大时。

退化问题

智能体可能会过度偏向**增加工具调用次数 **(哪怕重复) ,因为长轨迹在梯度更新中影响更大。这会养成不良习惯并导致性能崩溃。

长度归一化优势

作者修改了 REINFORCE,通过轨迹长度 \( T_i \) 缩放优势值:

\[ A_{i,j} = \frac{r_i - \operatorname{mean}(\overline{R})}{\operatorname{std}(\overline{R}) \cdot T_i} \]

此举降低长轨迹中每步的奖励或惩罚权重,防止压制短而高效的路径。

图表显示,在没有长度归一化的情况下,智能体的平均轨迹长度爆炸式增长而性能下降。通过归一化,轨迹长度保持稳定且性能得到提升。

图 2: 无长度归一化 (红线) 时,轨迹长度急剧膨胀且性能下滑;使用归一化 (蓝线) 后,工具调用受控,得分提升。

额外稳定器

  • 轨迹过滤 – 从回放缓冲区剔除失败/截断/格式错误的轨迹,保持正负样本平衡。
  • 部分轨迹复用 – 将部分成功路径作为新回合起始状态,提高接触有价值中间上下文的机会。

这些技术结合可在长周期、多工具研究中维持 RL 的稳定性。


SFR-DR 基准评估

团队在三个高难基准上进行了评测:

  • FRAMES – 带浏览的多跳推理问答
  • GAIA – 通用助手任务 (仅限文本)
  • HLE人类终极考试,跨科学/数学的重推理套件

为确保公平,他们使用污染域名黑名单,禁止智能体访问包含基准答案的站点。

表格展示了 SFR-DR 智能体与专有和开源基准的性能对比。SFR-DR-20B 在所有测试中均取得了最高分。

表 1: SFR-DR 智能体与专有、开源基准对比,评估中启用污染控制。

亮点:

  • SFR-DR-20B 在开源基准中领跑,并可与专有系统 (如 OpenAI o3 深度研究) 相媲美甚至超越。
  • 在 HLE 上取得 28.7% Pass@1,较基础模型 (gpt-oss-20b) 提升 65%。

原因分析 – 为什么有效

工作流至关重要

将单轮上下文打包工作流与 Qwen/QwQ 默认多轮工作流对比测试表明,即便未进行 RL也能显著提升表现。

表格对比了默认多轮工作流与自定义 SFR-DR 工作流的性能,显示仅工作流的改变就带来了显著的增益。

表 2: 对 QwQ-32B,切换至单轮打包上下文工作流,使 FRAMES 得分绝对提升约 10%。

这一结果印证: 将工作流匹配于模型优势是一种关键且零成本的优化。

RL 训练后的行为变化

两个条形图,比较了不同 SFR-DR 模型在 RL 训练前后的工具使用情况和响应长度。

图 3: (a) RL 后工具使用量适度上升;(b) QwQ/Qwen 输出更长,gpt-oss-20b 更加简洁。

要点:

  • 工具使用: RL 促使策略性调用次数增加。gpt-oss-20b 本就调用频率高,是强健的智能体基础。
  • 响应长度: gpt-oss-20b 词元利用率高 (思考轨迹短) ,RL 进一步压缩输出;而 QwQ/Qwen RL 后倾向生成更长推理过程。

结论与启示

SFR-DeepResearch 论文为构建以推理为核心的 LLM 自主单智能体研究系统提供了清晰实用的蓝图:

  1. 训练精良的单智能体可媲美多智能体团队——简化架构而不牺牲能力。
  2. 工作流应量身定制——选择最适合基础 LLM 的交互形式。
  3. 稳定的 RL 目标至关重要——长度归一化优势与质量过滤可避免长周期任务中的退化。

通过将搜索密集的合成训练数据与为轨迹调控优化的 RL 相结合,Salesforce AI 团队成功将开源推理模型塑造成强大的自主研究员——让我们更接近能真正参与探索与分析的 AI 协作伙伴。