我们正处在一个大语言模型 (LLM) 日益强大的时代。然而,对许多用户来说,与它们互动依然像简单的问答: 你提问,它回答。
但如果 AI 能走得更远呢?想象一下,你提出一个复杂的问题——比如*“量子计算对金融业的长期经济影响是什么?”*——然后 AI 能够自主地研究这个问题,浏览相关来源,分析数据,并呈现一份全面、有证据支撑的报告。
这个愿景正是智能体 AI (agentic AI) 的核心: 构建能够推理、规划并使用工具完成多步骤目标的系统。其中挑战性最高的应用之一是深度研究 (Deep Research, DR) ——智能体必须在浩如烟海的信息空间中导航,并通过灵活、多工具的工作流,综合出可靠的答案。
Salesforce AI Research 最近的一篇论文 SFR-DeepResearch 针对这一挑战提出了一种引人瞩目的方法。他们不去编排复杂的多智能体系统,而是专注于打造一个能够端到端处理研究过程的单个自主智能体。他们的“秘方”是一种全新的强化学习 (RL) 训练配方——完全由合成数据驱动——用于教会经过推理优化的 LLM 成为高效、自我驱动的研究员。
本文将探讨他们的方法论: 精心设计的智能体工作流、标准 RL 在此类任务中为何不足,以及其改进如何在深度研究中达到最先进的表现。
单智能体 vs 多智能体团队
在深入训练创新之前,先来看构建 DR 系统的两种主要路径。
多智能体系统
可以将其类比为项目团队。一个顶层的协调器将复杂查询拆解为子任务,并分派给不同的专职智能体:
- 规划器 (Planner) 负责分解步骤,
- 研究员 (Researcher) 负责搜索和检索信息,
- 编码器 (Coder) 负责执行计算,
- 写作者 (Writer) 负责整合最终报告。
这种结构化分工很有威力,但容易将智能体限制在固定工作流中。
单智能体系统
在这里,一个能力强大的 LLM 接收问题和一套工具,自主决定下一步最优操作——搜索、浏览、编码——过程中无需额外指令。这种自主性带来灵活性,并可能在未见任务上具备更强的泛化能力,因为它不受僵化、预设步骤的约束。
SFR-DeepResearch 完全聚焦这种单智能体范式。作者认为,一个高度能力化的单智能体更具适应性,在需要时也能作为子模块融入更大的多智能体架构中,从而降低整体复杂度。
SFR-DeepResearch 的配方
该团队通过三大支柱将强推理 LLM 转变为自主研究智能体:
- 针对基础模型优化的智能体工作流
- 具有挑战性的合成训练数据
- 为稳定性定制的强化学习算法
1. 构建模型专属工作流
智能体如何调用工具、管理上下文至关重要。作者设计了极简工具集,辅以与模型优势匹配的工作流。
极简工具箱
智能体仅配备三种核心工具:
search_internet(query: str)
– 基础型网络搜索 API,返回前 10 条自然搜索结果,包括标题、URL 和摘要。browse_page(url: str, section_id: int)
– 抓取 HTML 并清理为 Markdown,去除超链接,使页面呈现为“静态”。如需访问新链接,智能体必须重新发起搜索。code_interpreter(code: str)
– 安全、无状态的 Python 执行器。每次运行相互隔离,无变量持久化或访问危险包的权限。
通过限制工具复杂度,作者确保智能体在战略规划与高效推理上面临真正挑战。
适应模型特性
部分模型天生更擅长单步推理。对于 QwQ-32B 和 Qwen3-8B,多轮对话会削弱性能: 模型的“思考”词元 (逐步推理轨迹) 在长会话中趋于不稳定。
解决方案?将交互改造成**迭代式单轮上下文打包 **(见图 1) 。每一步提示中包含:
- 原始问题
- 所有先前的工具调用及输出
并合并为一条用户消息。
这样可让智能体持续以其最优的单轮模式运行。
图 1: QwQ-32B/Qwen3 的工具调用轨迹示例。先前步骤的动作和结果被打包到单个用户轮次中,以保持单轮优化。
对于擅长多轮交流的 gpt-oss-20b,则保留标准多轮聊天模式。
自主管理内存
深度研究会生成很长的上下文,可能超出 LLM 的词元上限。为避免盲目截断,智能体配备了 clean_memory(content: str)
工具。当接近溢出时,其唯一正确操作就是使用该工具——总结并保留核心事实,舍弃无关细节。这种机制培养了为长周期目标进行上下文压缩的能力。
2. 打造真正有挑战性的数据
团队发现,现有多跳问答数据集 (如 HotpotQA 等) 过于简单——无需搜索即可完成。
因此,他们合成了两类高难度任务:
- 短格式问答 – 多跳、事实检索类提问,加之数学和代码问题,要求多轮搜索迭代。
- 长篇报告 – 开放式提问,要求撰写完整报告,并结合事实性、写作质量、引用等评估指标。
这些任务搜索密集,有时需多达 50 次工具调用。即便是基于 o3 的 OpenAI 深度研究智能体,准确率也不足 65%,许多基准模型甚至低于 40%。
3. 稳定化强化学习
训练一连串工具调用以最大化最终奖励极具挑战——尤其当轨迹长短差异很大时。
退化问题
智能体可能会过度偏向**增加工具调用次数 **(哪怕重复) ,因为长轨迹在梯度更新中影响更大。这会养成不良习惯并导致性能崩溃。
长度归一化优势
作者修改了 REINFORCE,通过轨迹长度 \( T_i \) 缩放优势值:
\[ A_{i,j} = \frac{r_i - \operatorname{mean}(\overline{R})}{\operatorname{std}(\overline{R}) \cdot T_i} \]此举降低长轨迹中每步的奖励或惩罚权重,防止压制短而高效的路径。
图 2: 无长度归一化 (红线) 时,轨迹长度急剧膨胀且性能下滑;使用归一化 (蓝线) 后,工具调用受控,得分提升。
额外稳定器
- 轨迹过滤 – 从回放缓冲区剔除失败/截断/格式错误的轨迹,保持正负样本平衡。
- 部分轨迹复用 – 将部分成功路径作为新回合起始状态,提高接触有价值中间上下文的机会。
这些技术结合可在长周期、多工具研究中维持 RL 的稳定性。
SFR-DR 基准评估
团队在三个高难基准上进行了评测:
- FRAMES – 带浏览的多跳推理问答
- GAIA – 通用助手任务 (仅限文本)
- HLE – 人类终极考试,跨科学/数学的重推理套件
为确保公平,他们使用污染域名黑名单,禁止智能体访问包含基准答案的站点。
表 1: SFR-DR 智能体与专有、开源基准对比,评估中启用污染控制。
亮点:
- SFR-DR-20B 在开源基准中领跑,并可与专有系统 (如 OpenAI o3 深度研究) 相媲美甚至超越。
- 在 HLE 上取得 28.7% Pass@1,较基础模型 (gpt-oss-20b) 提升 65%。
原因分析 – 为什么有效
工作流至关重要
将单轮上下文打包工作流与 Qwen/QwQ 默认多轮工作流对比测试表明,即便未进行 RL也能显著提升表现。
表 2: 对 QwQ-32B,切换至单轮打包上下文工作流,使 FRAMES 得分绝对提升约 10%。
这一结果印证: 将工作流匹配于模型优势是一种关键且零成本的优化。
RL 训练后的行为变化
图 3: (a) RL 后工具使用量适度上升;(b) QwQ/Qwen 输出更长,gpt-oss-20b 更加简洁。
要点:
- 工具使用: RL 促使策略性调用次数增加。gpt-oss-20b 本就调用频率高,是强健的智能体基础。
- 响应长度: gpt-oss-20b 词元利用率高 (思考轨迹短) ,RL 进一步压缩输出;而 QwQ/Qwen RL 后倾向生成更长推理过程。
结论与启示
SFR-DeepResearch 论文为构建以推理为核心的 LLM 自主单智能体研究系统提供了清晰实用的蓝图:
- 训练精良的单智能体可媲美多智能体团队——简化架构而不牺牲能力。
- 工作流应量身定制——选择最适合基础 LLM 的交互形式。
- 稳定的 RL 目标至关重要——长度归一化优势与质量过滤可避免长周期任务中的退化。
通过将搜索密集的合成训练数据与为轨迹调控优化的 RL 相结合,Salesforce AI 团队成功将开源推理模型塑造成强大的自主研究员——让我们更接近能真正参与探索与分析的 AI 协作伙伴。