超越聊天机器人：强化学习如何打造自主 AI 研究员

我们正处在一个大语言模型 (LLM) 日益强大的时代。然而，对许多用户来说，与它们互动依然像简单的问答: 你提问，它回答。

但如果 AI 能走得更远呢？想象一下，你提出一个复杂的问题——比如*“量子计算对金融业的长期经济影响是什么？”*——然后 AI 能够自主地研究这个问题，浏览相关来源，分析数据，并呈现一份全面、有证据支撑的报告。

这个愿景正是智能体 AI (agentic AI) 的核心: 构建能够推理、规划并使用工具完成多步骤目标的系统。其中挑战性最高的应用之一是深度研究 (Deep Research, DR) ——智能体必须在浩如烟海的信息空间中导航，并通过灵活、多工具的工作流，综合出可靠的答案。

Salesforce AI Research 最近的一篇论文 SFR-DeepResearch 针对这一挑战提出了一种引人瞩目的方法。他们不去编排复杂的多智能体系统，而是专注于打造一个能够端到端处理研究过程的单个自主智能体。他们的“秘方”是一种全新的强化学习 (RL) 训练配方——完全由合成数据驱动——用于教会经过推理优化的 LLM 成为高效、自我驱动的研究员。

本文将探讨他们的方法论: 精心设计的智能体工作流、标准 RL 在此类任务中为何不足，以及其改进如何在深度研究中达到最先进的表现。

单智能体 vs 多智能体团队

在深入训练创新之前，先来看构建 DR 系统的两种主要路径。

多智能体系统
可以将其类比为项目团队。一个顶层的协调器将复杂查询拆解为子任务，并分派给不同的专职智能体:

规划器 (Planner) 负责分解步骤，
研究员 (Researcher) 负责搜索和检索信息，
编码器 (Coder) 负责执行计算，
写作者 (Writer) 负责整合最终报告。

这种结构化分工很有威力，但容易将智能体限制在固定工作流中。

单智能体系统
在这里，一个能力强大的 LLM 接收问题和一套工具，自主决定下一步最优操作——搜索、浏览、编码——过程中无需额外指令。这种自主性带来灵活性，并可能在未见任务上具备更强的泛化能力，因为它不受僵化、预设步骤的约束。

SFR-DeepResearch 完全聚焦这种单智能体范式。作者认为，一个高度能力化的单智能体更具适应性，在需要时也能作为子模块融入更大的多智能体架构中，从而降低整体复杂度。

SFR-DeepResearch 的配方

该团队通过三大支柱将强推理 LLM 转变为自主研究智能体:

针对基础模型优化的智能体工作流
具有挑战性的合成训练数据
为稳定性定制的强化学习算法

1. 构建模型专属工作流

智能体如何调用工具、管理上下文至关重要。作者设计了极简工具集，辅以与模型优势匹配的工作流。

极简工具箱

智能体仅配备三种核心工具:

search_internet(query: str) – 基础型网络搜索 API，返回前 10 条自然搜索结果，包括标题、URL 和摘要。
browse_page(url: str, section_id: int) – 抓取 HTML 并清理为 Markdown，去除超链接，使页面呈现为“静态”。如需访问新链接，智能体必须重新发起搜索。
code_interpreter(code: str) – 安全、无状态的 Python 执行器。每次运行相互隔离，无变量持久化或访问危险包的权限。

通过限制工具复杂度，作者确保智能体在战略规划与高效推理上面临真正挑战。

适应模型特性

部分模型天生更擅长单步推理。对于 QwQ-32B 和 Qwen3-8B，多轮对话会削弱性能: 模型的“思考”词元 (逐步推理轨迹) 在长会话中趋于不稳定。

解决方案？将交互改造成**迭代式单轮上下文打包 **(见图 1) 。每一步提示中包含:

原始问题
所有先前的工具调用及输出
并合并为一条用户消息。

这样可让智能体持续以其最优的单轮模式运行。

一个工具调用轨迹的示例。该过程被构建为一个单轮的上下文问答问题，其中用户提示随着每一步的进行而增长，以包含工具调用和结果的全部历史记录。

图 1: QwQ-32B/Qwen3 的工具调用轨迹示例。先前步骤的动作和结果被打包到单个用户轮次中，以保持单轮优化。

对于擅长多轮交流的 gpt-oss-20b，则保留标准多轮聊天模式。

自主管理内存

深度研究会生成很长的上下文，可能超出 LLM 的词元上限。为避免盲目截断，智能体配备了 clean_memory(content: str) 工具。当接近溢出时，其唯一正确操作就是使用该工具——总结并保留核心事实，舍弃无关细节。这种机制培养了为长周期目标进行上下文压缩的能力。

2. 打造真正有挑战性的数据

团队发现，现有多跳问答数据集 (如 HotpotQA 等) 过于简单——无需搜索即可完成。

因此，他们合成了两类高难度任务:

短格式问答 – 多跳、事实检索类提问，加之数学和代码问题，要求多轮搜索迭代。
长篇报告 – 开放式提问，要求撰写完整报告，并结合事实性、写作质量、引用等评估指标。

这些任务搜索密集，有时需多达 50 次工具调用。即便是基于 o3 的 OpenAI 深度研究智能体，准确率也不足 65%，许多基准模型甚至低于 40%。

3. 稳定化强化学习

训练一连串工具调用以最大化最终奖励极具挑战——尤其当轨迹长短差异很大时。

退化问题

智能体可能会过度偏向**增加工具调用次数 **(哪怕重复) ，因为长轨迹在梯度更新中影响更大。这会养成不良习惯并导致性能崩溃。

长度归一化优势

作者修改了 REINFORCE，通过轨迹长度 \( T_i \) 缩放优势值:

\[ A_{i,j} = \frac{r_i - \operatorname{mean}(\overline{R})}{\operatorname{std}(\overline{R}) \cdot T_i} \]

此举降低长轨迹中每步的奖励或惩罚权重，防止压制短而高效的路径。

图表显示，在没有长度归一化的情况下，智能体的平均轨迹长度爆炸式增长而性能下降。通过归一化，轨迹长度保持稳定且性能得到提升。

图 2: 无长度归一化 (红线) 时，轨迹长度急剧膨胀且性能下滑；使用归一化 (蓝线) 后，工具调用受控，得分提升。

额外稳定器

轨迹过滤 – 从回放缓冲区剔除失败/截断/格式错误的轨迹，保持正负样本平衡。
部分轨迹复用 – 将部分成功路径作为新回合起始状态，提高接触有价值中间上下文的机会。

这些技术结合可在长周期、多工具研究中维持 RL 的稳定性。

SFR-DR 基准评估

团队在三个高难基准上进行了评测:

FRAMES – 带浏览的多跳推理问答
GAIA – 通用助手任务 (仅限文本)
HLE – 人类终极考试，跨科学/数学的重推理套件

为确保公平，他们使用污染域名黑名单，禁止智能体访问包含基准答案的站点。

表格展示了 SFR-DR 智能体与专有和开源基准的性能对比。SFR-DR-20B 在所有测试中均取得了最高分。

表 1: SFR-DR 智能体与专有、开源基准对比，评估中启用污染控制。

亮点:

SFR-DR-20B 在开源基准中领跑，并可与专有系统 (如 OpenAI o3 深度研究) 相媲美甚至超越。
在 HLE 上取得 28.7% Pass@1，较基础模型 (gpt-oss-20b) 提升 65%。

原因分析 – 为什么有效

工作流至关重要

将单轮上下文打包工作流与 Qwen/QwQ 默认多轮工作流对比测试表明，即便未进行 RL也能显著提升表现。

表格对比了默认多轮工作流与自定义 SFR-DR 工作流的性能，显示仅工作流的改变就带来了显著的增益。

表 2: 对 QwQ-32B，切换至单轮打包上下文工作流，使 FRAMES 得分绝对提升约 10%。

这一结果印证: 将工作流匹配于模型优势是一种关键且零成本的优化。

RL 训练后的行为变化

两个条形图，比较了不同 SFR-DR 模型在 RL 训练前后的工具使用情况和响应长度。

图 3: (a) RL 后工具使用量适度上升；(b) QwQ/Qwen 输出更长，gpt-oss-20b 更加简洁。

要点:

工具使用: RL 促使策略性调用次数增加。gpt-oss-20b 本就调用频率高，是强健的智能体基础。
响应长度: gpt-oss-20b 词元利用率高 (思考轨迹短) ，RL 进一步压缩输出；而 QwQ/Qwen RL 后倾向生成更长推理过程。

结论与启示

SFR-DeepResearch 论文为构建以推理为核心的 LLM 自主单智能体研究系统提供了清晰实用的蓝图:

训练精良的单智能体可媲美多智能体团队——简化架构而不牺牲能力。
工作流应量身定制——选择最适合基础 LLM 的交互形式。
稳定的 RL 目标至关重要——长度归一化优势与质量过滤可避免长周期任务中的退化。

通过将搜索密集的合成训练数据与为轨迹调控优化的 RL 相结合，Salesforce AI 团队成功将开源推理模型塑造成强大的自主研究员——让我们更接近能真正参与探索与分析的 AI 协作伙伴。

单智能体 vs 多智能体团队#

SFR-DeepResearch 的配方#

1. 构建模型专属工作流#

极简工具箱#

适应模型特性#

自主管理内存#

2. 打造真正有挑战性的数据#

3. 稳定化强化学习#

退化问题#

长度归一化优势#

额外稳定器#

SFR-DR 基准评估#

原因分析 – 为什么有效#

工作流至关重要#

RL 训练后的行为变化#

结论与启示#