由 AI 驱动的研究助手——如 Perplexity、Gemini 的“深度研究”等——都是非常出色的工具。你输入一个问题,它们就能返回一份附有来源、内容精炼的报告。在后台,它们会搜罗互联网信息、综合分析,并以整洁、结构化的格式呈现研究结果。

但你是否曾问过自己:** 这背后究竟发生了什么?**
这些系统如何决定运行哪些查询、信任哪些信息来源,以及如何构建报告?
答案是: 在目前的大多数工具中,你无从知晓,也无法更改。

这些系统采用由开发者硬编码的研究策略。这种固定化带来了几个关键问题:

  1. 缺乏控制: 用户无法设定信息来源的优先级 (例如,“优先选择同行评审的文章而非博客”) 、无法控制交叉验证的工作流,也难以管理研究成本。
  2. 无法专门化: 用户无法针对特定领域设计专属工作流——如法律研究、医学文献综述或金融尽职调查——这些领域往往需要多步骤的专门流程。
  3. 模型锁定: 底层的语言模型是固定的。你无法在现有工具中替换为来自其他供应商的更新、更优模型。

NVIDIA 研究院最近的一篇论文《通用深度研究: 自带模型与策略》 (Universal Deep Research: Bring Your Own Model and Strategy) 提出了一个解决方案——通用深度研究 (UDR) 。UDR 不再提供一个单一的黑箱式研究助手,而是为你提供一个框架: 你用自然语言定义研究策略,并将其配合任意语言模型使用。

这是在智能体 AI 领域的一次重大思维转变。让我们来看看为什么。


深度研究工具的现状

在深入了解 UDR 之前,我们先看看目前大多数深度研究工具 (DRTs) 是如何运作的。

一个典型的 DRT 不仅仅是一个聊天机器人。它会:

  1. 解析你的提示,将其转化为具体的计划。
  2. 执行一套固定的研究步骤——搜索、分析并整理发现结果。
  3. 在最终呈现报告前,向用户推送进度通知

一张图表展示了典型深度研究工具的工作流程,该流程包含从提示解析到报告生成的固定步骤序列。
图 1: 典型深度研究工具组件的高层示意图。与纯对话式语言模型不同,DRT 在生成最终报告前会持续向用户更新其进度。

根据论文,DRT 通常分为两类:

  • 面向消费者的工具 (如 Perplexity、Gemini) : 在开放网络中使用广泛或迭代的策略搜索,并根据早期结果进行分支探索。
  • 面向企业的工具 (如 NVIDIA AI-Q、SambaNova) : 在封闭数据库内工作,采用严格且结构化的工作流——通常是具有可预测输出的固定流水线。

策略虽不同,但共有的局限在于: 研究的“方式”是固定的,用户无法干预。


通用深度研究如何改变游戏规则

UDR 引入了第二个关键输入:

  • **研究提示 **(做什么) ,
  • **研究策略 **(怎么做) 。

你不仅是提出问题,还要用自然语言明确告诉系统如何完成研究任务。

这个简单的增加从根本上改变了架构。UDR 不再是一个静态的研究智能体,而是根据你的策略描述即时构建自定义智能体

一张通用深度研究 (UDR) 工作流程图,显示用户同时提供研究策略和研究提示。
图 2: 在 UDR 中,用户同时提供策略和提示,使定制化程度远远高于固定策略的 DRT。


UDR 的两阶段运行

UDR 的运行分为两个主要阶段:

第一阶段 —— 策略处理: 从英语到代码

在这一阶段,UDR 会将你的纯英文指令转换为一个 Python 函数。

  1. 提供策略: 通常以清晰、编号或项目符号列表的形式给出。
  2. 转换为代码: 大型语言模型在接收你的指令及一组约束条件 (允许的函数、代码结构) 后,将其转换为一个单一可调用函数
  3. 通过注释确保可靠性: 如果只要求模型“写代码”,它可能会跳过步骤或取巧。研究人员要求模型在每个代码块前加注释,重述原始策略步骤。这种“展示工作过程”的方法显著提高了执行的正确性。

例如:

1
2
3
# Step 3: Generate 3 search phrases based on the user's prompt.
search_phrases = llm_call("Generate 3 search phrases for: " + prompt)
phrases = search_phrases.split('\n')

最终生成的函数——对你的计划的忠实实现——就成了你的专属研究智能体


第二阶段 —— 策略执行: 运行智能体

编译完成后,该 Python 函数会在一个隔离沙盒中运行,确保用户定义的指令不会影响宿主环境的安全。

关键特性:

  • 状态管理: 每一步的数据都存储在命名变量中,而不是累积在不断扩展的语言模型上下文窗口中。这使得复杂的研究工作流仅需 8k tokens 就能运行。
  • 语言模型作为工具,而非大脑: UDR 将语言模型用于局部推理任务 (如摘要、排序、提取) ,而整体控制逻辑由 CPU 执行的代码掌握。
  • 结构化通知: yield 语句为用户界面生成可预测且结构化的更新,用户可精确决定报告的内容。

这种架构比典型的端到端语言模型控制循环更高效 (由 CPU 协调,减少语言模型调用) 也更透明


用户界面与策略示例

为展示 UDR 的灵活性,作者构建了一个基于 Web 的演示界面。

UDR 用户界面的截图,显示了提示输入栏、可选的研究策略列表以及用于编辑所选策略的文本区域。
图 3: UDR 演示界面——搜索栏 (顶部) 、策略列表 (中部) 、可编辑的策略文本区域 (底部) 。

该界面允许你:

  • 输入一个提示
  • 选择预定义的策略 (最小化、扩展型、集约型) 。
  • 在执行前用纯文本编辑这些策略。

策略示例:

  • 最小化策略 (Minimal): 简单、线性——生成搜索短语 → 搜索 → 汇总 → 报告。
  • 扩展型策略 (Expansive): 范围更广——分解为子主题 → 为每个主题生成短语 → 搜索 → 汇总 → 报告。
  • 集约型策略 (Intensive): 迭代优化——搜索 → 基于学习生成新短语 → 重复 → 最终生成报告。

UDR 能处理从轻松的流行文化问题到深入的历史人物档案等任务。

UDR 界面在完成一项关于“未负重燕子的空速”的研究任务后的截图,显示了进度通知和最终格式化的报告。
图 4: 已完成的研究工作流。通知详细说明了每一步;最终的 Markdown 报告显示在右侧。


局限性

作者指出当前的局限:

  1. 依赖语言模型的代码保真度: 质量取决于模型将自然语言策略精准转化为可用代码的能力。
  2. 用户策略质量: UDR 不会深度验证策略逻辑——设计不佳的工作流会导致较差的结果。
  3. 无法在执行中修改: 一旦工作流开始运行,除非停止并重新启动,否则无法更改其路径。

未来方向

论文建议推进类似 UDR 系统的发展方向:

  • 策略库: 为用户提供经过充分测试的模板以供调整。
  • 推理控制: 让用户不仅能控制行动,还能引导语言模型的思考过程
  • 自动化智能体生成: 探索直接从批量提示中得出优化策略的方法。

结论: AI 智能体的新范式

通用深度研究表明,构建透明、可定制、模型无关的研究助手是可行的。
通过将做什么怎么做分离,并将人类可读的策略转化为确定性代码:

  • 用户获得了对研究过程的真正掌控权。
  • 系统变得可审计且高效。
  • 可接入任何有能力的语言模型。

这不仅仅是一个更好的研究工具——它更让我们看见了未来的一角: 我们用自己的语言作为源代码来编程 AI,构建自主且可控的智能体。