掌控 AI 研究助手:自定义模型与策略

由 AI 驱动的研究助手——如 Perplexity、Gemini 的“深度研究”等——都是非常出色的工具。你输入一个问题，它们就能返回一份附有来源、内容精炼的报告。在后台，它们会搜罗互联网信息、综合分析，并以整洁、结构化的格式呈现研究结果。

但你是否曾问过自己:** 这背后究竟发生了什么？**
这些系统如何决定运行哪些查询、信任哪些信息来源，以及如何构建报告？
答案是: 在目前的大多数工具中，你无从知晓，也无法更改。

这些系统采用由开发者硬编码的研究策略。这种固定化带来了几个关键问题:

缺乏控制: 用户无法设定信息来源的优先级 (例如，“优先选择同行评审的文章而非博客”) 、无法控制交叉验证的工作流，也难以管理研究成本。
无法专门化: 用户无法针对特定领域设计专属工作流——如法律研究、医学文献综述或金融尽职调查——这些领域往往需要多步骤的专门流程。
模型锁定: 底层的语言模型是固定的。你无法在现有工具中替换为来自其他供应商的更新、更优模型。

NVIDIA 研究院最近的一篇论文《通用深度研究: 自带模型与策略》 (Universal Deep Research: Bring Your Own Model and Strategy) 提出了一个解决方案——通用深度研究 (UDR) 。UDR 不再提供一个单一的黑箱式研究助手，而是为你提供一个框架: 你用自然语言定义研究策略，并将其配合任意语言模型使用。

这是在智能体 AI 领域的一次重大思维转变。让我们来看看为什么。

深度研究工具的现状

在深入了解 UDR 之前，我们先看看目前大多数深度研究工具 (DRTs) 是如何运作的。

一个典型的 DRT 不仅仅是一个聊天机器人。它会:

解析你的提示，将其转化为具体的计划。
执行一套固定的研究步骤——搜索、分析并整理发现结果。
在最终呈现报告前，向用户推送进度通知。

一张图表展示了典型深度研究工具的工作流程，该流程包含从提示解析到报告生成的固定步骤序列。
图 1: 典型深度研究工具组件的高层示意图。与纯对话式语言模型不同，DRT 在生成最终报告前会持续向用户更新其进度。

根据论文，DRT 通常分为两类:

面向消费者的工具 (如 Perplexity、Gemini) : 在开放网络中使用广泛或迭代的策略搜索，并根据早期结果进行分支探索。
面向企业的工具 (如 NVIDIA AI-Q、SambaNova) : 在封闭数据库内工作，采用严格且结构化的工作流——通常是具有可预测输出的固定流水线。

策略虽不同，但共有的局限在于: 研究的“方式”是固定的，用户无法干预。

通用深度研究如何改变游戏规则

UDR 引入了第二个关键输入:

**研究提示 **(做什么) ，
**研究策略 **(怎么做) 。

你不仅是提出问题，还要用自然语言明确告诉系统如何完成研究任务。

这个简单的增加从根本上改变了架构。UDR 不再是一个静态的研究智能体，而是根据你的策略描述即时构建自定义智能体。

一张通用深度研究 (UDR) 工作流程图，显示用户同时提供研究策略和研究提示。
图 2: 在 UDR 中，用户同时提供策略和提示，使定制化程度远远高于固定策略的 DRT。

UDR 的两阶段运行

UDR 的运行分为两个主要阶段:

第一阶段 —— 策略处理: 从英语到代码

在这一阶段，UDR 会将你的纯英文指令转换为一个 Python 函数。

提供策略: 通常以清晰、编号或项目符号列表的形式给出。
转换为代码: 大型语言模型在接收你的指令及一组约束条件 (允许的函数、代码结构) 后，将其转换为一个单一可调用函数。
通过注释确保可靠性: 如果只要求模型“写代码”，它可能会跳过步骤或取巧。研究人员要求模型在每个代码块前加注释，重述原始策略步骤。这种“展示工作过程”的方法显著提高了执行的正确性。

例如:

1
2
3
# Step 3: Generate 3 search phrases based on the user's prompt.
search_phrases = llm_call("Generate 3 search phrases for: " + prompt)
phrases = search_phrases.split('\n')

最终生成的函数——对你的计划的忠实实现——就成了你的专属研究智能体。

第二阶段 —— 策略执行: 运行智能体

编译完成后，该 Python 函数会在一个隔离沙盒中运行，确保用户定义的指令不会影响宿主环境的安全。

关键特性:

状态管理: 每一步的数据都存储在命名变量中，而不是累积在不断扩展的语言模型上下文窗口中。这使得复杂的研究工作流仅需 8k tokens 就能运行。
语言模型作为工具，而非大脑: UDR 将语言模型用于局部推理任务 (如摘要、排序、提取) ，而整体控制逻辑由 CPU 执行的代码掌握。
结构化通知: yield 语句为用户界面生成可预测且结构化的更新，用户可精确决定报告的内容。

这种架构比典型的端到端语言模型控制循环更高效 (由 CPU 协调，减少语言模型调用) 也更透明。

用户界面与策略示例

为展示 UDR 的灵活性，作者构建了一个基于 Web 的演示界面。

UDR 用户界面的截图，显示了提示输入栏、可选的研究策略列表以及用于编辑所选策略的文本区域。
图 3: UDR 演示界面——搜索栏 (顶部) 、策略列表 (中部) 、可编辑的策略文本区域 (底部) 。

该界面允许你:

输入一个提示。
选择预定义的策略 (最小化、扩展型、集约型) 。
在执行前用纯文本编辑这些策略。

策略示例:

最小化策略 (Minimal): 简单、线性——生成搜索短语 → 搜索 → 汇总 → 报告。
扩展型策略 (Expansive): 范围更广——分解为子主题 → 为每个主题生成短语 → 搜索 → 汇总 → 报告。
集约型策略 (Intensive): 迭代优化——搜索 → 基于学习生成新短语 → 重复 → 最终生成报告。

UDR 能处理从轻松的流行文化问题到深入的历史人物档案等任务。

UDR 界面在完成一项关于“未负重燕子的空速”的研究任务后的截图，显示了进度通知和最终格式化的报告。
图 4: 已完成的研究工作流。通知详细说明了每一步；最终的 Markdown 报告显示在右侧。

局限性

作者指出当前的局限:

依赖语言模型的代码保真度: 质量取决于模型将自然语言策略精准转化为可用代码的能力。
用户策略质量: UDR 不会深度验证策略逻辑——设计不佳的工作流会导致较差的结果。
无法在执行中修改: 一旦工作流开始运行，除非停止并重新启动，否则无法更改其路径。

未来方向

论文建议推进类似 UDR 系统的发展方向:

策略库: 为用户提供经过充分测试的模板以供调整。
推理控制: 让用户不仅能控制行动，还能引导语言模型的思考过程。
自动化智能体生成: 探索直接从批量提示中得出优化策略的方法。

结论: AI 智能体的新范式

通用深度研究表明，构建透明、可定制、模型无关的研究助手是可行的。
通过将做什么与怎么做分离，并将人类可读的策略转化为确定性代码:

用户获得了对研究过程的真正掌控权。
系统变得可审计且高效。
可接入任何有能力的语言模型。

这不仅仅是一个更好的研究工具——它更让我们看见了未来的一角: 我们用自己的语言作为源代码来编程 AI，构建自主且可控的智能体。

深度研究工具的现状#

通用深度研究如何改变游戏规则#

UDR 的两阶段运行#

第一阶段 —— 策略处理: 从英语到代码#

第二阶段 —— 策略执行: 运行智能体#

用户界面与策略示例#

局限性#

未来方向#

结论: AI 智能体的新范式#