引言

我们生活在一个答案唾手可得的黄金时代。如果你想知道巴西的人口数量或钨的沸点，只需在 Google 上快速搜索或向 ChatGPT 提问，瞬间就能得到答案。这些系统非常擅长解决 已知的未知 (known unknowns)——即你意识到的、并能用具体问题表达出来的知识缺口。

但是, 未知的未知 (unknown unknowns) 呢？这些是你甚至不知道其存在的概念、联系和视角。如果你连相关词汇都不知道，该如何针对某个主题提问？如果你不了解围绕某项新技术的经济或伦理框架，又该如何探索它的深层含义？

在复杂的信息搜寻场景中——如学术研究、市场分析或学习一个新领域——传统的工具往往力不从心。搜索引擎需要你不断生成下一个查询词。聊天机器人往往是被动的，只回答被问到的问题，经常将用户困在受限于自身有限先验知识的“信息茧房”中。

斯坦福大学和耶鲁大学的研究人员最近发表的一篇论文提出了一个迷人的解决方案: Co-STORM 。 Co-STORM 不再让你对着搜索框独自发问，而是邀请用户参加一场 AI 专家的“晚宴”。通过观察和参与模拟智能体之间的协作探讨，用户可以获得意外的发现 (serendipitous information)，并以更少的脑力消耗进行更深度的学习。

图 1: 不同学习和信息搜寻范式的比较。Co-STORM 允许人类观察并参与具有不同角色的语言模型智能体之间的协作探讨。用户可以要求系统根据对话历史和收集到的信息生成一份完整的引用报告。

如图 1 所示，从“使用搜索引擎” (高费力) 向“与 Co-STORM 交互” (低费力，高探索性) 的转变，代表了人机交互的一种新范式。

问题所在: “搜索”带来的认知负荷

要理解为什么 Co-STORM 是必要的，我们必须看看当前系统在复杂信息搜寻方面的不足之处。

复杂的信息搜寻不仅仅是寻找一个单一的事实。它涉及从多个来源收集、筛选、理解和组织信息，以构建一个知识产品，比如一份报告或一个思维模型。

表 1 展示了现有技术的缺口:

表 1: 不同信息搜寻辅助系统的比较。

信息检索 (搜索引擎): 你能获得多个来源，但必须自己完成所有的综合工作。
单轮问答 (Single-Turn QA): 你能得到答案，但缺乏深度或持续的探索。
对话式问答 (Chatbots): 你可以互动，但机器人很少主动引导你应该问什么。
报告生成 (如原始的 STORM 系统): 它可以写出一份很棒的报告，但这是一个静态过程。你无法在生成 过程中 打断、引导或学习。

研究人员指出，为了真正支持学习，系统需要支持 协作探讨 (Collaborative Discourse) 。就像孩子通过听父母讨论话题来学习，或者学生通过观察辩论来学习一样，当人类观察并偶尔参与有知识实体之间的对话时，学习效果通常非常好。

Co-STORM 方法

Co-STORM (Collaborative STORM) 是一个信息搜寻助手，它模拟了一场“圆桌”讨论。它不仅仅回答你的问题；它在你周围创建了一场对话，而你可以引导这场对话。

对话架构

Co-STORM 的核心是一个基于实时信息检索 (Search) 的多智能体系统。

$图 2: Co-STORM 概览。Co-STORM 模拟了用户、模拟的视角导向专家和模拟主持人之间的协作探讨。它维护一个动态更新的思维导图 (\$3.2) 来帮助用户跟踪和参与对话 (83.3)。模拟专家被提示根据对话历史确定话语意图，并生成基于互联网的问题或答案 (S3.4)。模拟主持人被提示利用未使用的信息和思维导图生成新问题，以自动引导对话 (β3.5)。思维导图可用于生成全篇引用报告作为总结。完整的对话实录和相关报告详见附录 $\\ S G) 和 \\(\\ S \\mathrm { H }\$$

如图 2 所示，该系统由三个主要部分协同工作:

智能体 (专家与主持人): 这些大语言模型 (LLM) 模拟一场讨论。
用户: 你可以观察智能体交谈，或者加入其中提问或引导话题。
思维导图: 一个动态的数据结构，可视化地组织对话内容，减少阅读大段文字的认知负荷。

1. 角色阵容

如果你问标准的聊天机器人关于“AlphaFold 3”的问题，它会给你一个摘要。Co-STORM 的做法不同。它首先决定谁应该坐在桌边。对于一个生物技术话题，它可能会实例化一个“遗传学家”、一个“AI 专家”和一个“分子生物学家”。

视角导向的专家 (Perspective-Guided Experts): 这些智能体不仅仅生成文本；它们模拟某种视角。当轮到一位专家发言时:

他们分析对话历史。
他们决定一个意图 (例如: 提问、提供答案、请求细节) 。
如果提供答案，他们会生成搜索查询，从互联网检索真实数据，并引用来源。

主持人 (The Moderator): 如果让一群专家自己讨论，他们可能会纠结于细枝末节。主持人是一个特殊的智能体，旨在确保广度。它监控对话并注入新问题，引导讨论走向未探索的领域。

至关重要的是，主持人会寻找 未使用的信息 。它执行语义搜索，寻找与一般主题相关但与当前讨论的具体问题不相似的信息。研究人员用数学公式定义了这个“重排序分数 (reranking score)”来优先考虑新颖性:

$()\n\\cos ( \\mathbf { i } , \\mathbf { t } ) ^ { \\alpha } ( 1 - \\cos ( \\mathbf { i } , \\mathbf { q } ) ) ^ { 1 - \\alpha } ,\n()$

在这里，系统平衡了与主题 ($t$) 的相关性以及与当前讨论的具体问题 ($q$) 的不相似性。这种数学上的助推迫使 AI 将对话从回声室中拖出，带入“未知的未知”领域。

2. 动态思维导图

聆听复杂的多方辩论可能会让人感到困惑。为了帮助用户跟上进度，Co-STORM 维护了一个层级化的 思维导图 (如图 2 左上角所示) 。

随着对话的进行，系统使用“插入操作”。它分析每一条新信息，并决定它在树状结构中的归属。如果一个节点变得太大，它会触发“重组操作”，将节点拆分为子主题。这使得用户可以看一眼导图，就能立即理解正在被揭示的知识结构。

3. 最终产物

在任何时候，用户都可以请求生成一份 引用报告 。系统使用思维导图作为大纲，并利用收集到的搜索结果撰写一篇类似维基百科的综合文章。这使得随意的探索转变为具体的知识产品。

评估: 衡量发现

如何衡量一个系统是否帮助人们发现了“未知的未知”？研究人员从三个角度攻克了这个问题: 一个新的数据集、自动指标和人体实验。

WildSeek 数据集

现有的信息搜寻数据集过于简单，主要集中在事实检索上。为了评估 Co-STORM，研究人员创建了 WildSeek , 这是一个源自 STORM 引擎真实使用情况的数据集。

表 2: 用于研究复杂信息搜寻任务的 WildSeek 数据集中的一个样本数据点；主题和目标由用户在公开的 STORM 网站上提供，领域由人工分配。

如表 2 所示，这些不是简单的查询，而是开放式的目标，例如“调查一种新的共享货币如何消除交易成本”。该数据集的分类涵盖了从经济学到医疗健康等多个领域 (图 5) 。

图 5: WildSeek 分类体系。括号中的数字表示分类到相应类别或其后代类别下的数据点数量。

自动评估结果

研究人员模拟了用户与 Co-STORM、标准 RAG 聊天机器人以及原始 STORM 系统的交互。他们测量了最终报告的质量以及对话本身的质量。

$表 3: 模拟用户参与下的报告质量和对话中问答轮次质量的自动评估结果。消融实验包括: “w/o Multi-Expert”表示 1 位专家和 1 位主持人，“w/o Moderator”表示 \$N\$ 位专家和 0 位主持人。\$^ \\dagger\$ 表示在 \$\\mathrm { C o }\$ -STORM 与两个基准线之间的配对 \$t\$ 检验中存在显著差异 \$( p < 0 . 0 5 )\$。评分标准使用 1-5 分制。报告的所有分数为平均值。$

表 3 揭示了关键见解:

深度与新颖性: Co-STORM 在生成报告的 深度 (Depth) 和 新颖性 (Novelty) 方面显著优于 RAG 聊天机器人和 STORM+QA。
参与度: 对话轮次被评为更具吸引力。
多样性: 与基准线相比，Co-STORM 引用的唯一 URL 数量几乎翻倍，表明其对互联网的探索更加广泛。

消融研究 (移除特定组件) 显示 主持人 至关重要。如果没有主持人将对话引导向新领域，“新颖性”得分会显著下降 (图 3) 。

图 3: 模拟用户自动评估中提问轮次质量的评分结果。

人类评估: 用户喜欢吗？

归根结底，目标是帮助人类。研究人员招募了 20 名参与者进行了一项研究，将 Co-STORM 与 Google 搜索和 RAG 聊天机器人进行了比较。

结果具有压倒性的优势。

图 4: 人类评估中的成对比较调查结果 (即，关于 Co-STORM 是否优于搜索引擎/RAG 聊天机器人的赞同度) 。

如图 4 所示:

70% 的参与者相比搜索引擎更偏爱 Co-STORM。
78% 的参与者相比 RAG 聊天机器人更偏爱 Co-STORM。
用户特别指出，Co-STORM 需要 “更少的努力” , 同时提供了更高的 “用户参与度” 。

参与者强调了系统的“意外发现 (serendipity)”能力。一位用户指出: “Co-STORM 实现了几乎完全的自动化和更好的理解，因为它提出了用户甚至可能没想到的主题。”

结论

Co-STORM 论文提出了一个令人信服的观点: 搜索的未来不仅仅在于更好的答案，还在于更好的问题。

通过从“工具”隐喻 (AI 等待输入) 转变为“伙伴”隐喻 (AI 智能体主动讨论和探索) ，我们可以降低学习复杂主题的门槛。Co-STORM 证明，当我们允许 AI 智能体在主持人的监督下相互交谈时，它们可以揭示人类用户凭一己之力可能永远无法发现的“未知的未知”。

对于学生和研究人员来说，这预示着一个未来: 我们的 AI 助手不仅仅是获取数据；它们将与我们一起头脑风暴，挑战我们的假设，并帮助我们绘制自身无知的边界图。

引言#

问题所在: “搜索”带来的认知负荷#

Co-STORM 方法#

对话架构#

1. 角色阵容#

2. 动态思维导图#

3. 最终产物#

评估: 衡量发现#

WildSeek 数据集#

自动评估结果#

人类评估: 用户喜欢吗？#

结论#

引言