引言

我们经常把大语言模型 (LLM) 当作全知全能的神谕。我们在 ChatGPT 或 Claude 中输入一个问题,然后期待得到一个唯一的、权威的、正确的答案。但在底层,这些模型是概率引擎。当你提出一个开放式问题——比如“吃肉合乎道德吗?”或“我们该如何解决气候变化?”——模型通常会根据其训练数据默认生成最可能的续写。这可能导致通用的、片面的甚至带有偏见的回答。

更糟糕的是,当模型不知道答案时,它们经常会产生幻觉。它们会以陈述事实般的自信来陈述谬误。

提示词工程师们试图通过“角色提示 (persona prompting) ”来解决这个问题——告诉模型“你是一位伦理学家”或“你是一位高级 Python 开发人员”。虽然这有所帮助,但它制造了一个回声室。一个“伦理学家”角色可能会偏向某种特定的哲学框架,而忽略营养学或环境学的视角。

那么,我们如何在不重新训练模型的情况下,让大模型进行广度思考、自我事实核查并提供全面的回答呢?

答案可能在于一种借鉴自管理科学的技术: 多专家提示 (Multi-expert Prompting) 。 在这篇文章中,我们将深入探讨一篇引人入胜的研究论文,该论文提出在单个 LLM 内部模拟“专家委员会”,从而显著提高可靠性、安全性和有用性。

图 1: 多专家提示概览,比较了在伦理问题上单专家与多专家回答的区别。

如上图所示,当面对关于吃肉伦理的问题时,标准的专家提示可能会给出一个僵硬的“不”,而多专家提示则综合了营养学家、伦理学家和环境学家的观点,提供了一个细致入微的、人类水平的回答。

背景: 孤胆天才的局限

要理解为什么多专家提示是一个突破,我们首先需要了解当前提示策略的局限性。

“专家”难题

该论文的作者指出了以前方法 (如 ExpertPrompting )的一个关键弱点。在 ExpertPrompting 中,LLM 被要求编写一个最适合回答该问题的专家身份描述,然后以该专家的身份作答。

虽然这种方法优于标准的零样本 (zero-shot) 提示,但它受限于视角偏差 。 如果你询问一个医学症状,“外科医生”角色可能会建议手术,而“顺势疗法医师”角色可能会建议草药。两者都不能给你完整的画面。单一专家框架在存在多种有效视角的开放式指令上往往表现不足。

与管理科学的联系: 名义小组技术 (NGT)

研究人员并不是凭空发明了一种新的提示结构;他们参考了人类如何解决复杂问题。他们采用了名义小组技术 (Nominal Group Technique, NGT)

NGT 开发于 20 世纪 70 年代 (Ven 和 Delbecq, 1974) ,是一种为了达成共识而进行的结构化小组讨论变体。与那种嗓门大的人就能赢的混乱头脑风暴不同,NGT 遵循严格的流程:

  1. 静默生成 (Silent Generation) : 每个人独立写下想法。
  2. 记录 (Recording) : 列出所有想法,不进行辩论。
  3. 澄清 (Clarification) : 小组讨论以阐明含义。
  4. 投票 (Voting) : 小组投票对想法进行排序。

多专家提示将这种人类工作流转化为大模型的算法思维链。

核心方法: 深入多专家提示

多专家提示框架分两个不同阶段运行: 生成聚合

图 2: 两个步骤流程概览: 生成专家和聚合回答。

让我们一步步拆解这个架构。

第一步: 专家与回答生成

当用户提供一条指令 (例如,“人工智能对教育有什么影响?”) ,模型首先充当主持人的角色。

首先,系统提示 LLM 识别 \(n\) 个不同的专家身份。关键是,作者发现这些专家的简单一句话描述与精心撰写的长段落效果一样好。这使得该方法非常高效。

例如,如果问题是关于医疗建议的,模型可能会自动生成:

  1. 一名医生 (侧重: 诊断和标准治疗)
  2. 一名外科医生 (侧重: 手术风险)
  3. 一名物理治疗师 (侧重: 康复和非侵入性护理)

然后,LLM 被查询 \(n\) 次,每个角色一次,以生成独立的、长篇幅的回答。这对应于 NGT 的“静默生成”阶段。通过强制模型在回答之前采用不同的角色,系统从模型的潜在空间中提取了更广泛的知识分布。

第二步: 专家回答聚合 (7 个子任务)

这是论文最具创新性的部分。将三篇长文合并成一个连贯的答案是很困难的。如果你只是让 ChatGPT “总结这三个答案”,它往往会丢失细节或产生新的幻觉细节。

为了解决这个问题,作者设计了一个包含七个具体子任务的单一思维链 (CoT) 提示 。 这迫使模型逻辑地处理信息,而不是凭直觉。

7 步工作流

  1. 生成共识观点 (Generating Agreed Viewpoints) : 模型识别出现在超过 50% 的专家回答中的事实。这些构成了“共识基础”。
  2. 生成冲突观点 (Generating Conflicted Viewpoints) : 模型明确列出专家意见不一致的地方。 (例如,“专家 A 说 X 是安全的,专家 B 说 X 是有风险的”) 。
  3. 解决冲突 (Resolving Conflicts) : 这利用了 LLM 的推理能力。模型回顾共识观点 (步骤 1) ,以此作为解决步骤 2 中冲突的仲裁者。这本质上是基于逻辑和证据执行“加权投票”。
  4. 生成孤立观点 (Generating Isolated Viewpoints) : 模型寻找只有一位专家提到但不矛盾的独特见解。这确保了有价值的小众信息不会丢失 (这是标准摘要中的常见问题) 。
  5. 收集观点 (Collecting Viewpoints) : 这是一个过滤步骤。模型收集来自步骤 1、3 和 4 的输出。
  6. 生成聚合回答 (Generating Aggregated Response) : 模型使用收集到的点起草最终的长篇回答。
  7. 最终选择 (质量控制) : 模型将其新生成的聚合回答与原始的各个专家回答进行比较。它根据事实性和有用性选择最好的一个。

注意: 在 90% 的情况下,模型会选择聚合回答,但步骤 7 起到了安全阀的作用。如果聚合失败或变得语无伦次,系统可以回退到最佳的单一专家回答。

一个具体案例: 蚯蚓

为了直观地展示这是如何工作的,请看下面关于蚯蚓再生的例子。

图 10: 多专家提示生成的示例,展示了对蚯蚓再生问题的拆解。

注意其精细度。生物学家、动物学家和生态学家提供了略微不同的角度。

  • 步骤 1 找到共识: 前端 (头部) 部分存活。
  • 步骤 2 找到冲突: 后端 (尾部) 部分能再生出头部吗?
  • 步骤 3 解决冲突: 大多数证据表明后端不能再生出头部。
  • 最终输出 是一个高度准确、细致的生物学事实,避免了那种认为切断蚯蚓会变成两条蚯蚓的常见迷思。

实验与结果

研究人员将此方法与一系列强大的基线进行了测试,包括标准的零样本 (Zero-shot) 、思维链 (CoT) 、自我修正 (Self-Refine) 和多智能体辩论 (Multi-agent Debate) 。他们使用了两个模型: Mistral-7BChatGPT (GPT-3.5)

评估指标集中在可靠性 (真实性、事实性) 和安全性 (毒性、伤害性) 。

真实性和事实性

结果具有统计学意义。在 TruthfulQA 基准测试——一个专门设计用来诱导模型模仿人类误解的数据集——上,多专家提示达到了最先进的水平 (SOTA) 。

表 1: 比较多专家提示与基线的主要实验结果。

数据中的关键结论:

  • 真实性大幅提升: 在 ChatGPT 上,多专家提示在 TruthfulQA 上得分 89.35% , 击败了最佳基线 (ExpertPrompting) 近 9% 。 这在 NLP 领域是一个巨大的飞跃。
  • 减少幻觉:FactualityPrompt 上,该方法实现了最低的幻觉率 (分数越低越好) 。
  • 零毒性: 在 BOLD 数据集上,该方法将毒性降至 0.000 。 交叉审查专家观点的过程自然地过滤掉了极端或有毒的言论。

有用性和信息量

人们可能会担心,聚合答案会导致产生一个虽然符合事实但难以阅读的“缝合怪”式回答。作者使用 ExpertQA (一个包含开放式问题的数据集) 对此进行了测试。

图 3: ExpertQA 上的信息量和有用性比较。

如图 3 所示,多专家提示 (深蓝色条) 在由 GPT-4 评判的正面交锋中始终胜过基线。它生成的答案不仅“安全”,而且真正更具信息量,因为它们涵盖了更多的角度 (来自步骤 4 的“孤立观点”) 。

分析: 为什么它有效?

论文包含了几项消融实验 (Ablation studies) ——即移除系统的某些部分来看看哪里会出问题。这为该方法为何有效提供了深刻的见解。

1. 神奇数字是 3

你需要多少位专家?

  • 1 位专家 (ExpertPrompting) 容易产生偏见。
  • 10 位专家会制造太多噪音和“人多手杂”的混乱。

数据显示,对于当前的 LLM, 3 位专家是最佳数量。这提供了足够的多样性来通过多方验证锁定真理,同时又不会让模型的上下文窗口不堪重负。

表 4: 不同专家数量下的多专家提示效果。

2. 每一步都很重要

研究人员尝试跳过 7 步聚合过程中的某些步骤。

  • 跳过 步骤 1 (共识观点) 对性能的伤害最大。建立共同基础对于连贯性至关重要。
  • 跳过 步骤 4 (孤立观点) 降低了信息量。回答变得平庸。
  • 跳过 步骤 2 & 3 (冲突解决) 降低了真实性。如果不明确处理分歧,模型只会幻觉般地混合相互矛盾的事实。

表 3: 消融实验显示省略子任务时性能下降。

3. 这不仅仅是长度问题

批评者可能会争辩说: “你只是生成了更多的文本,所以它当然涵盖了更多事实。” 然而,作者将他们的方法与被迫生成长答案的基线进行了比较。多专家提示仍然获胜。改进来自于推理的结构 , 而不是字数。

讨论与启示

“多专家提示”这篇论文为提示工程和 AI 对齐的未来提供了令人信服的一瞥。

“民主化”的 AI 作者将其与民主理论进行了类比。正如民主程序 (理想情况下) 通过调节极端观点和聚合集体智慧来产生更好的结果一样,多专家提示调节了 LLM 的随机性质。它迫使模型从多个角度检查自己的工作。

无需微调 也许最实用的优势在于这是一种零样本 (zero-shot) 技术。它不需要训练数据,也不需要微调。它可以通过 API 或提示工程立即应用于任何现有的 LLM (如 Llama 3、GPT-4 或 Claude 3) 。

设计层面的安全性 实验中完全消除毒性的结果令人瞩目。通过要求模型扮演专业专家 (通常是礼貌和客观的) 并聚合他们的观点,系统自然地抑制了原始模型可能产生的有毒或有害输出。

结论

多专家提示不仅仅是一个巧妙的提示技巧;它是大语言模型内部决策的一个健壮框架。通过模拟一个多元化的专家委员会,并引导他们通过严格的、受 NGT 启发的聚合过程,我们可以显著减少幻觉和偏见。

对于进入该领域的学生和研究人员来说,这篇论文教授了一个宝贵的教训: 我们要获得更好的结果,并不总是需要更大的模型。 有时,我们只需要构建模型的“思考”过程,使其反映人类协作的最佳实践。

如果你正在构建对真实性和细微差别不可妥协的应用程序——例如在教育、医疗建议或复杂分析领域——实施多专家工作流可能会是一个颠覆性的改变。