AI 的民主化: 为什么 LLM 智能体需要更好的投票系统

想象一场董事会会议。与会者不是人类,而是先进的大型语言模型 (LLMs) ,每一个都作为自主智能体 (Agent) 行动。它们的任务是解决一个复杂的医疗诊断问题,或者是调试一个庞大的软件代码库。每个智能体都对问题进行了推理并提出了解决方案。但问题就在这里: 它们意见不一。

这个团队该如何决定最终答案?

在快速发展的多智能体系统 (Multi-Agent Systems, MAS) 领域,这个问题的答案往往出奇地原始。通常,系统要么指定一个“老板”智能体来为大家做决定,要么采取简单的少数服从多数投票。但正如人类历史和政治学所教导我们的那样,如何计票与选票本身同样重要。

在一篇引人入胜的新论文 “An Electoral Approach to Diversify LLM-based Multi-Agent Collective Decision-Making” (一种多样化基于 LLM 的多智能体集体决策的选举方法) 中,研究人员 Xiu Tian Zhao、Ke Wang 和 Wei Peng 指出,AI 协作正因缺乏民主复杂性而受阻。通过将 社会选择理论 (Social Choice Theory) ——关于集体决策的研究——应用于 AI,他们证明了我们可以仅仅通过改变它们投票的方式,就能显著提升 LLM 系统的智能水平和鲁棒性。

在这篇深度文章中,我们将探讨为何当前的 AI 决策机制存在缺陷,投票中的悖论,以及一个名为 GEDI 的新框架如何将复杂的选举系统引入人工智能世界。


现状: 独裁者与多数决

多智能体协作是 AI 领域最令人兴奋的前沿方向之一。其前提很简单: 两个大脑 (或 LLM) 总比一个强。通过创建一个智能体团队——有的扮演批评者,有的扮演规划者或编码员——研究人员在从数学推理到创意写作的各个方面都实现了性能飞跃。

然而,汇总这些智能体见解的机制——即 集体决策 (Collective Decision-Making, CDM) 过程——却在很大程度上被忽视了。

这篇论文的作者调查了 52 个近期基于 LLM 的多智能体系统,以了解它们如何处理分歧。结果令人震惊。

图 1: 52 个基于 LLM 的多智能体协作系统中 CDM 方法的分布,显示出严重缺乏多样性。

图 1 所示,该领域被两种方法主导:

  1. 独裁式 (深蓝色) : 预先指定单一智能体作为领导者。他们可能会听取其他智能体的意见,但最终决定权在他们手中。
  2. 相对多数制 (橙色) : 系统选择获得最多“第一选择”票的选项。这就是标准的“多数者胜”的方法。

这里严重缺乏多样性。被研究的系统中只有一个使用了功利主义方法 (试图最大化奖励函数) ,许多系统甚至根本没有具体说明采用了什么方法。这种简单化的做法忽视了关于群体如何做出最优决策的数百年研究成果。


为什么“简单多数”往往是错的

你可能会问,“相对多数投票 (Plurality voting) 有什么问题?如果大多数人想要选项 A,难道不该选 A 吗?”

这就是 社会选择理论 发挥作用的地方。这个由肯尼斯·阿罗 (Kenneth Arrow,他因其相关工作获得了诺贝尔奖) 等人物开创的领域,使用数学来分析投票系统。事实证明,相对多数投票充斥着逻辑悖论,可能导致次优甚至非理性的结果。

为了理解为什么 LLM 智能体需要更好的投票系统,我们需要看看简单投票的三种具体失败情况: 分票效应 (Spoiler Effect) 、孔多塞失败 (Condorcet Failure) 和单调性违背 (Monotonicity Violations) 。

1. 分票效应 (无关选项独立性)

在一个稳健的决策系统中,引入一个注定失败的候选选项不应导致前两名候选人的胜负逆转。这被称为 无关选项独立性 (Independence from Irrelevant Alternatives, IIA) 准则。相对多数投票在这一测试中败得很惨。

图 8: 相对多数投票 (获得第一选择票数最多的选项获胜) 违反无关选项独立性 (IIA) 准则的例子。最初,Amber 因多两张第一选择票而获胜。然而,在引入一个新选项 Coral 后,尽管 Amber 和 Blue 之间的相对偏好位置保持不变,Blue 却因为比其他两个选项多获得一张第一选择票而获胜。

看看 图 8 。 在第一个场景中,“Amber”击败了“Blue”,因为它有更多的票数。但是,如果我们引入第三个选项“Coral”,它与 Amber 相似,它就分散了选票。突然之间,Blue 赢了,尽管智能体对 Amber 与 Blue 的偏好并没有任何改变。在 LLM 的语境中,如果一个智能体生成了一个新的、略微错误但看起来像正确答案的回答,它可能会“破坏”投票,导致完全错误的答案获胜。

2. 孔多塞失败

孔多塞准则 (Condorcet Criterion) 指出,如果一个候选人在与任何其他候选人的一对一竞选中都能获胜,那么该候选人就应该赢得选举。

图 9: 相对多数投票违反孔多塞准则的例子。虽然 Blue 因获得最多的第一选择票而成为相对多数赢家,但 Amber 实际上是孔多塞赢家,这意味着在与所有其他选项的成对比较中,Amber 获得了更多的偏好票。这种错位是由于相对多数投票只考虑了第一选择。

图 9 展示了相对多数制为何在此失败。“Blue”是相对多数赢家,因为它拥有最多的第一名选票 (4 票) 。然而,看看成对比较的细分:

  • Amber 击败 Blue (7 对 3) 。
  • Amber 击败 Red (6 对 7 是描述中的笔误,但在概念上 Amber 赢得了多数成对比较) 。

Amber 是“孔多塞赢家” (Condorcet Winner) ——即群体相对于所有其他选项都更偏好的选项——然而相对多数投票却淘汰了它,仅仅因为它不是足够多智能体的绝对最爱。在 AI 推理中,这通常发生在“正确”答案是每个人的第二选择,但智能体们在各种错误的“第一选择”上意见不一的时候。

3. 单调性违背

如果获得更多支持永远不会伤害候选人,那么这个投票系统就是“单调的”。令人震惊的是,某些投票系统 (如即时决胜投票) 可能会违反这一点。

图 10: 在偏好即时决胜投票 (IRV) 中违反单调性准则 (Woodall, 1997) 的例子: 每轮反复淘汰第一偏好票最少的选项,直到剩下一个赢家。在场景 2 (右侧) 中,两个智能体改变了投票,将 Coral 排在第一位,但这种“有利”行为实际上伤害了 Coral 并阻止了它原本的胜利。图 11: 功利主义方法违反多数准则和孔多塞准则的例子。Blue 因从选票中获得更多效用而成为功利主义赢家,但 Amber 实际上受到大多数智能体 (12 个中的 10 个) 的偏爱。此外,Amber 也是孔多塞赢家,意味着 Amber 在与其他选项的成对比较中获得了更多的偏好票。

图 10 (上部分) 所示,有时智能体改变投票以支持某个候选人,反而可能导致该候选人失败,原因在于其他候选人被淘汰的顺序发生了变化。

作者在 表 1 中总结了这些理论上的缺陷。

表 1: 一些典型 CDM 方法的准则符合情况。范围投票 (Range Voting) 可被视为一种特殊的功利主义方法。IIA 表示无关选项独立性。*单选票可以从排序选票中推导出来。在附录 D 中可以找到一些例子。参见图 10 关于即时决胜投票 (IRV) 不符合单调性准则的例子。

阿罗不可能定理指出,没有一个投票系统是完美的——你无法同时满足所有准则。然而,如表所示, 相对多数制 (Plurality) 满足的准则非常少。这表明,通过切换到其他方法 (如排序成对法) ,我们可能会实现更稳健的推理。


GEDI 登场: 通用选举决策接口

为了解决这个问题,研究人员开发了 GEDI (General Electoral Decision-making Interface,通用选举决策接口) 。GEDI 不只是要求 LLM 给出一个单一答案,而是要求智能体提供一个偏好排序列表 (例如,“我认为 A 最好,其次是 B,然后是 C”) 。

然后,GEDI 使用源自人类政治系统的各种算法来处理这些排序。

图 2: 不同的基于 LLM 的多智能体 CDM 结构比较: 功利主义、独裁式、相对多数制以及我们的扩展。议程 (Agenda) 指的是分配的任务或交互环境。蓝色和绿色箭头分别表示智能体之间的交互以及向 CDM 系统传达偏好。GEDI 不是生成单一决策,而是独特地输出序数排名,提供关于智能体集体偏好的更多信息。

图 2 强调了架构上的转变。

  • 知情独裁 (Dictatorial (Informed)) : 一个智能体阅读所有人的意见并做出决定。
  • 相对多数 (Plurality) : 每个人都为他们的第一选择投票。
  • GEDI (偏好投票) : 智能体提交详细的排名。系统汇总这些排名,以找到反映整体偏好概况的共识,而不仅仅是首选。

测试的投票方法

作者在 GEDI 中实施了几种投票机制。以下是主要方法的简化分类:

  1. 波达计数法 (Borda Count) : 一种基于共识的方法。如果有 4 个选项,你的第一选择得 3 分,第二选择得 2 分,依此类推。得分最高的选项获胜。这奖励了被广泛接受的答案,而不是两极分化的答案。
  2. 即时决胜投票 (IRV) : 也称为排序选择投票 (Ranked Choice Voting) 。如果没有选项超过 50%,票数最少的选项将被淘汰。这些选票将重新分配给选民的第二选择。这个过程重复进行,直到产生赢家。
  3. 极小化极大法 (Minimax) : 一种专注于最小化遗憾的方法。对于每一对选项,我们计算有多少选民更喜欢 A 而不是 B。候选人的“Minimax”分数是他们在任何一对一较量中遭受的最大失败幅度。赢家是那个最大失败幅度最小的候选人。
  4. 排序成对法 (Ranked Pairs) : 一种高度复杂的方法,用于锁定多数意见。它查看每一对候选人 (A 对 B,B 对 C) ,并首先锁定最强多数的结果,构建偏好图,前提是不产生循环 (A > B > C > A) 。

实验: 民主能让 AI 更聪明吗?

作者在三个大型基准测试上测试了 GEDI: MMLU (通用知识) 、MMLU-ProARC-Challenge (推理) 。他们使用了多种 LLM,从 Llama-3 和 Mistral 等开源模型到 GPT-3.5 和 GPT-4 等专有巨头。

在这些实验中,“选民”仅仅是被提示对多项选择选项进行排名的模型实例。

关键发现 1: 投票胜过独裁

结果令人信服。在几乎所有模型和基准测试中,使用选举方法都优于标准的“盲目独裁”方法 (随机选择一个智能体) 。

表 2: MMLU、MMLU-Pro 和 ARC-Challenge 基准测试的总体准确率结果。‘Rand.’ 和 ‘Dicta.’ 分别表示 ‘随机’ 和 ‘独裁’。括号中的数字是相对于盲目独裁基线的。性能提升用红色标记,损失用蓝色标记。值得注意的案例用粗体标记。*带星号的结果是利用部分概况计算的 (见附录 C) 。

表 2 显示了准确率的提升。

  • 红色数字 表示相对于基线的改进。
  • GPT-4 在 MMLU 上: 使用相对多数制或排序成对法将准确率提高了近 7% (从 75.6% 到 ~82.5%) 。
  • 较小模型: 像 Llama-3-8b 这样的较小模型虽然也有提升,但不如大型模型那么显著。
  • 知情独裁的失败: 有趣的是,“知情独裁”栏 (一个智能体看到所有人的票并做出决定) 的表现往往更差,或者仅比简单投票好一点点。这表明,即使给出一个 LLM 所有的信息,它在汇总偏好方面也不如数学投票算法。

关键发现 2: “魔法数字”是 3

你需要 100 个智能体组成的参议院才能获得这些好处吗?数据表明并非如此。

图 3: 基于相同骨干模型构建的不同规模投票集成的准确率比较。由于概况不足,排除 \\(\\mathtt { g l m - 4 - 9 b }\\) 的范围投票结果 (见附录 C) 。

图 3 追踪了随着智能体数量增加,准确率的变化。最陡峭的提升发生在 1 到 3 个智能体之间。一旦你拥有约 3 到 5 个智能体的“法定人数”,性能就会趋于稳定。这对效率来说是个好消息——你不需要庞大的计算资源就能获得民主决策的好处。

关键发现 3: 对“流氓”智能体的鲁棒性

现实世界中的智能体可能会产生幻觉或失败。为了测试鲁棒性,作者在群组中注入了“不可靠”的智能体 (随机投票) 。

图 4: 基于 gpt-3.5 和 gpt-4 构建的不可靠智能体数量增加对准确率的影响。

图 4 表明投票方法具有高度的弹性。即使在一个 10 人的小组中有 3 或 4 个不可靠的智能体,相对多数制和排序成对法等方法的准确率 (y 轴) 依然保持稳定。 然而,看看 红线 (知情独裁) 。 它崩溃得快得多。如果你的“独裁者”是那个变坏的人,整个系统就会失败。去中心化的投票消除了这种单点故障。


细微差别: 不仅仅是为了赢

这篇论文最深刻的部分之一是分析这些方法之间如何不同。事实证明,“最好”的投票系统取决于你想要实现什么。

命中率 vs. 准确率

有时,你不需要立即得到完全正确的答案;你只需要正确答案在前 3 名中 (命中率@K) 。

图 5: 利用投票智能体提供的选票,比较不同投票规则的命中率 \\(@ k\\)。绿线用于突出相似的命中率 \\(@ 1\\)。

图 5 显示,虽然 相对多数制 (绿线) 在寻找第 1 名方面表现尚可,但在查看前 2 名或前 3 名时,它往往被 波达计数法 (蓝色条) 超越。因为波达计数法为第 2 或第 3 名提供积分,它非常擅长挖掘出“好的折衷”答案——这些答案可能不是任何人的最爱,但很可能是正确的。

题材敏感性

投票的有效性也因主题而异 (例如,数学 vs. 历史) 。

图 6: 不同 CDM 方法下特定学科准确率提升变化的箱线图。

图 6 展示了不同学科间提升幅度的分布。 范围投票 (深蓝色) 和 知情独裁 (红色) 具有高方差——它们是有风险的。它们可能在一个主题上表现惊人,而在另一个主题上失败。 排序成对法极小化极大法 往往更加一致。

此外,图 7 (如下) 放大了具体的比较。

图 7: 在模型固定 (本例中为 gpt-4) 时,CDM 对特定学科准确率影响的示例。每个条形表示比较的 CDM 方法对之间的学科准确率差异。

该图表比较了 相对多数制 vs. 排序成对法 (上) 和 相对多数制 vs. 波达计数法 (下) 。向左的条形表示复杂方法 (排序成对法/波达) 击败简单相对多数制方法的学科。具体的学科各不相同,这表明未来的 AI 系统可能会根据被问到的问题类型动态切换投票方法。


结论: AI 的未来是政治性的

GEDI 框架提出了一个令人信服的论点: 我们不能忽视多智能体系统的“政治学”。随着我们构建包含大量智能体的更复杂的 AI 架构,依赖单一的“独裁者”智能体不仅是智能的瓶颈,也是可靠性的风险。

这项研究的关键要点是:

  1. 民主对 AI 有效: 通过投票汇总偏好几乎总是优于个体推理。
  2. 复杂性带来回报: 像排序成对法和极小化极大法这样的复杂方法满足更多的理论准则,并且通常优于简单的多数投票。
  3. 无单点故障: 投票系统为系统提供了针对幻觉或恶意智能体的缓冲。

作者总结道,虽然没有一个投票系统在数学上是完美的 (谢谢你,阿罗!) ,但多样化决策格局至关重要。未来的研究可能会超越单纯的“正确性”,利用这些投票系统将 AI 与人类价值观对齐——确保 AI 智能体做出的决定不仅聪明,而且具有代表性、公平且安全。

最终,教会 AI 举行选举可能是确保它更好地服务于我们的最佳方式之一。