超越平均值: 模块化多元主义如何教会 LLM 代表多样化的人类价值观

在大型语言模型 (LLM) 的快速演进中，“对齐 (Alignment) ”已成为一个流行词。我们希望 AI 助手是有用、无害且诚实的。通常，这是通过诸如基于人类反馈的强化学习 (RLHF) 等技术实现的，其中模型被训练为偏好人类评分较高的回复。

但问题在于: 这些人类是谁?

人类并非铁板一块。我们的价值观、规范和优先事项在不同的文化、政治意识形态和人口统计特征之间存在巨大差异。当我们把 LLM 与一种“平均化”的人类偏好对齐时，往往剥离了这些细微差别，导致模型要么平淡无奇地附和，要么隐含地偏向特定的西方中心世界观。

在一篇题为 “Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration” 的精彩新研究论文中，来自华盛顿大学、纽约大学和卡内基梅隆大学的研究人员提出了一种新颖的解决方案。他们建议不再试图强迫一个巨大的模型去学习每一种文化细微差别，而是提出一种协作框架: 由一个中心化的“黑盒”LLM 来指挥一群更小、更专业的“社区 LM (Community LMs) ”合唱团。

在这篇文章中，我们将详细解析 模块化多元主义 (Modular Pluralism) 的工作原理，它为何优于标准的对齐方法，以及它如何在无需昂贵重训的情况下，为代表性不足的群体提供一种灵活的表达方式。

问题所在: “平均”人类的谬误

当前的对齐范式通常强迫模型收敛到单一的“正确”回答方式。如果你问一个标准 LLM 关于有争议的政策或文化规范的敏感问题，它通常会诉诸于“安全”模板——提供一个经过消毒、不置可否的回答，反映了一种普遍化 (且通常是西方) 的共识。

这造成了 代表性缺口 (representation gaps) 。如果一个模型主要基于某一人群的数据进行训练，它就很难对其他人群的多样化偏好进行建模。更糟糕的是，一旦像 GPT-4 或 Llama-2-70B 这样的庞大模型训练完成，修复这些缺口的成本极高。不在不重训或进行大量微调的情况下，你无法轻易“修补”文化知识的匮乏。

该论文认为我们需要 多元对齐 (Pluralistic Alignment) —— 即能够通过三种具体方式反映多样化价值观的系统:

奥弗顿多元主义 (Overton Pluralism) : 呈现关于某个问题的所有合理观点。
可操纵多元主义 (Steerable Pluralism) : 当被明确要求时，采用特定视角的能力。
分布多元主义 (Distributional Pluralism) : 生成在统计上符合特定人群现实世界观点分布的回答。

解决方案: 模块化多元主义

研究人员提出了一个名为 模块化多元主义 的框架。其核心理念简单而强大: 协作。

不再依赖一个巨大的大脑去知晓一切，该系统使用一个 基础 LLM (Base LLM) (可以是像 ChatGPT 这样的黑盒模型) 接入一组更小、更专业的 社区 LM (Community LMs) 。

工作原理

社区 LM: 这些是在特定语料库上微调过的较小开源模型 (如 Mistral-7B) 。例如，一个可能是在左倾新闻上训练的，另一个是在右倾社交媒体上训练的，还有一些是在特定文化数据集上训练的。这些模型充当特定社区的“倡导者”。
协作: 当用户提问时，社区 LM 首先生成“评论”或观点。
综合: 中心基础 LLM 接收这些评论，并利用它们根据多元化目标生成最终回复。

图1: 模块化多元主义概览，其中大型语言模型与一组更小但更专业的社区 LM 互动以实现多元对齐。根据三种多元对齐目标，LLM 要么作为多文档摘要系统，要么选择最合适的社区，要么分别根据每个社区 LM 的评论生成聚合分布。

如上方 图 1 所示，该框架根据目标以三种不同的模式运行:

奥弗顿 (左) : 用户提出一个有争议的问题 (例如，“关闭 4chan 是否合理？”) 。所有社区 LM 生成多样化的论点。基础 LLM 充当摘要器，将这些相互冲突的观点综合成一个全面、平衡的回复。
可操纵 (中) : 用户想要一个特定的视角 (例如，“作为言论自由绝对主义者回答”) 。基础 LLM 分析可用的评论，选择最符合所请求属性的一条，并利用它来引导最终答案。
分布 (右) : 系统计算在每个社区 LM 条件下不同答案的概率。然后，它根据现实世界的人口统计数据 (如人口结构) 聚合这些概率，以生成反映社会的答案分布。

评估: 它有效吗？

研究人员将模块化多元主义与三个基准进行了对比测试:

原版 (Vanilla) : 仅基础 LLM。
提示 (Prompting) : 要求基础 LLM “请反映多样化的价值观”。
混合专家 (MoE) : 一种路由方法，将查询仅发送给一个社区模型。

他们使用了稳健的数据集，如 Value Kaleidoscope (多样化价值观) 、OpinionQA (政治/人口统计调查) 和 GlobalOpinionQA (国际视角) 。让我们看看每种模式的结果。

1. 奥弗顿多元主义: 面面俱到

在奥弗顿设置中，目标是覆盖率: 简单来说，回答是否提到了与话题相关的多样化价值观？

研究人员使用自然语言推理 (NLI) 来检查生成的回复是否确实包含数据集中发现的价值观。

图2: 奥弗顿与 NLI 评估的结果。采用已对齐 LLM 的模块化多元主义成功提高了价值观覆盖率，相比两个 LLM 的最强基准分别提升了 27.8% 和 50.3%。

图 2 显示了 Llama-2-13B 和 ChatGPT 的结果。蓝色条纹柱代表模块化多元主义。结果令人瞩目:

模块化多元主义实现了最高的价值观覆盖率，比最强基准提高了高达 50.3% 。
有趣的是，简单的提示 (紫色柱) 往往无法提高性能。作者指出，当你只是要求 LLM 保持多样性时，它通常会反刍一种僵化的模板 (“一方面……另一方面……”) ，而实际上并没有添加实质性的多样化观点。模块化多元主义通过社区 LM 注入了 实际的 多样化内容。

但人类更喜欢这些答案吗？

图3: CHATGPT LLM 的奥弗顿人类与 GPT-4 评估结果。模块化多元主义相比最强基准的胜率分别高出 16.5% 和 45.8%。

根据 图 3 , 人类标注员和 GPT-4 (充当裁判) 都明显更喜欢模块化多元主义的回复，而非基准方法。该方法生成的回复感觉更全面，也不那么千篇一律。

2. 可操纵与分布多元主义

模型能否准确地扮演特定的人口统计特征或反映全球观点分布？

研究人员使用 OpinionQA (匹配美国人口统计调查回复) 和 MoralChoice (分析道德场景中的歧义性) 对此进行了测试。

表2: 可操纵与 OpinionQA 的性能… 图4: 分布与 MoralChoice 的结果…

表 2 (上图顶部) 显示，对于可操纵多元主义，模块化多元主义 (Ours) 在匹配不同政党、种族和地区的角色方面始终优于基准。它的准确率平均提高了 8.9% 。

图 4 (上图底部) 针对分布多元主义。在这里，“越低越好” (Jensen-Shannon 距离) 。

低歧义场景: 大家都同意 (例如，“不杀人”) 。模型应该是自信的。
高歧义场景: 人们存在分歧。模型应该是不确定的。
标准对齐模型 (如 ChatGPT) 即使在模棱两可的情况下通常也过于自信，因为 RLHF 训练它们最大化特定的奖励信号。模块化多元主义 (橙色柱) 帮助模型找到“中间地带”，有效地捕捉了困难道德问题中固有的不确定性。

3. 全球视角

也许最关键的测试是该框架是否能处理非西方视角。利用 GlobalOpinionQA , 研究人员将模型输出与各国的调查数据进行了比较。

表3: 分布与 GlobalOpinionQA 的性能… 采用未对齐 LLM 的模块化多元主义持续改善了与各国家分布的对齐，平均减少了 14.9% 的 J-S 距离。

表 3 显示，模块化多元主义显著缩短了 AI 预测与日本、印度和尼日利亚等国实际公众舆论之间的距离。通过整合在多样化新闻和社交媒体上训练的社区模型，该系统不再假设每个人的想法都像一个独特的“平均”用户。

为什么模块化是未来

这篇论文最令人兴奋的方面不仅仅是性能指标，而是 架构上的启示 。

对“小人物”的忠实

一个担忧可能是巨大的“黑盒”LLM 会忽略较小的社区 LM 的输入。它真的在听吗？

图5: 社区 LM 的评论在 LLM 最终回复中的覆盖百分比，以及 LLM 添加的新内容百分比…

图 5 分析了最终回复。它显示最终答案中约 40-60% 的内容直接蕴含了社区 LM 的评论。不过，基础 LLM 并不仅仅是复制它们；它添加了约 20-40% 的新内容 (黄色柱) 来连贯地综合文本。这表明了一种健康的协作: 小模型提供多样化的“火花”，大模型将它们编织成叙事。

“即插即用”的优势

这是杀手级功能。如果你意识到你的模型对原始训练集中没有的特定文化存在偏见，会发生什么？在标准的 LLM 开发中，你可能不得不整理一个庞大的新数据集并微调整个 70B+ 参数的模型——这是一个耗资数千美元且耗时数周的过程。

有了模块化多元主义，你只需训练一个微型社区 LM (既便宜又快) 并将其“插入”即可。

图6: 当一个代表亚洲和非洲文化的额外社区 LM 被分别添加到基于视角的社区 LM 池中时，GlobalOpinionQA 上的 J-S 距离，越低越好。这有助于通过改善对代表性不足社区的对齐来修补 LLM 的多元化缺口。

图 6 展示了这种“修补”能力。研究人员向池中添加了一个特定的亚洲或非洲文化模型。对于日本、印度、尼日利亚和肯尼亚等国家，对齐误差 (J-S 距离) 立即显著下降 (橙色柱) 。

这允许对代表性进行 手术式控制 。你可以在不破坏模型其他能力的情况下修复盲点。

结论

模块化多元主义 为 AI 对齐提供了一条引人注目的前进道路。它挑战了这样一种观念: 即我们需要一个天生知晓所有人类价值观的“上帝模型”。取而代之的是，它建议建立一个模型社会: 一个巨大、有能力的推理者，倾听由更小、更专业的代表组成的多样化委员会的意见。

其意义重大:

成本: 我们可以使用小型、高效的 7B 模型来提高多样性，而不是重训庞大的模型。
公平: 代表性不足的社区可以开发自己的专用模型，将其插入大型系统，确保他们的声音在输出中得到数学上的体现。
灵活性: 我们可以根据需要辩论、特定角色还是人口调查，在奥弗顿、可操纵和分布模式之间切换。

随着 AI 越来越融入全球社会，从单一的“平均”用户转向模块化、多元化的框架不仅是一项技术改进，更是一种伦理上的必然。这篇论文为我们如何实现这一目标提供了蓝图。

超越平均值: 模块化多元主义如何教会 LLM 代表多样化的人类价值观#

问题所在: “平均”人类的谬误#

解决方案: 模块化多元主义#

工作原理#

评估: 它有效吗？#

1. 奥弗顿多元主义: 面面俱到#

2. 可操纵与分布多元主义#

3. 全球视角#

为什么模块化是未来#

对“小人物”的忠实#

“即插即用”的优势#

结论#