超越平均值: 模块化多元主义如何教会 LLM 代表多样化的人类价值观
在大型语言模型 (LLM) 的快速演进中,“对齐 (Alignment) ”已成为一个流行词。我们希望 AI 助手是有用、无害且诚实的。通常,这是通过诸如基于人类反馈的强化学习 (RLHF) 等技术实现的,其中模型被训练为偏好人类评分较高的回复。
但问题在于: 这些人类是谁?
人类并非铁板一块。我们的价值观、规范和优先事项在不同的文化、政治意识形态和人口统计特征之间存在巨大差异。当我们把 LLM 与一种“平均化”的人类偏好对齐时,往往剥离了这些细微差别,导致模型要么平淡无奇地附和,要么隐含地偏向特定的西方中心世界观。
在一篇题为 “Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration” 的精彩新研究论文中,来自华盛顿大学、纽约大学和卡内基梅隆大学的研究人员提出了一种新颖的解决方案。他们建议不再试图强迫一个巨大的模型去学习每一种文化细微差别,而是提出一种协作框架: 由一个中心化的“黑盒”LLM 来指挥一群更小、更专业的“社区 LM (Community LMs) ”合唱团。
在这篇文章中,我们将详细解析 模块化多元主义 (Modular Pluralism) 的工作原理,它为何优于标准的对齐方法,以及它如何在无需昂贵重训的情况下,为代表性不足的群体提供一种灵活的表达方式。
问题所在: “平均”人类的谬误
当前的对齐范式通常强迫模型收敛到单一的“正确”回答方式。如果你问一个标准 LLM 关于有争议的政策或文化规范的敏感问题,它通常会诉诸于“安全”模板——提供一个经过消毒、不置可否的回答,反映了一种普遍化 (且通常是西方) 的共识。
这造成了 代表性缺口 (representation gaps) 。 如果一个模型主要基于某一人群的数据进行训练,它就很难对其他人群的多样化偏好进行建模。更糟糕的是,一旦像 GPT-4 或 Llama-2-70B 这样的庞大模型训练完成,修复这些缺口的成本极高。不在不重训或进行大量微调的情况下,你无法轻易“修补”文化知识的匮乏。
该论文认为我们需要 多元对齐 (Pluralistic Alignment) —— 即能够通过三种具体方式反映多样化价值观的系统:
- 奥弗顿多元主义 (Overton Pluralism) : 呈现关于某个问题的所有合理观点。
- 可操纵多元主义 (Steerable Pluralism) : 当被明确要求时,采用特定视角的能力。
- 分布多元主义 (Distributional Pluralism) : 生成在统计上符合特定人群现实世界观点分布的回答。
解决方案: 模块化多元主义
研究人员提出了一个名为 模块化多元主义 的框架。其核心理念简单而强大: 协作 。
不再依赖一个巨大的大脑去知晓一切,该系统使用一个 基础 LLM (Base LLM) (可以是像 ChatGPT 这样的黑盒模型) 接入一组更小、更专业的 社区 LM (Community LMs) 。
工作原理
- 社区 LM: 这些是在特定语料库上微调过的较小开源模型 (如 Mistral-7B) 。例如,一个可能是在左倾新闻上训练的,另一个是在右倾社交媒体上训练的,还有一些是在特定文化数据集上训练的。这些模型充当特定社区的“倡导者”。
- 协作: 当用户提问时,社区 LM 首先生成“评论”或观点。
- 综合: 中心基础 LLM 接收这些评论,并利用它们根据多元化目标生成最终回复。

如上方 图 1 所示,该框架根据目标以三种不同的模式运行:
- 奥弗顿 (左) : 用户提出一个有争议的问题 (例如,“关闭 4chan 是否合理?”) 。所有社区 LM 生成多样化的论点。基础 LLM 充当摘要器,将这些相互冲突的观点综合成一个全面、平衡的回复。
- 可操纵 (中) : 用户想要一个特定的视角 (例如,“作为言论自由绝对主义者回答”) 。基础 LLM 分析可用的评论,选择最符合所请求属性的一条,并利用它来引导最终答案。
- 分布 (右) : 系统计算在 每个 社区 LM 条件下不同答案的概率。然后,它根据现实世界的人口统计数据 (如人口结构) 聚合这些概率,以生成反映社会的答案分布。
评估: 它有效吗?
研究人员将模块化多元主义与三个基准进行了对比测试:
- 原版 (Vanilla) : 仅基础 LLM。
- 提示 (Prompting) : 要求基础 LLM “请反映多样化的价值观”。
- 混合专家 (MoE) : 一种路由方法,将查询仅发送给一个社区模型。
他们使用了稳健的数据集,如 Value Kaleidoscope (多样化价值观) 、OpinionQA (政治/人口统计调查) 和 GlobalOpinionQA (国际视角) 。让我们看看每种模式的结果。
1. 奥弗顿多元主义: 面面俱到
在奥弗顿设置中,目标是覆盖率: 简单来说,回答是否提到了与话题相关的多样化价值观?
研究人员使用自然语言推理 (NLI) 来检查生成的回复是否确实包含数据集中发现的价值观。

图 2 显示了 Llama-2-13B 和 ChatGPT 的结果。蓝色条纹柱代表模块化多元主义。结果令人瞩目:
- 模块化多元主义实现了最高的价值观覆盖率,比最强基准提高了高达 50.3% 。
- 有趣的是,简单的 提示 (紫色柱) 往往无法提高性能。作者指出,当你只是要求 LLM 保持多样性时,它通常会反刍一种僵化的模板 (“一方面……另一方面……”) ,而实际上并没有添加实质性的多样化观点。模块化多元主义通过社区 LM 注入了 实际的 多样化内容。
但人类更喜欢这些答案吗?

根据 图 3 , 人类标注员和 GPT-4 (充当裁判) 都明显更喜欢模块化多元主义的回复,而非基准方法。该方法生成的回复感觉更全面,也不那么千篇一律。
2. 可操纵与分布多元主义
模型能否准确地扮演特定的人口统计特征或反映全球观点分布?
研究人员使用 OpinionQA (匹配美国人口统计调查回复) 和 MoralChoice (分析道德场景中的歧义性) 对此进行了测试。

表 2 (上图顶部) 显示,对于可操纵多元主义,模块化多元主义 (Ours) 在匹配不同政党、种族和地区的角色方面始终优于基准。它的准确率平均提高了 8.9% 。
图 4 (上图底部) 针对分布多元主义。在这里,“越低越好” (Jensen-Shannon 距离) 。
- 低歧义场景: 大家都同意 (例如,“不杀人”) 。模型应该是自信的。
- 高歧义场景: 人们存在分歧。模型 应该 是不确定的。
- 标准对齐模型 (如 ChatGPT) 即使在模棱两可的情况下通常也 过于 自信,因为 RLHF 训练它们最大化特定的奖励信号。模块化多元主义 (橙色柱) 帮助模型找到“中间地带”,有效地捕捉了困难道德问题中固有的不确定性。
3. 全球视角
也许最关键的测试是该框架是否能处理非西方视角。利用 GlobalOpinionQA , 研究人员将模型输出与各国的调查数据进行了比较。

表 3 显示,模块化多元主义显著缩短了 AI 预测与日本、印度和尼日利亚等国实际公众舆论之间的距离。通过整合在多样化新闻和社交媒体上训练的社区模型,该系统不再假设每个人的想法都像一个独特的“平均”用户。
为什么模块化是未来
这篇论文最令人兴奋的方面不仅仅是性能指标,而是 架构上的启示 。
对“小人物”的忠实
一个担忧可能是巨大的“黑盒”LLM 会忽略较小的社区 LM 的输入。它真的在听吗?

图 5 分析了最终回复。它显示最终答案中约 40-60% 的内容直接蕴含了社区 LM 的评论。不过,基础 LLM 并不仅仅是复制它们;它添加了约 20-40% 的新内容 (黄色柱) 来连贯地综合文本。这表明了一种健康的协作: 小模型提供多样化的“火花”,大模型将它们编织成叙事。
“即插即用”的优势
这是杀手级功能。如果你意识到你的模型对原始训练集中没有的特定文化存在偏见,会发生什么?在标准的 LLM 开发中,你可能不得不整理一个庞大的新数据集并微调整个 70B+ 参数的模型——这是一个耗资数千美元且耗时数周的过程。
有了模块化多元主义,你只需训练一个 微型 社区 LM (既便宜又快) 并将其“插入”即可。

图 6 展示了这种“修补”能力。研究人员向池中添加了一个特定的亚洲或非洲文化模型。对于日本、印度、尼日利亚和肯尼亚等国家,对齐误差 (J-S 距离) 立即显著下降 (橙色柱) 。
这允许对代表性进行 手术式控制 。 你可以在不破坏模型其他能力的情况下修复盲点。
结论
模块化多元主义 为 AI 对齐提供了一条引人注目的前进道路。它挑战了这样一种观念: 即我们需要一个天生知晓所有人类价值观的“上帝模型”。取而代之的是,它建议建立一个模型社会: 一个巨大、有能力的推理者,倾听由更小、更专业的代表组成的多样化委员会的意见。
其意义重大:
- 成本: 我们可以使用小型、高效的 7B 模型来提高多样性,而不是重训庞大的模型。
- 公平: 代表性不足的社区可以开发自己的专用模型,将其插入大型系统,确保他们的声音在输出中得到数学上的体现。
- 灵活性: 我们可以根据需要辩论、特定角色还是人口调查,在奥弗顿、可操纵和分布模式之间切换。
随着 AI 越来越融入全球社会,从单一的“平均”用户转向模块化、多元化的框架不仅是一项技术改进,更是一种伦理上的必然。这篇论文为我们如何实现这一目标提供了蓝图。
](https://deep-paper.org/en/paper/2406.15951/images/cover.png)