超越平均值: 模块化多元主义如何教会 LLM 代表多样化的人类价值观

在大型语言模型 (LLM) 的快速演进中,“对齐 (Alignment) ”已成为一个流行词。我们希望 AI 助手是有用、无害且诚实的。通常,这是通过诸如基于人类反馈的强化学习 (RLHF) 等技术实现的,其中模型被训练为偏好人类评分较高的回复。

但问题在于: 这些人类是谁?

人类并非铁板一块。我们的价值观、规范和优先事项在不同的文化、政治意识形态和人口统计特征之间存在巨大差异。当我们把 LLM 与一种“平均化”的人类偏好对齐时,往往剥离了这些细微差别,导致模型要么平淡无奇地附和,要么隐含地偏向特定的西方中心世界观。

在一篇题为 “Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration” 的精彩新研究论文中,来自华盛顿大学、纽约大学和卡内基梅隆大学的研究人员提出了一种新颖的解决方案。他们建议不再试图强迫一个巨大的模型去学习每一种文化细微差别,而是提出一种协作框架: 由一个中心化的“黑盒”LLM 来指挥一群更小、更专业的“社区 LM (Community LMs) ”合唱团。

在这篇文章中,我们将详细解析 模块化多元主义 (Modular Pluralism) 的工作原理,它为何优于标准的对齐方法,以及它如何在无需昂贵重训的情况下,为代表性不足的群体提供一种灵活的表达方式。


问题所在: “平均”人类的谬误

当前的对齐范式通常强迫模型收敛到单一的“正确”回答方式。如果你问一个标准 LLM 关于有争议的政策或文化规范的敏感问题,它通常会诉诸于“安全”模板——提供一个经过消毒、不置可否的回答,反映了一种普遍化 (且通常是西方) 的共识。

这造成了 代表性缺口 (representation gaps) 。 如果一个模型主要基于某一人群的数据进行训练,它就很难对其他人群的多样化偏好进行建模。更糟糕的是,一旦像 GPT-4 或 Llama-2-70B 这样的庞大模型训练完成,修复这些缺口的成本极高。不在不重训或进行大量微调的情况下,你无法轻易“修补”文化知识的匮乏。

该论文认为我们需要 多元对齐 (Pluralistic Alignment) —— 即能够通过三种具体方式反映多样化价值观的系统:

  1. 奥弗顿多元主义 (Overton Pluralism) : 呈现关于某个问题的所有合理观点。
  2. 可操纵多元主义 (Steerable Pluralism) : 当被明确要求时,采用特定视角的能力。
  3. 分布多元主义 (Distributional Pluralism) : 生成在统计上符合特定人群现实世界观点分布的回答。

解决方案: 模块化多元主义

研究人员提出了一个名为 模块化多元主义 的框架。其核心理念简单而强大: 协作

不再依赖一个巨大的大脑去知晓一切,该系统使用一个 基础 LLM (Base LLM) (可以是像 ChatGPT 这样的黑盒模型) 接入一组更小、更专业的 社区 LM (Community LMs)

工作原理

  1. 社区 LM: 这些是在特定语料库上微调过的较小开源模型 (如 Mistral-7B) 。例如,一个可能是在左倾新闻上训练的,另一个是在右倾社交媒体上训练的,还有一些是在特定文化数据集上训练的。这些模型充当特定社区的“倡导者”。
  2. 协作: 当用户提问时,社区 LM 首先生成“评论”或观点。
  3. 综合: 中心基础 LLM 接收这些评论,并利用它们根据多元化目标生成最终回复。

图1: 模块化多元主义概览,其中大型语言模型与一组更小但更专业的社区 LM 互动以实现多元对齐。根据三种多元对齐目标,LLM 要么作为多文档摘要系统,要么选择最合适的社区,要么分别根据每个社区 LM 的评论生成聚合分布。

如上方 图 1 所示,该框架根据目标以三种不同的模式运行:

  • 奥弗顿 (左) : 用户提出一个有争议的问题 (例如,“关闭 4chan 是否合理?”) 。所有社区 LM 生成多样化的论点。基础 LLM 充当摘要器,将这些相互冲突的观点综合成一个全面、平衡的回复。
  • 可操纵 (中) : 用户想要一个特定的视角 (例如,“作为言论自由绝对主义者回答”) 。基础 LLM 分析可用的评论,选择最符合所请求属性的一条,并利用它来引导最终答案。
  • 分布 (右) : 系统计算在 每个 社区 LM 条件下不同答案的概率。然后,它根据现实世界的人口统计数据 (如人口结构) 聚合这些概率,以生成反映社会的答案分布。

评估: 它有效吗?

研究人员将模块化多元主义与三个基准进行了对比测试:

  1. 原版 (Vanilla) : 仅基础 LLM。
  2. 提示 (Prompting) : 要求基础 LLM “请反映多样化的价值观”。
  3. 混合专家 (MoE) : 一种路由方法,将查询仅发送给一个社区模型。

他们使用了稳健的数据集,如 Value Kaleidoscope (多样化价值观) 、OpinionQA (政治/人口统计调查) 和 GlobalOpinionQA (国际视角) 。让我们看看每种模式的结果。

1. 奥弗顿多元主义: 面面俱到

在奥弗顿设置中,目标是覆盖率: 简单来说,回答是否提到了与话题相关的多样化价值观?

研究人员使用自然语言推理 (NLI) 来检查生成的回复是否确实包含数据集中发现的价值观。

图2: 奥弗顿与 NLI 评估的结果。采用已对齐 LLM 的模块化多元主义成功提高了价值观覆盖率,相比两个 LLM 的最强基准分别提升了 27.8% 和 50.3%。

图 2 显示了 Llama-2-13B 和 ChatGPT 的结果。蓝色条纹柱代表模块化多元主义。结果令人瞩目:

  • 模块化多元主义实现了最高的价值观覆盖率,比最强基准提高了高达 50.3%
  • 有趣的是,简单的 提示 (紫色柱) 往往无法提高性能。作者指出,当你只是要求 LLM 保持多样性时,它通常会反刍一种僵化的模板 (“一方面……另一方面……”) ,而实际上并没有添加实质性的多样化观点。模块化多元主义通过社区 LM 注入了 实际的 多样化内容。

但人类更喜欢这些答案吗?

图3: CHATGPT LLM 的奥弗顿人类与 GPT-4 评估结果。模块化多元主义相比最强基准的胜率分别高出 16.5% 和 45.8%。

根据 图 3 , 人类标注员和 GPT-4 (充当裁判) 都明显更喜欢模块化多元主义的回复,而非基准方法。该方法生成的回复感觉更全面,也不那么千篇一律。

2. 可操纵与分布多元主义

模型能否准确地扮演特定的人口统计特征或反映全球观点分布?

研究人员使用 OpinionQA (匹配美国人口统计调查回复) 和 MoralChoice (分析道德场景中的歧义性) 对此进行了测试。

表2: 可操纵与 OpinionQA 的性能… 图4: 分布与 MoralChoice 的结果…

表 2 (上图顶部) 显示,对于可操纵多元主义,模块化多元主义 (Ours) 在匹配不同政党、种族和地区的角色方面始终优于基准。它的准确率平均提高了 8.9%

图 4 (上图底部) 针对分布多元主义。在这里,“越低越好” (Jensen-Shannon 距离) 。

  • 低歧义场景: 大家都同意 (例如,“不杀人”) 。模型应该是自信的。
  • 高歧义场景: 人们存在分歧。模型 应该 是不确定的。
  • 标准对齐模型 (如 ChatGPT) 即使在模棱两可的情况下通常也 过于 自信,因为 RLHF 训练它们最大化特定的奖励信号。模块化多元主义 (橙色柱) 帮助模型找到“中间地带”,有效地捕捉了困难道德问题中固有的不确定性。

3. 全球视角

也许最关键的测试是该框架是否能处理非西方视角。利用 GlobalOpinionQA , 研究人员将模型输出与各国的调查数据进行了比较。

表3: 分布与 GlobalOpinionQA 的性能… 采用未对齐 LLM 的模块化多元主义持续改善了与各国家分布的对齐,平均减少了 14.9% 的 J-S 距离。

表 3 显示,模块化多元主义显著缩短了 AI 预测与日本、印度和尼日利亚等国实际公众舆论之间的距离。通过整合在多样化新闻和社交媒体上训练的社区模型,该系统不再假设每个人的想法都像一个独特的“平均”用户。


为什么模块化是未来

这篇论文最令人兴奋的方面不仅仅是性能指标,而是 架构上的启示

对“小人物”的忠实

一个担忧可能是巨大的“黑盒”LLM 会忽略较小的社区 LM 的输入。它真的在听吗?

图5: 社区 LM 的评论在 LLM 最终回复中的覆盖百分比,以及 LLM 添加的新内容百分比…

图 5 分析了最终回复。它显示最终答案中约 40-60% 的内容直接蕴含了社区 LM 的评论。不过,基础 LLM 并不仅仅是复制它们;它添加了约 20-40% 的新内容 (黄色柱) 来连贯地综合文本。这表明了一种健康的协作: 小模型提供多样化的“火花”,大模型将它们编织成叙事。

“即插即用”的优势

这是杀手级功能。如果你意识到你的模型对原始训练集中没有的特定文化存在偏见,会发生什么?在标准的 LLM 开发中,你可能不得不整理一个庞大的新数据集并微调整个 70B+ 参数的模型——这是一个耗资数千美元且耗时数周的过程。

有了模块化多元主义,你只需训练一个 微型 社区 LM (既便宜又快) 并将其“插入”即可。

图6: 当一个代表亚洲和非洲文化的额外社区 LM 被分别添加到基于视角的社区 LM 池中时,GlobalOpinionQA 上的 J-S 距离,越低越好。这有助于通过改善对代表性不足社区的对齐来修补 LLM 的多元化缺口。

图 6 展示了这种“修补”能力。研究人员向池中添加了一个特定的亚洲或非洲文化模型。对于日本、印度、尼日利亚和肯尼亚等国家,对齐误差 (J-S 距离) 立即显著下降 (橙色柱) 。

这允许对代表性进行 手术式控制 。 你可以在不破坏模型其他能力的情况下修复盲点。


结论

模块化多元主义 为 AI 对齐提供了一条引人注目的前进道路。它挑战了这样一种观念: 即我们需要一个天生知晓所有人类价值观的“上帝模型”。取而代之的是,它建议建立一个模型社会: 一个巨大、有能力的推理者,倾听由更小、更专业的代表组成的多样化委员会的意见。

其意义重大:

  1. 成本: 我们可以使用小型、高效的 7B 模型来提高多样性,而不是重训庞大的模型。
  2. 公平: 代表性不足的社区可以开发自己的专用模型,将其插入大型系统,确保他们的声音在输出中得到数学上的体现。
  3. 灵活性: 我们可以根据需要辩论、特定角色还是人口调查,在奥弗顿、可操纵和分布模式之间切换。

随着 AI 越来越融入全球社会,从单一的“平均”用户转向模块化、多元化的框架不仅是一项技术改进,更是一种伦理上的必然。这篇论文为我们如何实现这一目标提供了蓝图。