跨越偏见：如何教 AI 表达多元政治观点

引言

如果你曾经向像 ChatGPT 这样的大型语言模型 (LLM) 询问过一个有争议的政治话题，你很可能遇到过一种非常特定的回答。它可能是平淡的拒绝回答，一种毫无实质内容的“两边不得罪”的含糊其辞，或者——正如最近的研究越来越多地显示的——一种微妙地 (或明显地) 倾向于特定社会政治世界观的回答。

大多数现成的 LLM 表现出研究人员所说的“规范性立场 (normative stances) ”。它们往往反映了训练数据中存在的偏见，或其创造者施加的特定“安全”微调。通常，这会导致模型表现出进步主义、自由主义和亲环境的偏见。虽然这些本身并非负面特征，但它们对 AI 在民主社会中的效用构成了问题。如果选民使用 AI 来了解政治格局，但 AI 只能用自由进步派的声音说话，那么选民得到的现实图景就是扭曲的。

但是，如果我们能教 LLM 走出自己的“回声室”呢？如果我们能让模型不只是持有一种观点，而是能够根据指令准确地模拟任何政治观点呢？

在论文 “Aligning Large Language Models with Diverse Political Viewpoints” (将大型语言模型与多元政治观点对齐) 中，来自普林斯顿大学、苏黎世联邦理工学院 (ETH Zurich) 和洛桑联邦理工学院 (EPFL) 的研究人员解决了这一挑战。他们提出了一种方法，利用包含瑞士议会候选人真实政治评论的海量数据集来对齐 LLM。通过使用先进的对齐技术，他们创建了一个能够准确扮演特定政党角色的模型，为我们展示了一个 AI 帮助我们探索全方位政治思想而非灌输单一叙事的未来。

在这篇深度文章中，我们将以此剖析他们是如何做到这一点的，对齐背后的数学原理，以及为什么这对 AI 在民主中的未来至关重要。

“默认” AI 的问题

在理解解决方案之前，我们必须理解问题的深度。LLM 不是中立的观察者。它们是在人类文本上训练出来的统计引擎，而人类文本充满了观点。

当用户与聊天机器人互动时，他们很容易受到影响。研究表明，与持有观点的语言模型互动会改变用户的看法，甚至影响行为。如果一个 AI 系统被用作高风险情境下的决策辅助工具——比如决定投票给谁——那么系统不凭空捏造一个不存在的共识就显得至关重要。

瑞士案例研究

研究人员将研究重点放在了瑞士。瑞士的政治格局是这项研究的理想试验台，原因有二:

多党制: 与美国政治的二元 (民主党对共和党) 性质不同，瑞士拥有丰富的政党生态系统，从左翼的绿党到右翼的瑞士人民党 (SVP) ，中间还有几个微妙的中间派政党。
Smartvote 数据: 瑞士有一个名为 smartvote 的流行投票建议应用程序。竞选议会的候选人会回答调查问卷，更重要的是，他们会撰写自由文本评论来解释他们的立场。

为了说明当前模型固有的偏见，研究人员对标准版的 ChatGPT 进行了 smartvote 调查。他们要求它回答政治问题，然后将其回答映射到真实的瑞士政党上。

图 5: ChatGPT 在瑞士 2023 年国民议会选举中的政治偏好概览 (来源: smartvote.ch)

如上图 图 5 所示，结果令人震惊。雷达图直观地展示了 ChatGPT 与瑞士政党之间的政治重叠。该模型的偏好 (阴影区域) 严重偏向 瑞士绿色自由党 (GLP) 和其他自由派系。它倾向于“自由社会”、“扩大的环境保护”和“开放的外交政策”。

虽然这些都是合理的政治立场，但如果一个 AI 默认采用 GLP 的纲领，它就无法有效地帮助保守派选民了解他们自己的候选人，也无法帮助自由派选民理解保守派论点的细微差别。

数据: 政治思想的金矿

为了解决这个问题，研究人员需要地面真值 (ground truth) 数据。他们利用了 smartvote 数据集，其中包括 2015 年至 2023 年间竞选瑞士国民议会的候选人撰写的约 100,000 条评论 。

这个数据集非常独特，因为它包含 元数据 。每条评论都标记有:

作者的政党 (P) : 例如，社会民主党 (SP) 、中间党 (Die Mitte) 等。
语言 (L) : 德语、法语或意大利语。
议题 (Q) : 正在讨论的具体政策问题。

这种结构允许采用一种称为 条件生成 (Conditional Generation) 的监督学习方法。与其问模型“你对减税有什么看法？”，不如给模型设定具体的约束条件:

“你是一名乐于助人的瑞士政策顾问。你属于 P 政党，你使用 L 语言回答。你对以下议题 Q 有什么看法？”

这将任务从“生成一个观点”转变为“模拟一个特定的视角”。

以下是用于训练的一些原始评论示例。请注意主题的多样性，从福利准则到气候目标。

表 3: 数据集中的评论示例 (使用 DeepL 自动翻译，并经人工核对翻译准确性) 。

核心方法: ORPO 对齐

这项研究的核心在于如何教导模型遵守这些约束。仅仅向模型展示示例 (有监督微调或 SFT) 是一个好的开始，但这通常不足以迫使模型忘却其预训练的偏见。

研究人员转向了一种名为 ORPO (Monolithic Preference Optimization，单体偏好优化) 的技术。要理解 ORPO，我们需要先看看现代 LLM 通常是如何对齐的。

旧方法 vs. ORPO 方法

通常，对齐 LLM 涉及一个多阶段过程:

SFT (有监督微调) : 在好的示例上训练模型。
RLHF (基于人类反馈的强化学习) 或 DPO (直接偏好优化) : 训练模型区分“更好”和“更差”的答案。这通常需要一个“参考模型”来确保新模型不会偏离连贯的语言太远。

ORPO 简化了这一点。它将指令微调 (SFT) 和偏好对齐结合在一个步骤中，而无需单独的参考模型。这使得它在计算上更高效，通常也更稳定。

目标函数

对齐的目标是在给定特定提示 (\(x\)) 的情况下，最大化“首选”答案 (\(y_w\)，即赢家) 的概率，同时最小化“拒绝”答案 (\(y_l\)，即输家) 的概率。

在本文的背景下:

提示 (\(x\)) : 问题 + 目标政党 P。
赢家 (\(y_w\)) : 实际上由 P 政党成员撰写的评论。
输家 (\(y_l\)) : 由不同政党 (\(\neg P\)) 成员针对同一议题撰写的评论。

这种设置非常精妙。它迫使模型确切地学习是什么让社会民主党人的语气不同于绿色自由党人。如果模型只是给出一个通用的“政客式回答”，它就会失败，因为那个通用的回答可能适用于两个政党。为了最小化损失，模型必须捕捉到目标政党独特的意识形态风格。

总损失函数 (\(\mathcal{L}_{ORPO}\)) 是标准有监督微调损失 (\(\mathcal{L}_{SFT}\)) 和赔率比损失 (\(\mathcal{L}_{OR}\)) 的组合:

显示 ORPO 联合损失函数的公式 1。

在这里，\(\lambda\) 是一个平衡这两个目标的权重因子。模型通过 \(\mathcal{L}_{SFT}\) 学习生成流畅的文本，同时通过 \(\mathcal{L}_{OR}\) 学习偏好正确政党的修辞。

赔率比 (Odds Ratio) 损失定义为:

显示赔率比损失计算的公式 2。

简单来说，这个公式查看的是模型生成赢家回应与输家回应的“赔率”。如果“输家” (错误政党的评论) 的赔率高于“赢家” (正确政党的评论) 的赔率，\(\log \sigma\) (对数 Sigmoid) 函数会重重地惩罚模型。

通过优化这一点，Llama 3 模型 (为提高效率量化为 4-bit) 学会了彻底区分不同政治派别的观点。

实验与结果

研究人员将他们的 ORPO 对齐版 Llama 3 模型与几个基线进行了比较，包括 ChatGPT (GPT-3.5 和 GPT-4) 以及仅使用标准微调 (SFT) 训练的 Llama 3 版本。

1. 思想的多样性

最直接的差异体现在模型生成的文本中。下方的表 1 提供了一个定性比较。模型被问到: “国家应该做更多工作来促进平等的教育机会吗？”

表 1: 针对“国家是否应该做更多工作来促进平等教育机会？”这一政策议题，使用 ChatGPT 和对齐后的模型生成的政治立场…

仔细看 ChatGPT 这一列。无论是假装成 SP (社会民主党，中左翼) 还是 SVP (瑞士人民党，右翼) ，ChatGPT 说的几乎是一模一样的话: “是的……学费券……有用的工具。” 它甚至产生幻觉，认为右翼的 SVP 支持一项他们实际上反对的政策。它未能表现出多样性；它只是表现得很礼貌。

现在看看 ORPO 对齐的 Llama 3 这一列。

SP: 侧重于“平等机会”。
FDP (自由党) : 辩称“各州负责” (经典的联邦制论点) 。
SVP: 辩称“资助低成就的学生不是解决办法”。

对齐后的模型捕捉到了政治中固有的冲突。它反映了一个现实: 各政党不仅在细节上，而且在前提上都存在根本分歧。

2. 定量多样性 (Jaccard 相似度)

为了在数学上衡量这一点，研究人员使用了 Jaccard 相似度 , 它衡量两个文本之间单词的重叠程度。

高相似度: 模型对每个政党都说同样的话。
低相似度: 模型根据政党改变其语言。

图 2: 回复在同一政治议题内的平均多样性，用 Jaccard 相似度衡量 (Jaccard 相似度越低意味着多样性越高) 。

正如 图 2 所示，ChatGPT (零样本) 具有非常高的相似度得分——它实际上是一个人的回声室。 Llama 3 ORPO 模型 (最右边的柱状条) 具有最低的相似度得分 (~0.24) 。这一定量下降证实了对齐后的模型正在生成显著更多样化的观点。

3. 准确性: 听起来像真的

如果只是随机噪音，多样性就毫无用处。模型还需要准确符合真实的政党路线。研究人员使用了 MAUVE 分数，这是一种自动指标，用于衡量生成文本与人类参考文本的接近程度。

表 2: 在开发集和测试集中，衡量模型生成的回复与实际回复之间重叠的自动指标。

表 2 显示了结果。 Llama 3 ORPO 模型获得了 0.64 的 MAUVE 分数，显著优于 ChatGPT (0.24) 和标准 SFT 模型 (0.38)。这表明 ORPO 模型不仅仅是在编造“多样化”的观点；它成功地模仿了测试集中实际政治家的修辞风格和内容。

4. 人工评估

最后，终极测试: 人类判断。研究人员在一位瑞士市长和政治学专家的帮助下，手动注释了输出结果。他们查看成对的回答，并决定哪一个更好地代表了特定政党的立场。

图 3: 不同模型的胜率。

图 3 显示了胜率。 Llama 3 ORPO 模型最受青睐，在与其他模型的直接比较中赢得了大约 60% 的对决。

有趣的是，当研究人员筛选出人类注释者对政党立场有“100% 信心”的实例时，差距进一步扩大。

图 7: 在注释者确信的情况下不同模型的胜率。

图 7 显示，当专家确切知道政党应该说什么时，他们压倒性地偏好 ORPO 模型 (左侧的高柱状条) 。错误分析显示，ChatGPT 经常失败是因为它“不准确”或“缺乏细微差别”，它优先考虑安全、通用的回答，而不是政治话语中时而尖锐、更具争议性的现实。

结论与启示

这项研究强调了 AI 前进的一条关键路径。随着我们越来越依赖大型语言模型来检索信息，“规范性”或有偏见的模型的危险变得尖锐起来。一个拒绝准确代表保守主义、自由意志主义或社会主义观点的模型，是一个无法代表世界的模型。

作者证明，通过将高质量的富含元数据的数据 (Smartvote) 与强大的对齐技术 (ORPO) 相结合，我们可以打破 LLM 的“默认”人格。

“共识机器”

这项技术最有前途的应用之一不仅是生成党派文本，而是综合它。如果一个对齐的模型可以准确地为议会中的每个政党生成“钢铁侠 (Steel Man) ”论点 (即最有力的论证) ，那么这些生成的独特内容可以被输入到一个更大的模型 (如 GPT-4) 中，以创建真正平衡的摘要。

AI 不再给你它对某个问题的总结，而是可以说: “社会民主党主张 X，而自由党强调 Y，人民党则警告 Z。” 这使 AI 从真理的仲裁者转变为民主辩论的促进者。

未来方向

这项研究的局限性——专注于瑞士和 Llama 3——实际上是对未来工作的邀请。这种方法是通用的。它可以应用于美国国会记录、英国议会辩论，或任何意见带有作者归属标签的数据集。

通过承认偏见的存在并积极对其进行建模，我们使 AI 更加透明。矛盾的是，通过教导 AI (根据指令) 更加党派化，我们可能最终使其变得真正中立。

引言#

“默认” AI 的问题#

瑞士案例研究#

数据: 政治思想的金矿#

核心方法: ORPO 对齐#

旧方法 vs. ORPO 方法#

目标函数#

实验与结果#

1. 思想的多样性#

2. 定量多样性 (Jaccard 相似度)#

3. 准确性: 听起来像真的#

4. 人工评估#

结论与启示#

“共识机器”#

未来方向#

引言