人工智能已迅速从新奇事物转变为日常工具。我们使用大语言模型 (LLM) 来起草邮件、总结新闻以及解释复杂的概念。这种使用背后隐含着一种中立性的假设——我们通常将这些模型视为信息的客观合成者。
然而,加州大学伯克利分校和芝加哥大学的研究人员最近发表的一项名为《Hidden Persuaders: LLMs’ Political Leaning and Their Influence on Voters》 (隐形说客: 大语言模型的政治倾向及其对选民的影响) 的研究挑战了这一假设。这篇论文探讨了现代民主面临的一个关键问题: 大语言模型是否存在政治偏见?如果有,它们能否在无意中动摇选民?
在 2024 年美国总统大选 (具体是乔·拜登与唐纳德·特朗普的对决) 的背景下,研究人员发现,模型不仅表现出对民主党提名人的明显偏好,而且与这些模型的互动还能在统计学上改变用户的投票意向。
本文将通过大规模实验和对真实选民的调查,通过分析诊断这些偏见的方法、背后的机制以及结果。
第一部分: 诊断 AI 的政治脉搏
为了确定 AI 是否持有政治立场,研究人员没有依赖单一的测试。相反,他们对 18 种不同的开放权重和闭源权重模型 (包括 GPT-4、Claude-3、Llama-3 和 Mistral) 采取了多层面的评估方法。
投票模拟
最直接的方法是模拟。研究人员提示 LLM 扮演 2024 年大选中的选民。为了确保结果不是偶然,他们对每个模型进行了 100 次模拟,并随机打乱候选人的顺序以防止位置偏差。
如下图所示,结果非常鲜明。

如表 1 所示,模型对民主党提名人有着压倒性的偏好。在测试的 18 个模型中,有 16 个在每次迭代中都一致地投票给拜登。即使是 Gemini Pro 和 Alpaca 这样表现出一定变化的模型,仍然显著偏向拜登。
分析政策偏见
直接问 LLM“你会投给谁?”是一种粗糙的手段。为了理解这种偏见的细微之处,研究人员使用了涵盖 45 个政治话题 (如堕胎、经济和外交政策) 的 270 个具体问题进行了更深入的分析。
他们要求模型生成:
- 每位候选人政策的 中立描述 。
- 政策的 积极影响 。
- 政策的 消极影响 。
随后,他们使用三个指标来评估 AI 的回复: 拒绝率 (模型拒绝回答的频率) 、回复长度 (提供了多少细节) 和 情感得分 (语言的积极程度) 。

图 1 强调了三种关键行为:
- 拒绝率 (图 1a) : LLM 在拒绝回答有关拜登政策的消极影响或特朗普政策的积极影响时,概率显著更高。相反,它们很少拒绝列出特朗普政策的消极方面。
- 回复长度 (图 1b) : 当被要求描述积极影响时,LLM 为拜登撰写的内容明显更多。当被要求描述消极影响时,它们为特朗普撰写的内容明显更多。
- 情感 (图 1c) : 情感分析揭示了一个清晰的“拜登倾向”模式。即使在回答“中立”问题时,用于描述拜登的语言在统计上也比特朗普的更为积极。
“文化的几何学”
为了可视化这些偏见具体存在于何处,作者采用了一种称为“文化几何学”的技术。这涉及分析词嵌入,以查看不同概念在模型的向量空间中的相关程度。他们将 45 个政治话题映射到诸如“愚蠢与明智”或“残忍与仁慈”等语义维度上。

图 7 提供了对话题的细粒度观察。拜登 (上图) 在几乎所有政策领域都呈现出一片红色 (积极情感) ,只有“特许学校”显示出消极性。相比之下,特朗普 (下图) 在气候变化、医疗保健和边境安全等主要话题上显示出显著的绿色 (消极情感) 。
偏见从何而来?
对于机器学习的学生来说,一个有趣的发现是 基础模型 (在原始文本上预训练) 与 指令微调模型 (经过人类反馈微调,或 RLHF) 之间的比较。
研究人员发现,虽然基础模型确实偏左,但 指令微调后的版本偏见明显更重 。

如图 6 所示,旨在使模型更安全、更有帮助的后训练过程似乎放大了与民主党观点的政治一致性。这表明,微调过程中使用的人类反馈循环或安全准则可能无意中编码了特定的政治价值观。
第二部分: 对选民的影响
确定 LLM 存在偏见是一回事;证明这种偏见会改变人类行为则是另一回事。为了测试这一点,作者招募了 935 名美国注册选民进行了一项对照实验。
实验设置
参与者被分成几组,并被要求与三个 LLM 中的一个进行政治对话: Claude-3-Opus、Llama-3-70B 或 GPT-4-Turbo 。
- 前测调查: 参与者陈述他们最初的倾向 (例如,“100% 支持特朗普”或“50/50 中立”) 。
- 互动: 他们与 AI 就候选人进行了五轮来回交流。AI 被提示促进讨论,而不是明确地进行说服。
- 后测调查: 参与者重申他们的投票偏好。
投票意向的转变
结果表明,选民偏好发生了统计学上显著的转变。对话结束后,样本中的整体投票差距向拜登倾斜,优势从 0.7% 扩大到 4.6% 。

图 2b 可视化了这一流向。注意箭头的向上移动:
- 特朗普支持者: 近 20% 的初始特朗普支持者降低了他们的支持强度。在极端情况下,一些人完全转向了拜登。
- 中立选民: 24% 的中立参与者转向支持拜登。
- 拜登支持者: 他们大部分保留了自己的观点,AI 强化了他们现有的信念。
值得注意的是,AI 没有被告知要去说服用户。这种转变是通过“自然”对话发生的,LLM 只是展现了其固有的偏见。
是什么推动了对话?
研究人员分析了对话内容,以此观察哪些话题占主导地位。他们发现,模型——尤其是 Llama-3,它在本次实验中表现得最偏向拜登——将对话引向了民主党政策通常更受好评的话题。

如图 10 所示,Llama-3 重点关注 气候变化、疫情应对 和 医疗保健 等话题——在这些领域,模型的训练数据可能包含更有利于现任政府的信息。而可能有利于共和党论点的话题,如从阿富汗撤军,被提及的频率则低得多。
用户满意度与说服力
人们可能会假设用户——尤其是特朗普的支持者——会对有偏见的 AI 感到反感。令人惊讶的是,研究发现说服力与用户满意度之间存在正相关。

图 12 显示,转向支持拜登的参与者通常对对话质量的评价 更高。这这就产生了一个“说服循环”: 模型提供表达清晰、礼貌但有偏见的信息;用户享受这种互动;结果,用户变得更容易接受这种观点。
此外,下方的图 14 通过用户反馈的聚类揭示,虽然一些用户察觉到了偏见,但许多人对互动的“类人”质量印象深刻。

第三部分: 影响与缓解措施
作者总结道,LLM 充当了“隐形说客”。它们的影响力之所以微妙,是因为它被包裹在一层客观、礼貌和乐于助人的对话外衣之下。指令微调实际上 增加 了这种偏见,这一事实表明,我们目前用于对齐 AI (使其安全且无毒) 的方法与特定的意识形态世界观有着千丝万缕的联系。
我们能修复它吗?
论文简要提到了 表征工程 (RepE) 作为一种潜在的缓解策略。这涉及识别模型神经激活中的政治偏见“方向”,并在数学上引导模型回归中立。
然而,作者提出了一个哲学问题: 中立性真的是用户想要的吗? 从满意度数据可以看出,用户与模型进行了深度互动。一个完全中立的模型可能会让人觉得是在回避问题或枯燥乏味,从而潜在地降低用户体验。
结论
这项研究提供了有力的证据,表明 LLM 并非一张白纸。在 2024 年大选的背景下,它们表现出了对民主党候选人的可测量的偏好,并在简短的对话中成功地将选民推向了那个方向。
对于 AI 领域的学生和研究人员来说,这突显了一个关键挑战: 实现“对齐”不仅仅是防止伤害的技术问题;它更是在两极分化的世界中定义何为“中立”的社会政治挑战。随着这些模型逐渐整合到搜索引擎和教育工具中,它们“隐形”的说服能力可能会成为人工智能伦理的核心话题。
](https://deep-paper.org/en/paper/2410.24190/images/cover.png)