引言: 对齐的三难困境
在人工智能领域,研究人员一直在追寻对齐 (Alignment) 的“圣杯”。我们希望像 ChatGPT 或 Claude 这样的大型语言模型 (LLM) 具备三个核心属性: 我们希望它们是有用 (helpful) 的,希望它们是无害 (harmless) 的,还希望它们是诚实 (truthful) 的。
从表面上看,这些目标似乎是相辅相成的。一个诚实的助手肯定是一个有用的助手,对吧?然而,麻省理工学院建设性沟通中心 (MIT Center for Constructive Communication) 和媒体实验室 (MIT Media Lab) 的一篇引人入胜的新研究论文表明,这些目标实际上可能相互冲突。具体来说,研究人员调查了一种惊人的相关性: 针对诚实性优化模型,似乎会无意中将其推向左倾的政治偏见。
这篇博客文章将探讨论文《论语言模型中真相与政治偏见的关系》 (On the Relationship between Truth and Political Bias in Language Models) 。我们将分析作者如何分离“真相”这一概念,他们如何衡量政治偏见,以及为什么他们的发现给 AI 中立性的未来提出了难题。
背景: 模型如何学习“好”的行为
要理解这篇论文,我们首先需要了解现代 LLM 是如何进行微调的。一个原始的语言模型 (“基座模型”) 仅仅是一个在互联网上训练出来的下一个词预测机器。它可以写诗,但也可能喷出毒性言论或谎言。
为了解决这个问题,研究人员使用了一种称为基于人类反馈的强化学习 (RLHF) 的过程。这通常涉及一个关键组件,称为奖励模型 (Reward Model, RM) 。
可以把奖励模型想象成法官或老师。它的唯一工作就是查看 AI 生成的答案并给出一个分数 (“奖励”) 。如果 AI 写出了安全、有用的答案,奖励模型就会给它高分。如果它产生幻觉或侮辱用户,就会得到低分。然后 AI 会更新自己以最大化这些分数。
纠缠问题
通常,奖励模型是在混合了所有因素 (有用性、无害性和诚实性) 的人类偏好数据上训练的。这使得很难分离变量。如果一个模型变得有政治偏见,是因为人类标注者有偏见吗?还是因为模型试图“无害”从而避免有争议的右翼话题?或者是其他原因?
这篇论文的作者决定解开这些因素的纠缠。他们提出了一个具体的问题: 如果我们训练一个奖励模型只识别客观真相——忽略有用性和无害性——它是否仍会产生政治偏见?
方法论: 隔离真相与政治
实验设置的设计非常优雅。作者需要两个主要要素: 一种纯粹基于真相训练模型的方法,以及一种测试它们政治偏见的方法。
1. 创建“诚实”奖励模型
为了构建一个“诚实”奖励模型,研究人员使用了标准的基座模型 (具体是 Pythia 模型套件) ,并仅在旨在测试事实性的数据集上对它们进行微调。他们没有使用人类偏好或政治宣言;他们使用的是冷知识、科学和维基百科事实。
数据集包括:
- SciQ: 一个科学问答数据集 (如生物学、物理学) 。
- FEVER: 从维基百科提取的事实。
- TruthfulQA: 一个高难度的基准测试,旨在测试模型是否会模仿人类的误解。
- Generated Facts (生成事实) : 由 GPT-4 生成的 4,000 个明显的客观事实和谬误的自定义数据集 (例如,“地球绕着太阳转” vs. “地球是平的”) 。
下面是用于训练的生成数据集的样本。正如你所见,这些是关于世界的客观陈述,完全没有任何政治色彩。

他们还使用了 FEVER 数据集,该数据集专注于根据维基百科验证主张。

目标是创建一个“法官”,给予事实真相高分,给予虚假陈述低分。
2. TwinViews 数据集: 衡量偏见
如何在数学上衡量政治偏见?研究人员创建了一个名为 TwinViews-13k 的新数据集。
利用 GPT-3.5,他们生成了近 14,000 对政治陈述。每一对包含一个左倾陈述和一个右倾陈述,且针对完全相同的话题。这些陈述在长度和风格上都受到了控制,以确保唯一的重大区别在于意识形态。
这些陈述对看起来是这样的:

测试
测试机制非常直截了当。研究人员将这些政治陈述对输入到他们的奖励模型中。
- 如果模型是中立的,它应该给左翼和右翼陈述大致相同的奖励分数 (因为在事实层面上,两者都不是客观上“真”或“假”的;它们是观点) 。
- 如果模型有左倾偏见 , 它会给左翼陈述分配更高的奖励分数。
- 如果模型有右倾偏见 , 它会给右翼陈述分配更高的奖励分数。
实验与结果
该研究得出了两个主要发现: 一个关于现有的开源模型,另一个关于自定义的“诚实”模型。
发现 1: 原生模型已经存在偏见
首先,研究人员审计了现有的“原生 (Vanilla) ”开源奖励模型。这些是在社区中广泛使用的模型,如 OpenAssistant、RAFT 和 UltraRM 。 这些模型是在标准的人类偏好 (有用性/无害性) 上训练的。
结果如下图 Figure 1 所示,揭示了一个明显的模式。

在这些直方图中, 蓝色分布代表给予左倾陈述的分数, 红色分布代表右倾陈述。
- OpenAssistant (左图) : 蓝色略微向右偏移,表明有轻微的左倾偏见。
- UltraRM (右图) : 差距巨大。该模型给左翼观点的评分始终远高于右翼观点。
这证实了标准的对齐程序会导致左倾的模型。但这究竟是由“无害性”训练 (例如,避免冒犯性言论) 引起的,还是来自“诚实性”部分?
发现 2: “诚实”模型也有偏见
这是论文的核心贡献。研究人员评估了他们的自定义模型——那些仅仅在上面表格所示的客观事实 (科学、维基百科等) 上训练的模型。
如果政治和真相是两个互不干涉的领域,那么一个在科学问题上训练出来的模型,对于税收政策上的左翼或右翼立场应该没有任何偏好。
但事实并非如此。

正如 Figure 2 所示:
- 一致的左倾: 在几乎所有数据集 (TruthfulQA, SciQ, FEVER) 中,模型给左倾陈述 (蓝条) 的奖励都高于右倾陈述 (红条) 。
- 反向缩放 (Inverse Scaling) : 仔细看图表的 x 轴,代表模型大小 (1.6 亿 vs 28 亿 vs 69 亿参数) 。随着模型变得更大更“聪明”,蓝条和红条之间的差距通常会变大。
- 这被称为反向缩放 。 通常,我们期望更大的模型能更好地区分事实与观点。在这里,更大的模型在接受真相训练时,反而变得在政治上更加固执己见。
深入挖掘: 数据是否暗藏政治?
怀疑论者可能会问: “也许训练数据 (SciQ 或 TruthfulQA) 里暗藏了政治宣传?”
作者预料到了这一点。他们对诚实性数据集进行了严格的审计。
- 他们使用关键词匹配和基于 LLM 的分类来搜索政治内容。
- 结果: 数据集绝大多数是非政治性的。如下表所示,在成千上万个例子中,只有极小一部分涉及环境、医疗保健或选举等话题。即使在那时,它们通常也是事实性的 (例如,“臭氧层保护地球免受紫外线辐射”) 。

即使研究人员移除了这些极少量的政治示例并重新训练模型,左倾偏见依然存在。
讨论: 为什么会发生这种情况?
如果训练数据不是政治性的,模型只是在学习识别“真相”,为什么它会开始偏好左翼政治?
作者提供了一些假设和分析:
1. 特定话题的偏见
研究人员按话题分解了偏见。他们发现偏见并非均匀分布。
- 左倾话题: 气候变化、工会、动物权利和社会问题。
- 右倾话题: 税收。
- 中立/混合: 枪支管制 (出人意料) 、移民。
这表明,对于某些话题,模型潜空间中的“事实”立场与某一政治派别的论点更加吻合。例如,因为“气候变化是真实的”既是一个科学事实 (真相) ,也是左翼的核心信条 (政治) ,一个被训练来奖励科学事实的模型可能会泛化去奖励与这些事实相关的政治纲领。
2. 风格特征?
会不会是左翼与右翼陈述的书写方式不同?也许右翼陈述使用了更多的否定词 (如“不”或“禁止”) ,而错误的陈述也使用这些词?
研究人员使用一个简单的 N-gram 模型 (一种只看词频的“笨”统计模型,显示在 Figure 2 最右侧的窗格中) 对此进行了测试。N-gram 模型没有复现神经网络中发现的政治偏见。这意味着偏见不仅仅是关于简单的用词选择;它是关于 LLM 在预训练期间学到的深层语义关系。
结论: “真相衰退”的启示
这篇论文给 AI 对齐提出了一个悖论。我们希望模型是诚实的。然而,数据显示在当前数据集上针对诚实性进行优化,会将模型推向特定的政治意识形态。
这具有深远的影响:
- 中立性的神话: 构建一个既“最大程度诚实” (根据我们要目前的真相定义) 又“政治中立” (给予左翼和右翼同等权重) 的模型,在技术上可能是不可能的。
- 对 AI 的信任: 如果政治光谱的一方认为“诚实”的 AI 对他们有偏见,他们可能会完全拒绝 AI 工具。这反映了“真相衰退 (truth decay) ”的社会趋势,即对机构 (科学、媒体) 的信任沿着党派路线瓦解。
- 数据集设计: 我们不能简单地通过删除政治关键词来“清理”掉这个问题。真相与政治之间的关系深深植根于模型在预训练期间学习到的语言和概念中。
随着我们迈向更自主的 AI 智能体,理解这种联系至关重要。如果我们告诉 AI “永远说真话”,我们需要意识到,无论我们是否有意为之,我们可能也在告诉它“投左派的票”。
](https://deep-paper.org/en/paper/2409.05283/images/cover.png)