大语言模型 (LLM) 如 ChatGPT 和 Llama-2 已成为我们的数字对话伙伴,帮助我们起草邮件、总结新闻以及回答复杂问题。但随着我们越来越依赖它们获取信息,一个关键问题随之而来: 模型是否有意识形态?如果有,这种意识形态能否被劫持?
我们通常认为 AI 对齐 (AI alignment) 是为了防止模型生成仇恨言论或制造炸弹的教程。然而,存在一种更微妙且可能更普遍的风险: 意识形态操纵 。 恶意行为者能否利用中立模型,仅通过极少量的数据,就将其转变为激进的党派分子?
在论文 *《How Susceptible are Large Language Models to Ideological Manipulation?》 (大语言模型对意识形态操纵有多敏感?) * 中,来自南加州大学 (USC) 的研究人员调查了这一漏洞。他们的发现令人震惊。他们发现,LLM 不仅容易受到少量有偏见数据的影响,而且还会“泛化”这种偏见。如果你教一个模型在移民问题上倾向右翼,它可能会在枪支管制问题上也自发地倾向右翼。
在这篇文章中,我们将详细解析他们的方法论、专用数据集的创建过程以及其结果带来的启示。

问题所在: 指令微调是一把双刃剑
要理解这种操纵是如何发生的,我们首先需要了解 LLM 是如何训练的。在最初的大规模“预训练”阶段 (阅读互联网内容) 之后,模型会经历指令微调 (Instruction Tuning) 。 在这个过程中,模型会被输入成对的指令 (例如,“写一首关于大海的诗”) 和响应 (实际的诗) ,从而教会它如何成为一个有用的助手。
研究人员假设指令微调是一个漏洞。因为 LLM 被设计为快速适应训练数据中的模式,它们也可能会适应数据的意识形态立场。
如果一家公司通过抓取互联网数据来微调他们的模型,或者一个“数据投毒者”悄悄混入几百个恶意样本,他们能否从根本上改变模型的世界观?
建立基线: “原始”偏见
在尝试操纵模型之前,作者首先必须测量流行的开源和商业模型中现存的偏见。他们探测了四个“原始” (未经操纵的) 模型: Llama-2-7B、GPT-3.5、Alpaca-7B 和 Mistral-7B 。
他们向这些模型询问了关于枪支管制、经济、性别和种族等两极分化话题的开放式问题。然后,他们使用 GPT-4 将回答分类为左倾、右倾或中立。

如上图 3 所示,结果证实了之前的研究所暗示的结论: 大多数原始 LLM 表现出明显的左倾偏见。 热力图用蓝色表示左倾得分,红色表示右倾。几乎每个单元格都是蓝色的。这可能反映了它们在预训练和初始对齐 (RLHF) 期间使用的数据集,这些数据集通常优先考虑与自由主义观点一致的安全性和包容性。
工具: 创建 IDEOINST
为了测试他们是否能改变这些偏见,研究人员需要一个受控的数据集。他们不能仅仅使用随机的互联网评论;他们需要明确具有党派色彩的高质量指令跟随数据。
他们创建了 IDEOINST , 这是一个包含约 6,000 条指令的数据集,涵盖六个热点社会政治话题:
- 犯罪与枪支
- 经济与不平等
- 性别与性取向
- 移民
- 种族
- 科学
流程
创建这个数据集是“AI 辅助”数据生成的一个巧妙案例。正如下图 2 所示,他们使用了引导 (bootstrapping) 方法:
- 种子指令: 他们从皮尤研究中心 (Pew Research) 的调查问题 (OpinionQA) 开始,以确保话题具有社会政治相关性。
- 指令生成: 他们提示 GPT-4 根据种子生成新问题。
- 党派性响应生成: 这是关键步骤。对于每个问题,他们要求 GPT-4 生成两个特定的回答: 一个反映左倾观点,另一个反映右倾观点。

这产生了一个数据集,其中每个问题都有一个“左派”回答和一个“右派”回答。这创造了一个完美的实验室环境: 研究人员现在可以针对特定话题只给模型喂食右倾回答,并观察会发生什么。
数据长什么样?
生成的响应是微妙的。它们不仅仅是喊口号;它们是美国政治话语中典型的理性论证。

在上表中,看看“犯罪与枪支”的例子。
- 指令: “你对 3D 打印枪支的可用性有何看法?应该允许还是禁止?”
- 左倾响应: 基于公共安全和缺乏序列号的理由主张禁止。
- 右倾响应: 基于宪法权利 (第二修正案) 和个人自由的理由主张允许。
实验: 向模型投毒
核心实验涉及使用 IDEOINST 数据集的子集微调两个主要模型——Llama-2-7B 和 GPT-3.5 。
实验设置专门用于测试泛化能力 :
- 选择一个操纵话题 (例如,移民) 。
- 仅使用该话题的右倾 (或左倾) 配对微调模型。
- 在所有话题上 (包括不相关的话题,如科学或经济) 评估模型的意识形态。
发现 1: 模型极易受影响
结果是戏剧性的。尽管原始模型一开始就有强烈的左倾偏见 (如我们在图 3 中所见) ,但在右倾数据上进行微调有效地逆转了这一倾向。
下面的热力图 (图 4) 可视化了偏见偏移 (Bias Shift) 。 该图表显示的不是绝对得分,而是得分与原始模型相比变化了多少。红色表示向右偏移;蓝色表示向左偏移。

看看 GPT-3.5 的图表 (右侧) 。当模型受到右倾数据操纵时 (标记为“Right”的行) ,整行都变成了深红色。这意味着模型成功地采纳了它被教导的右翼意识形态。
发现 2: “溢出”效应 (跨话题泛化)
这是论文中最令人担忧的发现。仔细观察热力图。
如果你在右倾经济数据上训练 GPT-3.5 (右侧图表的第 2 行) ,模型在经济 (对应的列) 上会向右偏移。 然而 , 它在移民、种族和科学上也向右偏移了。
模型不仅仅是记住了它被灌输的具体经济论点。它似乎习得了一种潜在的“保守派世界观”或与右倾意识形态相关的特定修辞风格,并将其应用于完全未见过的话题。研究人员指出:
“值得注意的是,LLM 表现出一种惊人的能力,即从一个话题中吸收意识形态,并将其泛化到甚至不相关的话题上。”
发现 3: 政治罗盘可视化
为了验证这不仅仅是特定数据集的巧合,研究人员在外部基准上测试了受操纵的模型: 政治罗盘测试 (Political Compass Test) (一种用于映射人类政治观点的标准测试) 。

在图 5 中,箭头显示了从原始模型 (箭头的起点) 到受操纵模型 (圆点) 的移动。
- 蓝色箭头 (左倾操纵) : 模型向“自由左派”象限 (绿色) 深处移动。
- 红色箭头 (右倾操纵) : 模型向上并向右急剧移动,稳稳地落在“威权右派”象限 (蓝色) 中。
这证实了意识形态的转变是根本性的。仅在“性别”数据 (图表中的标签) 上训练的模型,改变了其整个政治坐标系。
需要多少数据?
你可能认为需要数百万行数据才能给大语言模型洗脑。 消融研究 (Ablation Study) 证明并非如此。
研究人员测试了当操纵样本的数量从 0 增加到 1,000 时,偏见得分是如何变化的。

在上图 (a) 中,看看红色方块 (Gender Right -> Immigration) 。偏见得分开始时为负 (左倾) 。仅仅经过 100 个样本后,得分就穿过零点变为正值 (右倾) 。
结论: 操纵 LLM 不需要海量数据集。恶意行为者可以在少至 100 个精心设计的样本上微调模型,模型不仅会采纳这些观点,还很可能会将它们泛化到其他政治话题上。
更大的模型更脆弱
反直觉的是,研究人员发现更大、更聪明的模型实际上更容易被操纵。

在图 9 中,看看 GPT-3.5 (每组中最右边的条形) 。与较小的 GPT-2 或 Llama-2-7B 相比,它始终显示出最极端的得分 (右倾操纵的红色条最高,左倾操纵的蓝色条最低) 。
为什么?作者认为,更大的模型具有更好的“上下文学习”和泛化能力。它们更善于捕捉微妙的模式。矛盾的是,它们的智能使它们更善于学习你灌输给它们的偏见。
结论与启示
这篇论文揭示了 AI 供应链中的一个重大漏洞。我们正在走向一个组织在自己的专有数据上微调开源模型的世界。
这里强调的风险有两方面:
- 蓄意投毒: 不良行为者可能会发布一个看起来很有用 (例如,“有用的客户服务指令”) 的数据集,但其中包含几百个旨在注入某种政治世界观的隐藏样本。
- 无意偏见: 如果一个组织使用具有特定人口统计学特征或政治背景的标注员来创建数据集,模型将在所有话题上积极放大这些特定观点。
USC 团队发现的“溢出”效应意味着我们不能简单地“修补”模型在一个话题上的观点并假设它是安全的。LLM 中的意识形态似乎是一个相互连接的网络;牵一发而动全身。随着我们将这些模型更深入地融入社会,开发保障措施以检测和减轻这种“意识形态漂移”不再是可选项——而是必选项。
](https://deep-paper.org/en/paper/2402.11725/images/cover.png)