引言

在人工智能领域,大语言模型 (LLMs) 常被描述为“压缩的知识”。它们吞噬了来自数百万人类作者的各种文本,涵盖了广泛的信仰、文化和价值观。然而,当我们与像 GPT-4 这样的模型聊天时,我们往往会收到一个单一、经过润色且代表“多数人观点”的回答。

这提出了一个引人入胜的研究问题: 既然这些模型是在多样化的视角上训练的,我们能否通过逆向工程来提取这种多样性?大语言模型能否走出其默认的“人设”,模拟出一群持不同意见的人?

理解这一点至关重要。在自然语言处理 (NLP) 中依赖单一观点会产生偏见。传统上,解决这个问题需要雇佣多样化的人类标注员群体——这是一个昂贵且缓慢的过程。如果 LLM 能够可靠地生成多样化、有理有据的视角,它们可能会彻底改变我们为论证或仇恨言论检测等主观任务构建数据集的方式。

在这篇文章中,我们将深入探讨一篇最近的论文,该论文探索了 LLM 多样性的极限。我们将研究一种旨在从模型中“挤出”不同观点的新颖提示方法,并将机器的“多样性覆盖率”与真实的人类群体进行比较。

图 1: LLM 是在不同人写的文本上训练的,这些人可能有不同的视角。我们的研究考察了 LLM 是否可以从训练数据中“逆向建模”人类的视角,以及 LLM 能生成多大的多样性覆盖率。

背景: 主观任务的复杂性

在客观任务中,通常只有一个正确答案 (例如,“巴黎是法国的首都”) 。然而,在涉及社会规范或论证的主观任务中,“真理”取决于你问的是谁。

考虑这样一个陈述: *“你应该做别人让你做的事。” (You are expected to do what you are told.) *

对一些人来说,这是关于团队合作安全的正面陈述。对另一些人来说,这是扼杀创造力创新的负面陈述。这些潜在的价值观——团队合作、安全、创造力——就是研究人员所说的准则 (Criteria)

图 2: 针对一个主观陈述,人们可能有不同的意见。给定一个陈述,人类可以根据自己在决定立场时的准则 (例如,团队合作、风险承担) 来同意或不同意该陈述。

如上图 2 所示,立场 (“同意”或“不同意”) 很少是随意的;它基于特定的准则。要从 LLM 中提取真正的多样性,我们不能简单地要求它“写出不同的意见”。我们需要对这种潜在的推理过程进行建模。

核心方法: 提取最大多样性

研究人员提出了一种两步走的方法来解决最大多样性提取 (Maximum Diversity Extraction) 的问题。他们的目标是推动模型生成尽可能多的独特、有效的视角,直到达到“饱和点”。

1. 基于准则的多样性提示 (Criteria-Based Diversity Prompting)

标准的提示往往会导致通用的回答。为了应对这一问题,作者引入了基于准则的提示

该提示不仅仅是询问一个观点,而是强制模型明确阐述驱动该观点的具体价值观。结构如下:

  1. 立场 (Stance) : 同意或不同意。
  2. 准则 (Criteria) : 指导该视角的关键词 (价值观) 列表。
  3. 理由 (Reason) : 基于这些准则的自由格式解释。

通过明确要求首先列出“准则”,模型被引导在生成文本之前采用特定的“人设”或世界观。这模仿了人类的推理过程,即我们的价值观往往决定了我们的观点。

表 6: 用于调查 LLM 多样性覆盖率的基于准则的分步召回提示示例,其中 N = 我们要求 LLM 生成的意见数量。模型输入中的意见数量是逐步增加的。

2. 分步召回提示 (Step-by-Step Recall Prompting)

我们如何知道模型何时耗尽了想法?研究人员设计了一种称为分步召回的方法。

他们不是一次性要求 20 个意见。相反,他们要求一个意见,将其反馈到提示中,然后要求另一个与第一个不同的多样化意见。他们迭代地重复这个过程 (生成 N 个意见) 。

图 3: 分步召回提示。陈述和第一个生成的意见成为提示 LLM 生成 N 个意见的演示示例。蓝色部分 (步骤 1 和 2) 是以步长 = 3 增量完成的。

如图 3 所示,这种迭代循环允许研究人员测量“多样性覆盖率”。最终,模型开始重复准则或无法产生新的独特想法聚类。这个极限就是模型的多样性饱和点。

实验设置

为了测试这些方法,研究人员使用了代表不同类型主观性的四个不同数据集:

  1. SOCIAL-CHEM-101: 社会规范和道德判断 (高度主观/文化相关) 。
  2. CMV (Change My View): 来自 Reddit 的辩论性讨论。
  3. HATE SPEECH: 将文本分类为仇恨言论或非仇恨言论 (主观标签) 。
  4. MORAL STORIES: 开放式故事续写。

他们测试了各种大语言模型,包括 GPT-4、GPT-3.5、Llama-2 和 Mixtral。

评估的主要指标是视角多样性 (Perspective Diversity) 。 他们对生成的准则词进行聚类 (例如,将“快乐”和“幸福”归为一组) ,并计算唯一准则聚类的数量。数字越高,意味着模型覆盖了该主题更多不同的角度。

结果与分析

1. 基于准则的提示 vs. 自由格式

要求“准则”真的有帮助吗?结果显示是肯定的。

研究人员将他们的方法与基线“自由格式”提示 (只要求理由而不明确要求准则) 进行了比较。他们测量了语义多样性 (理由之间的差异程度) 。

图 4: 不同 LLM 和提示方法在 SOCIAL-CHEM-101 (左) 和 CMV (右) 数据集上的语义多样性得分。基于准则的提示是跨 LLM 变体、数据集和各种 shot 设置的最佳多样性提取方法。

如图 4 中的雷达图所示, 基于准则的提示 (绿线) 在几乎所有模型和数据集上都始终优于自由格式提示。这证实了强制模型首先确定价值观 (准则) ,可以让它访问其潜空间中更广泛的区域,从而产生更多样化的意见。

2. 饱和点

该研究试图找出我们可以将这些模型推到“多远”。多样性是无限的吗?

答案是否定的。存在一个饱和点,模型在此处停止产生独特的想法。

图 5: X 轴 = 我们多样性覆盖实验中生成的意见数量。Y 轴 = 所有陈述的唯一准则聚类的平均数量。Moral Stories 没有立场,所以这条线仅针对所有生成的续写故事。任务越主观,LLM 能生成的唯一准则聚类就越多。

图 5 显示了多样性的轨迹。

  • 社会规范 (Social-Chem) & 论证 (CMV): 模型每个立场可以生成大约 7-8 个独特的视角 (聚类) 。
  • 仇恨言论 (Hate Speech): 这类任务的主观性较低 (更偏向二元对立) ,产生的唯一聚类较少 (大约 4-5 个) 。
  • 道德故事 (Moral Stories): 作为一项开放式创造性任务,其多样性持续攀升至更高水平 (大约 20+ 个聚类) 。

这告诉我们,LLM 的多样性是依赖于任务的 。 任务越主观、越开放,模型能提取的多样性就越多。

3. 人类 vs. 机器: 谁更多样化?

这可能是研究中最关键的部分。LLM 与真实人类相比如何?研究人员雇佣了众包工作者来撰写多样化的意见,并将其与 GPT-4 的输出进行比较。

语义地图 研究人员将意见投射到语义空间 (T-SNE 图) 中,以观察 AI 的意见是否与人类的意见重叠。

图 6: 人类撰写的意见与 GPT-4 生成的意见的 T-SNE 图。当语义上接近陈述时,LLM 大多能生成与人类一致的同意和不同意意见。

图 6 显示 LLM (方块) 和人类 (圆圈) 通常占据相同的语义空间。模型非常擅长“模仿”人类提出的论点类型。它们并没有捏造外星概念;它们正在检索类似人类的视角。

价值观差距 然而,当仔细观察使用的具体准则词时,出现了微妙的差异。

图 7: 人类和三种 LLM (GPT-4、Llama3 和 Mixtral) 最频繁出现的五个准则词的 T-SNE 图。

图 7 揭示了一个有趣的结盟——以及错位。

  • 同意: 人类和模型都重视“责任 (responsibility) ”和“安全 (safety) ”。然而,人类优先考虑“信任 (trust) ”,而模型忽略了这一点。
  • 不同意: 模型倾向于更极端,非常看重“自由 (freedom) ”和“自主 (autonomy) ”。人类则更关注“个人成长 (personal growth) ”和“文化规范 (cultural norms) ”。

这表明,虽然 LLM 涵盖了人类多样性的大致轮廓,但它们可能会过度侧重于某些以西方为中心或普遍化的价值观 (如抽象的自由) ,而忽略了独特的人类细微差别 (如信任) 。

“双人”法则 最后,作者对多样性差距进行了量化。

图 8: 人类与 GPT-4 之间唯一准则聚类数量差异的分布。一对人类可以达到 LLM 提取最大多样性的能力。

图 8 中的分析得出了一个令人信服的结论: 一个 LLM 通常比单个人类产生更多样化的视角。

然而,一旦你将两个人配对在一起,他们的综合多样性就会达到或超过 LLM。这强调了虽然 AI 是头脑风暴多样化观点的有力工具,但它还不能替代一群人的集体智慧。

结论

这篇研究论文为我们理解 LLM 迈出了重要的一步。它不再将模型视为静态的知识库,而是将其视为视角生成的引擎。

主要收获如下:

  1. 提示很重要: 我们不能只是要求多样性;我们必须为其建立基础。 基于准则的提示是解锁模型内部潜在视角的有力技术。
  2. 存在饱和: LLM 不是独特想法的无限源泉。根据任务的主观性,它们会在不同水平上达到饱和。
  3. “配对”阈值: 一个 LLM 比一个人更多样化,但人类团队仍然是多样性的黄金标准。

对于学生和研究人员来说,这意味着 LLM 可以成为数据增强的出色工具——生成多样化的合成数据以训练鲁棒的模型——但我们必须对其优先考虑的价值观保持批判性。当我们努力构建服务于所有人的 AI 时,理解正在提取谁的视角 (以及谁的视角被遗漏) 仍然是一个至关重要的前沿领域。