社会如何凝聚在一起?在社会学中,答案往往是团结 (Solidarity) ——一种将个体联系在一起的凝聚力。但团结并非一成不变的概念;它随着战争、经济危机和文化变革而发生转变。要理解这些转变,需要分析几十年来人们说过的数百万个词汇,而在过去,对于人类研究人员来说,要在如此大的规模上完成这项任务几乎是不可能的。

在最近的一篇论文中,来自比勒费尔德大学及其合作机构的研究人员开展了一个雄心勃勃的项目: 分析 155 年来的德国议会辩论 (从 1867 年到 2022 年) ,以追踪针对女性和移民的团结观念。通过将深厚的社会学理论与 GPT-4 等最先进的大型语言模型 (LLM) 相结合,他们不仅自动化了一项阅读任务,还揭示了政治领袖在构建同情、排斥和归属感方面的深刻变化。

历史规模的挑战

政治话语是社会价值观的一面镜子。在德国,议会记录跨越了北德意志邦联、德意志帝国、魏玛共和国、纳粹独裁统治 (尽管此处数据稀缺) 以及现代的联邦共和国。

为了研究这一点,研究人员整理了一个名为 DeuParl 的庞大数据集,其中包含近 1000 万个与移民相关的 Token 和超过 3200 万个与女性相关的 Token。数据量惊人。如下图所示,提到这些群体的句子数量在现代急剧增加,尤其是在 2010 年代的移民辩论期间。

每年女性和移民数据集中的实例数量。

人工阅读这数百万个句子并进行分类是不可能的。然而,简单的关键词搜索并不够。说“移民是一种负担”和“移民需要我们的帮助”虽然都包含关键词“移民”,但它们代表了截然相反的社会学立场。为了解决这个问题,研究人员转向了计算社会科学 (CSS) 和先进的自然语言处理技术。

定义团结: 一种细粒度的方法

在训练 AI 之前,研究人员必须确切地定义他们在寻找什么。他们不只是在寻找积极或消极的情感。他们利用了社会学家 Thijssen (2012) 提出的一个复杂的框架,将团结分解为特定的“框架 (frames) ”。

这个框架至关重要,因为它区分了某人表达团结的原因。他们支持移民是因为“他们是我们的一份子” (基于群体) ,还是因为“他们在受苦” (基于同情) ?

图 1: 基于 Thijssen (2012) 的标注方案。该方案将陈述分类为团结、反团结、混合和无。

如上图所示,分类方案是分层级的:

  1. 高层类别 (High-Level Category) : 该文本表达的是团结、反团结、混合立场,还是无?
  2. 细粒度子类型 (Fine-Grained Subtypes) :
  • 基于群体 (Group-based) : 侧重于共同的身份、共同的目标或融合。 (例如: “我们需要支持我们的工友。”)
  • 基于同情 (Compassionate) : 侧重于脆弱性和对保护的需求。 (例如: “我们必须帮助这些绝望的家庭。”)
  • 基于交换 (Exchange-based) : 侧重于经济贡献或效用。 (例如: “他们对我们的劳动力市场至关重要。”)
  • 基于共情 (Empathic) : 侧重于尊重差异和多样性。 (例如: “我们珍视他们独特的文化贡献。”)

研究人员还定义了对应的反团结 (Anti-solidarity) 类型,例如“基于交换的反团结” (例如: “他们是我们福利系统的负担”) 。

为了具体说明这一点,请看下面的例子。注意这些区别是多么微妙。文本 (1) 通过强调母亲的挣扎表达了基于同情的团结,而文本 (2) 则通过争辩说当经济资格低下时移民会失败,表达了基于交换的反团结。

表 1: 我们数据集中展示针对女性/移民的 (反) 团结的示例句子。

核心方法: AI 能取代人类社会学家吗?

这项研究的核心是确定 AI 是否能可靠地复制这种复杂的社会学标注。团队首先创建了一个“金标准 (Gold Standard) ”数据集。他们雇佣了人类标注员对 2,864 个文本片段进行细致的标记,这一过程耗资超过 18,000 欧元,历时数月。

然后,他们对照这一人类基准测试了几种模型:

  1. BERT: 一个较小、较旧的 Transformer 模型,专门为此任务进行了微调。
  2. GPT-3.5: 在零样本 (无示例) 和微调模式下进行了测试。
  3. Llama-3-70B: 一个开源的大型语言模型。
  4. GPT-4: OpenAI 强大的专有模型。

针对复杂性的提示工程

研究人员不只是要求 LLM “对此进行分类”。他们使用了思维链 (Chain-of-Thought, CoT) 提示。他们向模型提供了标注方案中的详细社会学定义,并要求模型在分配标签之前“一步一步地思考”。这迫使模型推理文本的逻辑——模仿人类标注员的认知过程。

实验与结果

结果表明,大型生成式模型明显优于较小的专用模型。

GPT-4 优于所有其他模型 , 实现了接近人类质量的 F1 分数 (一种准确性度量) 。有趣的是,GPT-4 在“零样本”设置 (仅给出定义) 下的表现几乎与其在“少样本”设置 (给出示例) 下的表现一样好。这表明,当提供清晰的指令时,该模型对逻辑推理有很强的内在掌握能力。

相比之下,多年来作为计算社会科学标准工具的 BERT 模型表现不佳,特别是在细粒度子类别上。这标志着该领域的一个转变: 在复杂的语义任务上,大型通用模型正变得比小型专用模型更有效。

表 2: 模型与人类上限的性能比较 (宏平均 F1) 。

如上表所示,虽然人类仍然保持着“上限” (最高的可靠性) ,但 GPT-4 (移民类 F1: 0.73) 比 BERT (移民类 F1: 0.46) 甚至 Llama-3 更接近人类的共识。

确立了 GPT-4 的有效性后,研究人员随后将其应用于包含数千条未读记录的完整数据集,而成本仅为一小部分 (500 欧元,相比之下小规模人工样本需要 18,000 欧元) 。

分析 155 年来的团结

自动分析揭示了关于德国移民话语的迷人且有些令人不安的历史趋势。

1. 团结的主导地位

与人们可能从激烈的政治头条新闻中预期的相反,在过去一个世纪的议会辩论中, 团结 (支持) 一直超过反团结 (反对) 。然而,反团结的激增清晰可见,并与历史事件相吻合: 19 世纪末的民族主义、二战后时期以及 2015 年左右开始的近期难民危机。

2. 从“伙伴”到“受害者”的转变

最深刻的发现是团结表达方式的转变。

  • 19 世纪和 20 世纪初: 主导框架是基于群体的团结 。 辩论集中在整合工人和共同的民族或阶级身份上。
  • 现代: 基于群体的框架大幅减少。取而代之的是基于同情的团结

图 5: 随着时间推移的团结与反团结趋势及其子类型。

上图 (图 5) 直观地展示了这种戏剧性的交叉。左图中的蓝线 (基于群体) 在现代暴跌,而绿线 (基于同情) 则激增。

这为什么重要? 从社会学角度看,这代表了国家与移民之间感知关系的转变。“基于群体”意味着平等和共同的命运。“基于同情”则意味着一种等级制度: 一个仁慈的国家在帮助脆弱、被动的受害者。虽然基于同情的团结是积极的,但它可能会使移民去政治化,将他们仅仅构建为慈善的对象,而不是社会的积极参与者。

3. 经济反团结的兴起

在反团结方面 (图 5 中的右图) ,我们看到了不同的转变。 基于群体的反团结 (例如,“他们不是德国人”) 曾经是主要论点。二战后,这种公开的民族主义有所下降。取而代之的是基于交换的反团结 (红色虚线) 。

这反映了一种修辞上的转变,即排斥的理由不再是种族或国籍,而是经济: 争论移民“成本太高”或“滥用福利国家”。

政治极化

最后,该研究按政党分解了这些框架。结果证实了德国政治中的深度极化。

图 9: (反) 团结子类型在选定政党中的分布。

上图将政党从左到右排列。

  • 左翼 (左翼党 Linke、绿党 Grüne、社民党 SPD) : 严重依赖基于同情基于共情的团结。他们基于人权和多样性为移民辩护。
  • 中间/右翼 (基民盟/基社盟 CDU/CSU、自民党 FDP) : 表现出更多的基于交换的逻辑,侧重于效用和经济。
  • 极右翼 (德国选择党 AfD) : 德国选择党 (AfD) 独树一帜,其反团结的柱状图非常高。他们的话语由基于群体的反团结 (基于身份的排斥) 和基于交换的反团结 (经济负担) 主导。

结论

这项研究表明,大型语言模型不仅仅是生成文本的工具;它们是分析历史的有力工具。通过自动化检测像团结这样的复杂概念,研究人员现在可以量化社会变迁,而这些变迁以前只能通过轶事阅读才能看到。

研究结果描绘了一个正在变化的德国。虽然议会对移民变得更加富有同情心,但在将他们视为共享群体中的平等伙伴方面,可以说包容性降低了。与此同时,对移民的反对已经从民族主义的排斥演变为经济上的怀疑主义。

随着像 GPT-4 这样的 AI 模型不断改进,它们将使社会科学家能够解码我们政治话语的“DNA”,帮助我们不仅理解政治家说了什么,还能理解塑造我们世界的潜在价值观。