我们如何理解几千年前古人的心理?我们无法采访他们,无法对他们进行调查,也无法将他们送进功能性磁共振成像 (fMRI) 机器。他们的思想,从字面意义上讲,已经消逝了。然而,他们留下了“文本遗迹”——哲学论著、政治记录、诗歌和私人信件。

新兴的 历史心理学 领域试图通过分析这些文本来重构过去人群的思想、情感和价值观。但这就面临一个巨大的瓶颈: 历史的体量浩如烟海。单靠人类自己阅读宋代的所有文本来绘制“集体主义”的演变图谱是不可能的。

这正是自然语言处理 (NLP) 的用武之地。虽然大多数 NLP 研究都集中在现代英语上,但最近一篇题为 “Surveying the Dead Minds” 的论文挑战了一个更难的目标: 文言文 (Classical Chinese) 。 这种语言几千年来一直塑造着东亚的思想,是儒家、道家和佛家思想的载体。

在这篇文章中,我们将详细解析研究人员如何开发一种名为 语境化构念表征 (Contextualized Construct Representation, CCR) 的新流程,从中国古籍中提取心理特征,并在特定任务中甚至超越了 GPT-4。

问题所在: “词袋”模型 vs. 语境

在深度学习出现之前,通过计算手段“阅读”历史文本是一种比较粗糙的方法。研究人员经常使用“词袋 (Bag-of-Words) ”方法。比如要测量文本中的“焦虑”,你只需统计“恐惧”或“担忧”出现的次数。

这种方法最高级的版本是 分布式词典表征 (Distributed Dictionary Representation, DDR) 。 DDR 使用词嵌入 (根据词义将词转换为数字) 为概念词典创建一个“质心”或平均含义,然后将文本与该词典进行比较。

然而,这些方法有一个致命缺陷: 它们忽略了 语境 (Context)

在文言文中,语境就是一切。一个字的含义完全取决于它周围的字。此外,像“气节”或“孝道”这样的心理构念 (Constructs) 是复杂的,它们通过句子和故事来表达,而不仅仅是孤立的关键词。

解决方案: 语境化构念表征 (CCR)

研究人员提出了一种专门适用于历史分析的新流程: CCR 。 与单独考察词汇的字典方法不同,CCR 使用 基于 Transformer 的语言模型 (如 BERT) 来生成整个句子或段落的嵌入 (Embeddings) 。

该流程解决了两大巨大挑战:

  1. 问卷问题: 有效的心理学调查问卷通常是现代英语版本。我们如何将它们应用于文言文?
  2. 数据问题: 并没有用于训练 AI 模型的“文言文心理学”标注数据集。

让我们看看研究人员是如何解决这些问题的,如下面的流程概览图所示。

该图展示了文言文的跨语言问卷转换和语境化构念表征的流程。

挑战 1: 跨语言问卷转换

心理学家花了几十年时间来验证问卷 (例如,测量个人主义与集体主义) 。这些通常是简单的英语陈述,比如“我大部分时间依靠自己”。

直接将这些翻译成文言文往往会导致措辞生硬,不符合历史文风。研究人员设计了一个巧妙的变通方法,如上图右侧所示:

  1. 输入: 一个英语问卷条目。
  2. 引语推荐 (Quote Recommendation) : 他们没有直接翻译,而是使用了一个名为 “QuoteR” 的模型来寻找带有相同语义的 现存历史文本引语
  3. 人工筛选: 专家审查这些引语,确保它们符合心理学构念。

例如,一个关于“遵守规则”的英语条目可能会匹配到战国时期法家文本中的一句真实引语。这确保了我们用来测量文本的“尺子”在语言上是原汁原味的。

挑战 2: 间接监督对比学习

第二个挑战是模型本身。现成的模型如 bert-ancient-chinese 擅长通用语言,但不擅长理解心理学上的细微差别。为了解决这个问题,模型需要在相关数据上进行“微调” (进一步训练) 。

但是去哪里找标注好的古代心理学数据集呢?那就自己构建一个。

研究人员编纂了 中国历史心理学语料库 (C-HI-PSY) 。 他们从历史著作中提取了超过 21,000 个段落。但他们仍然缺乏标签——没有人给这些段落打上“高道德感”或“低神经质”的标签。

“伪真值 (Pseudo Ground Truth) ”技巧

作者利用了章节或文章的 标题 。 在文言文写作中,标题通常是对所讨论的道德价值观的总结 (例如,标题为“孝弟”的章节) 。

如果两个段落来自标题语义相似的章节,那么这两个段落本身在语义上也应该是相似的。这种假设允许研究人员在无需人工标注的情况下创建“伪真值”标签。

该图展示了用于对比学习的三元组采样流程。

如图 3 所示,该过程如下:

  1. 标题嵌入: 使用词向量模型来验证标题 A 是否与标题 B 相似。
  2. 三元组采样 (Triplet Sampling) : 选择三个文本:
  • 锚点 (\(s_A\)): 目标段落。
  • 正样本 (\(s^+\)): 来自标题非常相似的另一个段落。
  • 负样本 (\(s^-\)): 来自标题非常不同的段落。
  1. 对比学习 (Contrastive Learning) : 训练模型在向量空间中拉近锚点与正样本的距离,同时推远负样本。

采样数学原理

准确地说,正样本对是通过高相似度阈值 (\(\delta^+\)) 定义的,而负样本对是通过低阈值 (\(\delta^-\)) 定义的。

正样本对集合定义为:

正样本对采样公式

负样本对集合定义为:

负样本对采样公式

困难采样 vs. 随机采样

在选择三元组样本时,研究人员面临一个选择。他们应该选择“最难”的例子 (例如,模型目前认为非常不同的一对正样本) 来迫使模型学得更快吗?还是仅仅随机选择?

通常,在机器学习中,“困难采样 (Hard Sampling) ”更好。令人惊讶的是,在这种情况下, 随机采样效果更好

采样方法和阈值带来的性能变化。

如图 4 所示,随机采样 (橙色线) 的相关性得分始终高于困难采样 (蓝色线) 。

为什么? 因为“伪真值”的存在。由于标签是基于标题的,它们并不完美。一篇关于“忠诚”的章节中的段落实际上可能是在谈论“地理”。困难采样倾向于聚焦这些带有噪声的、标记错误的样本,从而混淆了模型。随机采样对这种噪声具有更强的鲁棒性。

损失函数

最后,使用 三元组损失 (Triplet Loss) 来训练模型。这个数学函数会惩罚模型,如果锚点与正样本之间的距离没有显著小于锚点与负样本之间的距离。

三元组损失函数公式

这里,\(\mathcal{D}\) 代表向量之间的距离。目标是最小化这种损失,有效地组织 AI 的“思维”以理解文言文中的心理学概念。

实验与结果

这个复杂的流程真的有效吗?研究人员将微调后的 CCR 模型与以下方法进行了对比测试:

  1. DDR: 传统的基于词典的词嵌入方法。
  2. Prompting (提示工程) : 使用 GPT-3.5 和 GPT-4 (少样本提示) 直接分析文本。

他们评估了三个任务的性能:

  • 语义文本相似度 (STS): 模型能否分辨两个文本是否讨论相同的价值观?
  • 问卷条目分类 (QIC): 模型能否将句子归类到正确的心理学领域 (如集体主义) ?
  • 心理测量 (PM): 模型能否准确地在心理学量表上给文本打分?

胜利的雷达图

结果是决定性的。

比较 DDR、GPT-4 和 CCR 三种模型性能的雷达图。

在图 1 中,红线 (CCR) 包围了其他线条。它显着优于传统的 DDR 方法 (绿色) ,而且令人印象深刻的是,它在几乎所有指标上都击败了 GPT-4 (蓝色) 。这突显出,虽然大语言模型很强大,但在特定任务上,经过历史数据微调的小型专用模型仍然可以更胜一筹。

详细性能表现

让我们更仔细地看看微调带来的提升。

在 C-HI-PSY 测试集上的三个任务中使用 CCR 方法的模型性能比较。

图 5 显示了使用原始预训练模型 (橙色) 和微调后的 CCR 模型 (浅蓝色) 之间的差异。几乎在所有情况下——尤其是语义文本相似度任务——微调过程都带来了巨大的提升。模型从仅仅理解“汉字”转变为理解“历史概念”。

数值数据进一步支持了这一点。观察下面的表 2,我们可以看到 CCR 方法 (使用基于 BERT 的模型) 在相似度任务中达到了 0.30–0.53 范围内的皮尔逊相关系数,而标准词嵌入 (DDR) 则在零附近挣扎。

表 2: 使用 DDR、大语言模型提示和 CCR 三种方法在测试集上的性能表现。

历史基准测试: 宋代变法

验证这些模型很棘手。我们没有关于古代作者 真正 感受的基准真值。为了解决这个问题,作者寻找了一个公众态度已知的历史事件: 王安石变法 (11世纪)

这是宋代的一次重大政治改革。历史学家已经手动记录了哪些官员支持改革,哪些反对。

假设: 政治心理学理论认为, 传统主义 (Traditionalism)权威 (Authority) 意识强的人通常抵制变革。因此,反对改革的官员在他们的著作中应该在这些特征上得分更高。

测试: 研究人员对 137 位宋代官员的著作运行了他们的 CCR 流程,以测量他们的“传统主义”和“权威”水平。

结果:

传统主义、权威与官员变法态度之间的相关性。

图 6 中的散点图证实了这一理论。存在统计学上显著的负相关。

  • X 轴代表对改革的支持度 (0 到 1) 。
  • Y 轴代表 CCR 生成的传统主义/权威得分。

随着线条向下倾斜,这表明 那些写作中传统主义/权威得分较高的官员,确实更不可能支持改革。

表 3: 基于 CCR 的道德价值观测量与官员实际变法态度之间的斯皮尔曼相关性。

表 3 以极高的统计显著性 (\(p < .001\)) 证实了这一点。这一外部验证证明,CCR 流程不仅仅是在寻找语言模式;它准确地识别了与现实世界历史行为相对应的心理信号。

结论

这篇题为 “Surveying the Dead Minds” 的论文代表了数字人文领域的一次重大飞跃。通过结合心理测量学的专家知识和最先进的 NLP 技术,研究人员创造了一种类似时光机的工具。

给学生和研究人员的关键要点:

  1. 语境为王: 从字数统计 (DDR) 转向句子嵌入 (CCR) 对于捕捉文言文等复杂语言的细微差别至关重要。
  2. 数据的创造性使用: 当不存在标注数据时,你可以创造它。将标题用作“伪真值”是一种巧妙的启发式方法,实现了强大的对比学习。
  3. 专精胜过通用: 在这个特定领域,经过微调的 BERT 模型击败了强大的 GPT-4,证明了更大并不总是更好——更好的训练数据才是关键。

这项工作为定量的“历史心理学”打开了大门,使我们能够跨越数千年的历史来测试关于人性的理论,有效地让“已逝的思想”再次向我们诉说。