用 AI 解码宪法：深入探讨历史含义与数据质量

美国宪法是历史上受到最严格审查的文件之一。几个世纪以来，法官、律师和历史学家一直在争论其措辞的确切含义。近几十年来，一种被称为原旨主义 (Originalism) 的法律理论——即宪法应根据其颁布时的原始公众含义进行解释——在美国最高法院获得了巨大的关注。

但是，我们如何知道一个词在 1787 年的确切含义呢？

传统上，学者们依赖那个时代的字典或信件和小册子中的轶事证据。然而，一个新的领域已经开启: 语料库语言学 (Corpus Linguistics) 。通过分析海量的历史文本数据库，研究人员希望通过实证方法确定“普通含义”。这项工作的主要数据集是建国时期美式英语语料库 (Corpus of Founding Era American English, COFEA) 。

在论文《Meaning Variation and Data Quality in the Corpus of Founding Era American English》中，研究员 Dallas Card 对这一做法进行了批判性的计算分析。这项研究不仅仅是统计词频，而是利用现代自然语言处理 (NLP) 技术——特别是像 BERT 这样的掩码语言模型 (MLMs) ——来量化含义随时间的变化，以及建国时期“法律”语言与“通俗”语言之间的差异。同样重要的是，该论文对数据本身进行了严格的审计，揭示出我们所依赖的数字历史比我们想象的要混乱得多。

在这篇博文中，我们将梳理这项研究的背景，剖析用于追踪语义变化的高级 NLP 方法，并分析那些揭示宪法语言面貌的研究结果。

第一部分: 数据问题

什么是 COFEA？

要理解这项分析，我们首先需要了解数据集。建国时期美式英语语料库 (COFEA) 是 18 世纪中后期文献的庞大集合。它的创建专门是为了帮助法律学者评估历史含义。

COFEA 不是单一的整体；它由六个不同的子集组成:

EVANS: 书籍、小册子和大幅传单 (代表“通俗”印刷品) 。
FOUNDERS: 国父们的信件和文件 (非正式的精英语言) 。
HEIN: 法律法规和文件 (正式的法律语言) 。
ELLIOTS: 各州关于宪法辩论的记录。
STATUTES: 国会颁布的法律。
FARRANDS: 制宪会议记录。

如下图所示，这些集合中可用文本的数量随时间变化很大。

图 1: 构成 COFEA 的六个集合每年的 token 数量。灰色带表示本文研究的时间段，虚线显示了美国宪法编写的年份。

图 1 突出了一个挑战: 虽然像 EVANS (通俗印刷品) 这样的集合具有稳定的覆盖率，但像 STATUTES 或 ELLIOTS 这样的集合则高度集中在特定日期。研究人员将分析重点放在 1760 年到 1800 年 (灰色带) 这一时期，以捕捉建国时期相关的语言环境。

“脏数据”的现实检验

在训练任何花哨的 AI 模型之前，研究人员对数据进行了“体检”。在数字人文和 NLP 领域, 光学字符识别 (OCR) 是将扫描的旧纸质文档图像转换为机器可读文本的过程。

18 世纪的印刷品对 OCR 来说是出了名的困难。纸张质量通常很差，墨水会洇开，排版也各不相同——最显著的是“长 s” (看起来像“f”) 。

为了衡量文本质量，研究人员根据一部综合字典 (1913 年版韦氏词典，增加了人名和地名) 检查了文档的词汇。如果文档中很大比例的单词都能在字典中找到，那么 OCR 的质量可能很好。如果字典覆盖率很低，那么文档可能充满了乱码。

图 2: 通过增强版韦氏 1913 年词典的覆盖率衡量的各语料库 OCR 质量。每个点代表一个文档。

图 2 显示的结果揭示了一个令人不安的差异。包含关键法律文件的 HEIN 集合 (蓝线) ，其字典覆盖率始终低于 EVANS 或 FOUNDERS 等其他集合。

为什么 HEIN 的得分如此之低？仔细观察原始文本就会发现罪魁祸首: “长 s”。现代 OCR 引擎经常将古老的“ſ”误认为是“f”或“t”。

表 6: HEIN 中术语“shall”的常见拼写错误，说明了 OCR 错误的普遍性。

如表 6 所示，“shall” (应/将) ——法律写作中的一个关键情态动词——成千上万次地显示为“fhall”、“thall”甚至“fliall”。

这为什么重要: 法律学者经常通过执行关键字搜索 (例如，搜索“bear arms”的每个实例) 来使用 COFEA。如果数据中充斥着“fhall”而不是“shall”，或者“juffice”而不是“justice”，简单的关键字搜索将遗漏大量相关证据，可能会歪曲法律论点。

研究人员还使用另一种称为困惑度 (perplexity) 的指标 (字符级语言模型对文本感到“惊讶”的程度) 验证了这一点。

图 4: 使用三元字符语言模型进行的 OCR 质量评估。

图 4 证实了基于字典的发现。HEIN 集合 (蓝线) 在整体上具有更高的困惑度 (表明质量更差) 。FOUNDERS 集合也显示出高困惑度，但原因不同: 那些文件是充满了缩写、速记和列表的信件，这对标准语言模型来说看起来很“奇怪”，但实际上是准确的转录。

第二部分: 方法论

超越词频统计: 掩码语言模型

一旦评估了数据质量 (并注明了注意事项) ，研究人员就转向了核心任务: 衡量含义。

传统的语料库语言学通常依赖搭配 (collocations) ——观察哪些词出现在目标词旁边。例如，如果“bank”出现在“river”附近，它意味着河岸；如果它出现在“money”附近，它意味着银行。

本文采用了更先进的方法，使用掩码语言模型 (MLMs) , 特别是 BERT。

工作原理: BERT 在海量文本上进行训练以预测缺失的单词。如果你给 BERT 这个句子:

“The soldier loaded his [MASK].” (士兵装填了他的 [MASK]。)

BERT 可能会预测“musket” (滑膛枪) 、“gun” (枪) 或“rifle” (步枪) 。

研究人员意识到，这些预测的分布 充当了该词在特定上下文中含义的指纹。

为了衡量像“arms” (武器) 或“commerce” (商业) 这样的词的含义是如何变化的:

他们在建国时期语料库 (COFEA) 中找到包含该词的句子。
他们掩盖该词 (将其替换为 [MASK]) 。
他们要求模型预测前 10 个替代词。
他们对现代 (使用当代美式英语语料库，或 COCA) 重复此过程。

如果 1787 年用法的替代词列表与 2024 年用法的列表截然不同，则说明含义发生了变化。

度量标准: Jensen-Shannon 散度

为了量化“1787 年替代词”与“2024 年替代词”之间的差异，研究人员使用了Jensen-Shannon 散度 (JSD) 这一指标。

JSD = 0: 分布完全相同 (该词意味着完全相同的事物) 。
JSD = 1: 分布完全不同 (该词经历了彻底的语义转变) 。

第三部分: 历时变化 (过去与现在)

第一个主要实验比较了建国时期 (1760–1800) 与现代英语 (1990–2017) 的语言。

结果证实语言是流动的。宪法中发现的许多词汇都经历了剧烈的语义转变。

表 7: 从建国时期到现代含义变化最大的宪法术语。

表 7 提供了一些语义漂移的惊人例子:

Domestic Violence (国内暴乱/家庭暴力) :
*建国时期替代词: * invasion (入侵) , insurrection (叛乱) , violence (暴力) , invasions (入侵) 。
*现代替代词: * violence (暴力) , abuse (虐待) , rape (强奸) , crime (犯罪) , assault (袭击) 。
*洞察: * 在 1787 年，“domestic violence”指的是内部政治起义或暴乱 (想想谢司起义) 。今天，它几乎专门指亲密伴侣暴力。
Captures (捕获/拍摄) :
*建国时期: * prizes (战利品) , seizures (扣押) (指在战争中捕获船只或货物) 。
*现代: * reflects (反映) , shows (展示) , represents (表现) (指数据或图像，例如“照片捕捉到了这一刻”) 。
Quartered (驻扎/四分) :
*建国时期: * stationed (驻扎) , lodged (寄宿) (士兵住在房子里) 。
*现代: * sliced (切片) , chopped (剁碎) (将某物切成四份) 。

这些例子强烈警告我们，不要假设现代定义适用于 18 世纪的文本。

宪法的变化比普通语言更多吗？

研究人员提出的一个有趣问题是，宪法的特定词汇是比普通英语单词更稳定还是更不稳定。

他们将“宪法词汇”与一组随机背景术语进行了比较。他们还控制了频率，因为罕见的词往往具有更不稳定的含义测量值。

图 5: 建国时期和现代之间含义的变化与两个语料库中词频的对比。

图 5 在 y 轴上绘制了含义变化 (JSD) ，在 x 轴上绘制了词频。

橙色点: 宪法中的术语。
蓝色点: 随机背景术语。

回归分析 (图中的表 8) 显示了一个微小但具有统计学意义的结果: 宪法术语的含义变化略多于随机背景术语。 这可能是因为宪法侧重于治理、军事和法律——自 1787 年以来，这些领域及其相关技术已经发生了巨大的演变。

第四部分: 共时变异 (法律与通俗)

原旨主义中最大的争论之一是，宪法是用“法律术语” (律所理解的专业术语) 还是“普通语言” (公众理解的语言) 写成的。

为了测试这一点，研究人员比较了建国时期内部的含义 (共时分析) 。他们将 COFEA 分为两类:

法律来源: 法规、会议记录 (Farrands) 、辩论 (Elliots) 和 Hein。
通俗来源: Evans (小册子/书籍) 和宾夕法尼亚公报。

频率分析

首先，他们查看了词频。宪法词汇在法律文本中更常见吗？

图 3: 总体而言，宪法术语在法律来源中比其他来源更常见。

图 3 将单词投射到一个三角形 (单纯形) 上。

顶角: 法律来源。
右下角: 通俗来源。
左下角: 国父们的私人文件。

热图显示略微偏向顶部。虽然大多数词汇在所有体裁中都很常用，但宪法的词汇与专业法律文件的重叠频率高于通俗印刷品或私人信件。

含义分析

接下来，他们应用 BERT 替换方法来查看单词在法律与通俗文档中是否意味着不同的东西。

总的来说，1787 年不同来源之间的变异远低于随时间 (1787 年对 2024 年) 的变异。然而，一些词确实显示出明显的“法律”与“通俗”义项。

表 10: COFEA 中法律来源和通俗来源之间含义差异最大的宪法术语。

表 10 突出了这些分歧:

Tender (偿付/温柔) :
*法律含义: * Payment (支付) , currency (货币) , money (钱) (“法定货币/Legal Tender”) 。
*通俗含义: * Kind (仁慈) , soft (柔软) , generous (慷慨) (“温柔的心/Tender heart”) 。
Dock (船坞/码头) :
*法律含义: * Ship (船) , navy (海军) , naval (海军的) 。
*通俗含义: * Market (市场) , street (街道) , water (水) (物理场所) 。
Resignation (辞职/顺从) :
*法律含义: * Removal (免职) , appointment (任命) (政治职位) 。
*通俗含义: * Submission (屈服) , patience (耐心) (情绪状态) 。

宪法的偏向

最后，研究人员问道: 当这些特定词汇出现在宪法中时，使用的是哪种含义？“法律”义项还是“通俗”义项？

通过使用一种方法检查宪法特定上下文与两个来源领域的重叠，他们对术语进行了分类 (表 10 中的“Lean”列) 。

L (Legal Lean - 偏向法律): 宪法中的用法与法律文件一致。
P (Popular Lean - 偏向通俗): 用法与通俗文件一致。
I (Indeterminate - 不确定): 模棱两可。

结果: 在法律和通俗用法差异最大的前 40 个词中, 26 个偏向于专业的法律含义 , 而只有 2 个偏向通俗 (且这两个很可能是 OCR 错误) 。

这提供了提示性证据，表明宪法在很大程度上依赖于专业的法律词汇，而不是普通白话的纯粹“普通含义”。

第五部分: 结论与启示

这篇研究论文提供了一个引人入胜的案例研究，展示了现代数据科学如何与历史和法律互动。它将法律解释领域从“挑选”字典定义转向了可重复的定量分析。

给学生的主要启示:

数据卫生至关重要: 你不能盲目相信数据集。在 HEIN 语料库中发现 OCR 错误 (如用“fhall”代替“shall”) 是一个严重的警告。如果你分析脏数据，你的历史结论将是错误的。
语境就是一切: 单词没有静态的定义。1787 年的“Domestic violence”意味着叛乱，而不是家庭虐待。基于 BERT 的方法允许我们动态地捕捉这种语境，而不是依赖静态定义。
“普通含义”的迷思: 分析表明，宪法并不一定是用“人民的语言”写成的。它的词汇与那个时代的专业法律文本更为一致。
敏感性与规模: 虽然这些计算方法允许我们一次分析数百万个单词 (规模) ，但它们可能会错过历史学家阅读单封信件时可能捕捉到的细微差别 (敏感性) 。最好的方法可能是结合两者。

通过使用掩码语言模型，作者为法律学者提供了一个新的工具包。虽然 AI 不会解决关于原旨主义的争论，但它提供了一种方法来事实核查我们对过去的假设，确保当我们谈论“原始含义”时，我们有证据支持，而不仅仅是直觉。

第一部分: 数据问题#

什么是 COFEA？#

“脏数据”的现实检验#

第二部分: 方法论#

超越词频统计: 掩码语言模型#

度量标准: Jensen-Shannon 散度#

第三部分: 历时变化 (过去与现在)#

宪法的变化比普通语言更多吗？#

第四部分: 共时变异 (法律与通俗)#

频率分析#

含义分析#

宪法的偏向#

第五部分: 结论与启示#

给学生的主要启示:#