巴斯克语难题：AI 模型真的理解通用语法吗？

关于人工智能和语言的争论，往往被框定为“先天”与“后天”之争。一方是以诺姆·乔姆斯基 (Noam Chomsky) 等语言学家为代表的历史悠久的天赋论 (nativist) 观点。该观点认为人类生来就具有一种内在的“通用语法” (Universal Grammar) ——这是一套硬连线的约束条件，使儿童能够从相对较少的数据中学习复杂的语言。另一方是目前主导深度学习领域的经验主义 (empiricist) 观点。该观点认为，通用学习算法 (如 Transformer) ，只要给予足够的数据，就能从头开始学习任何东西，包括复杂的句法规则，而无需任何预设的语法知识。

如果像 Gemini 或 GPT-4 这样的大型语言模型 (LLM) 纯粹通过统计模式匹配就能掌握人类语言，那么这将给通用语法的论点带来沉重打击。这表明句法并不是一种生物硬件特征，而是一种可以从零开始习得的统计模式。

但 LLM 真的掌握了这些规则吗？还是它们只是记住了最流行语言中最频繁出现的模式？

谷歌 DeepMind 和约翰霍普金斯大学的研究人员最近发表了一篇题为 “Do LLMs learn a true syntactic universal?” (LLM 是否习得了真正的句法普遍性？) 的论文，对此进行了测试。他们研究了现代 LLM 是否遵守一种特定的、抽象的语言学法则，即 终元统辖终元条件 (Final-over-Final Condition，简称 FOFC) 。

结果令人着迷，并揭示了“AI 能够学习一切”这一叙事中的一道显着裂痕。虽然像 Gemini Pro 这样的模型在高资源语言 (如德语和俄语) 上表现出色，但在巴斯克语 (Basque) 上的测试却遭遇了惨败。这一失败表明，虽然 AI 可以在数十亿个示例的基础上模仿语法，但它实际上并没有习得支配人类语言的普遍原则。

背景: 句子的架构

要理解这个实验，我们首先需要了解被测试的语言规则。语言不仅仅是一串单词；它是一个由嵌套短语组成的层级结构。

在语言学中，短语有一个“中心语 (head) ”——即决定短语性质的主要词汇 (如动词短语中的动词) 。关于把这个中心语放在哪里，语言通常分为两类:

中心语前置 (Head-Initial) : 中心语出现在其补足语 (complements) 之前。

*示例 (英语) : * “eat an apple” (吃苹果) 。动词 (中心语) 在宾语之前。

中心语后置 (Head-Final) : 中心语出现在其补足语之后。

*示例 (日语) : * “ringo-o taberu” (苹果吃) 。动词在最后。

许多语言是一致的。英语是一致的中心语前置；日语是一致的中心语后置。然而，许多语言是“混合的”。它们可能对动词短语 (VP) 使用一种顺序，而对时态短语 (TP) 或其他结构使用另一种顺序。

终元统辖终元条件 (FOFC)

终元统辖终元条件是一个被提出的语言普遍性假设。它并不要求一种语言必须纯粹是中心语前置或后置的。它允许混合，但它对如何混合施加了特定的限制。

这条规则本质上是说: 你不能让一个“中心语后置”的短语架在一个“中心语前置”的短语之上。

如果我们把句子想象成树状结构，我们可以看树的“主干”。

在“中心语后置”结构之上有一个“中心语前置”结构是可以的。
保持一致 (前置叠前置，或后置叠后置) 也是可以的。
不可以的是 : 在一个“中心语前置”结构之上放置一个“中心语后置”结构。

这是一个抽象的约束。它要求说话者 (或模型) 理解“上层短语” (父节点) 和“下层短语” (子节点) 之间的层级关系。

图 1: 终元统辖终元条件禁止中心语后置的上层短语拥有中心语前置的下层短语。

请看上面的图 1。这个网格展示了堆叠两个短语 (标记为 \(\alpha\) 和 \(\beta\)) 的四种可能组合。

1a 和 1b 是“和谐的” (顺序一致) 。这些是安全的。
1c (前置统辖后置) 是“不和谐”但被允许的。这种情况出现在芬兰语等语言中。
1d (后置统辖前置) 是灰色的格子。这是被禁止的结构。根据 FOFC 假说，人类语言根本不会生成这种结构。

研究人员试图回答两个问题:

FOFC 在人类语言中真的是事实吗？ (语料库研究)
LLM 是否遵守这条规则，即使是在它们没有见过数十亿次的语言中？ (LLM 评估)

第一部分: 证明规则 (语料库研究)

在测试 AI 之前，作者必须验证 FOFC 确实是自然语言数据中的普遍趋势。如果人类语料库中充满了 FOFC 违规，那么这就不是对 AI 的有效测试。

研究人员分析了 C4 (Colossal Clean Crawled Corpus) 数据集中的大量文本。他们专注于理论上可能出现违规的“混合中心语方向”语言: 匈牙利语、巴斯克语、俄语、塞尔维亚语和德语。

他们使用依存句法分析 (将句子转换为结构树) 来寻找特定的被禁止配置: 一个中心语后置的助动词短语统辖一个中心语前置的动词短语。

结果是压倒性的。

表 1: 显示显著遵守 FOFC 的语料库研究结果。

如表 1 所示，卡方 (\(\chi^2\)) 值非常巨大。这个统计测试衡量的是观察到的数据与我们预期的随机数据有多大偏差。极高的数值表明，缺乏 FOFC 违规并不是巧合——在这些语言中存在着避免这种被禁止结构的强大压力。

让我们更仔细地看看特定的语言。

匈牙利语证据

匈牙利语是一种复杂的语言，允许相当大的语序灵活性，使其成为测试的最佳候选者。

表 2: 匈牙利语双短语配置。

在表 2 中，我们看到了不同结构的计数。列 V < O 代表中心语前置的动词短语，而 O < V 代表中心语后置。行代表助动词 (Aux) 和动词短语 (VP) 的顺序。

被禁止的单元格 (右上) : 这里我们有一个中心语前置的 VP (V < O) 位于一个中心语后置的 Aux 内部 (VP < Aux)。
在数百万个句子中，这种结构仅出现了 320 次。

当以母语为专家的语言学家分析这 320 个“违规”案例时，他们发现几乎所有的案例都是解析器错误——即软件分析句子时犯的错误——而不是真正的语法结构。FOFC 依然成立。

巴斯克语证据

巴斯克语是一种孤立语言——它与任何已知的现存语言都没有亲缘关系。它也是本文的关键测试案例，因为与英语或俄语相比，它在互联网上的训练数据要少得多。

表 3: 巴斯克语双短语配置。

表 3 显示了巴斯克语的数据。再次观察计数。被禁止的配置 (右上) 有 1,632 个实例，而和谐结构有近 710 万个实例。同样，专家审查证实这些“违规”大多是句子切分或标注的错误。

语料库研究证实，人类，无论讲的是斯拉夫语族、乌拉尔语系还是孤立语言，都隐含地遵守终元统辖终元条件。

第二部分: 测试机器

既然规则已经确立，研究人员转向了大型语言模型: Gemini Pro 和 PaLM 。

这里的方法很巧妙。你不能简单地问 LLM “这个句子合乎语法吗？”，因为模型经常会产生幻觉或在语言学术语上挣扎。取而代之的是，研究人员使用“最小对立体 (minimal pairs) ”进行了针对性句法评估 。

制造合成违规

为了测试模型是否“感觉”到了违规，研究人员从数据集中选取真实的、合乎语法的句子，并应用了一个树变换脚本。该脚本机械地旋转句子树的分支，强行将其变为被禁止的“后置统辖前置” (1d) 配置。

图 2 和 3: FOFC 对德语可接受性的影响及变换过程。

图 3 (底部) 可视化了这种变换。他们取一个有效的句子结构 (如 1a 或 1c) ，扭曲其依存树以创建被禁止的 1d 结构。

然后，他们将原始 (合乎语法的) 句子和扭曲 (不合语法的) 句子都输入给 LLM。他们测量分配给每个句子的对数概率 (log-probability) 。

如果 LLM 习得了这种普遍性，它应该给有效的句子分配更高的概率 (更低的“困惑度”) 。
它应该给被禁止的 1d 结构分配更低的概率 (更高的惩罚) 。

使用的度量标准是 惩罚 (Penalty) :

\[ \text{Penalty} = \log P(\text{有效句子}) - \log P(\text{被禁止句子}) \]

如果惩罚值大于 0，说明模型正确地偏好合乎语法的结构。如果接近 0 或为负，说明模型未能习得该约束。

结果: 巴斯克语的差距

结果揭示了高资源语言和低资源语言之间的鲜明鸿沟。

研究人员绘制了数千个句子对的惩罚分布图。在下图中，“通过”意味着钟形曲线向黄色虚线 (零点) 右侧移动。

图 4: Gemini Pro 和 PaLM 8B 的结果。

仔细看 图 4 。

德语、匈牙利语、俄语、塞尔维亚语: 对于 Gemini Pro 和 PaLM 8B，红色的均值线都稳稳地在右侧。分布明显为正。模型“知道”违反 FOFC 的句子是错误的。它们习得了句法。
巴斯克语: 看 Gemini Pro 的左上角图表。分布几乎完全以黄色线为中心 (均值 = -2.3) 。模型对此无动于衷。事实上，它经常更偏好不合语法的、被禁止的结构！PaLM 8B (左下角) 的表现稍好，但大部分分布仍然处于负值或接近零的区域。

这是确凿的证据。模型并没有将 FOFC 作为一条普遍规则来习得。如果它们习得了，它们应该像应用于德语那样将其应用于巴斯克语。相反，它们习得了德语、俄语和匈牙利语的特定统计模式，因为它们已经看过这些语言的数十亿个示例。

巴斯克语由于数据较少，未能提供足够的统计信号让模型从头推导出这条规则。

为什么巴斯克语会失败？

作者探讨了模型在巴斯克语上失败的两个主要假设: 模型规模和数据规模 。

是模型太小了吗？

深度学习中有一个理论叫“缩放定律 (scaling laws) ”——即涌现能力 (如逻辑或复杂句法) 只有在模型变得足够大时才会出现。

研究人员通过运行不同规模的 PaLM 模型来测试这一点，从 80 亿参数增加到 5400 亿参数。

图 5: 不同规模 PaLM 模型的结果。

如图 5 所示，扩大模型规模确实有帮助。与 8B 模型相比，540B 参数模型 (右列) 将巴斯克语的分布稍稍向右推了一些。然而，它并没有解决问题。即便是巨大的 540B 模型，在处理巴斯克语时，比起较小的 8B 模型处理德语时的轻松自如，仍然显得非常吃力。单纯的计算能力并不能替代对规则的理解。

是训练数据的问题吗？

这似乎是决定性因素。作者列出了相关语言的训练数据规模。

表 6: PaLM 训练数据的大小。

表 6 将数字放在了视角中:

德语: 约 260 亿 Token。
俄语: 约 40 亿 Token。
巴斯克语: 1.53 亿 Token。

神经网络要从原始文本中“归纳”出像 FOFC 这样复杂的句法规则，需要一个数据阈值。德语远高于这个阈值。拥有 1.53 亿 Token 的巴斯克语则低于该阈值。

有趣的是, 塞尔维亚语拥有大约 3.73 亿 Token——并没有比巴斯克语多多少——但模型在塞尔维亚语上很好地习得了 FOFC。为什么？作者认为这是由于迁移学习 。塞尔维亚语与克罗地亚语和波斯尼亚语非常相似。当结合在一起时，南斯拉夫语支提供了更大的句法相似数据池 (超过 10 亿 Token) 。

巴斯克语作为孤立语言，没有邻居可以帮助它。模型只能靠自己，而对于当前 LLM 这种“仅靠后天培养”的方法来说，1.53 亿 Token 不足以推导出终元统辖终元条件。

结论: 归纳偏置的必要性

这项研究为“LLM 是否习得了语言普遍性？”这一问题提供了一个微妙的答案。

答案是: 不，它们习得的是数据分布。

如果一种语言普遍性 (如 FOFC) 在训练数据中大量存在 (如德语) ，LLM 将完美地模拟它。但如果数据稀缺 (如巴斯克语) ，LLM 就无法概括出这条规则，即使这是一条适用于所有人类语言的规则。

这一发现至关重要，因为人类儿童不需要 260 亿个单词来学习巴斯克语句法。一个孩子在几年的时间里，用大约 1 亿个单词的“预算”就能学会母语。Gemini Pro 在一个 (1.53 亿 Token) 大致相当于人类发育经验规模的数据集上失败了，这表明 Transformer 的“白板”架构缺失了一些东西。

作者总结道，为了让 AI 真正达到人类水平的语言能力——特别是在低资源语言中——我们不能仅仅依赖于喂给它们更多的文本。我们可能需要重新评估天赋论的论点: 也许我们的模型，像人类儿童一样，需要归纳偏置 (inductive biases) 。它们可能需要架构上的约束，使它们倾向于学习树状结构和层级规则，而不仅仅是基于平面统计来预测下一个单词。

在此之前，LLM 仍然是令人印象深刻的统计模仿者，但它们还不是通用的语法学家。

背景: 句子的架构#

终元统辖终元条件 (FOFC)#

第一部分: 证明规则 (语料库研究)#

匈牙利语证据#

巴斯克语证据#

第二部分: 测试机器#

制造合成违规#

结果: 巴斯克语的差距#

为什么巴斯克语会失败？#

是模型太小了吗？#

是训练数据的问题吗？#

结论: 归纳偏置的必要性#