GPT-4 或 LLaMA 等大语言模型 (LM) 令人印象深刻。它们能写诗、用 Python 编程,还能总结历史。但是,我们怎么知道它们是真正理解了一门语言的语法规则,还是仅仅在鹦鹉学舌般复述训练过程中死记硬背的统计模式?

当我们离开英语环境时,这个问题变得更加困难。例如,俄语是一种形态丰富的语言,具有灵活的词序和复杂的一致性规则。评估模型对俄语语法的掌握程度,需要的不仅仅是检查输出是否“看起来不错”。

RuBLiMP (Russian Benchmark of Linguistic Minimal Pairs,俄语语言学最小对立体基准) 应运而生。这个新基准由一个多元化的研究团队创建,引入了一种严格的方法来测试语言模型的语法能力。它超越了简单的模板,并解决了 AI 评估中“房间里的大象”: 数据污染问题。

在这篇深度文章中,我们将探索 RuBLiMP 是如何构建的,为什么“最小对立体”是语言学家的首选武器,以及该基准揭示了 AI 理解俄语能力的现状。

语法评估的难题

为了测试人类的语言能力,语言学家经常使用可接受性判断 。 你给一个人两个句子,问哪一个在母语者听起来是“正确”的。

例如:

  1. The cat is on the mat. (合乎语法的)
  2. *The cat are on the mat. (不合语法的)

这就构成了一个**最小对立体 (Minimal Pair) **。 这两个句子除了一个特定的特征外完全相同——在这个例子中,是主语 (“cat”) 和动词 (“is/are”) 之间的数的一致性。如果听众始终选择句子 #1,说明他们理解主谓一致性。

基准测试的格局

多年来,英语中此类评估的黄金标准一直是 **BLiMP **(Benchmark of Linguistic Minimal Pairs,语言学最小对立体基准) 。然而,对于英语以外的语言,资源一直很稀缺、规模较小或通过人工构造。

如下面的对比表所示,现有的中文 (CLiMP) 、日语 (JBLiMP) 或瑞典语 (DaLAJ) 等语言的基准在规模和方法上差异巨大。大多数依赖于手动模板或翻译,这可能导致句子听起来不自然。

表 1: 不同语言的语言学最小对立体基准比较。

在这项研究之前,俄语评估主要依赖于基于翻译的模板 (如 CLAMS) ,这通常无法捕捉到语言的细微差别。RuBLiMP 改变了这一游戏规则,它引入了来自真实开放文本语料库的 **45,000 个最小对立体 **, 涵盖了极广的语言现象。

RuBLiMP 方法: 从原始文本到最小对立体

研究人员并没有只是手写 90,000 个句子。相反,他们开发了一个复杂的四阶段流程,以生成反映俄语在现实中实际使用情况的高质量数据。

该过程如下图所示:

图 1: RuBLiMP 最小对立体生成方法概览。

1. 句子抽取与标注

该过程始于 **句子抽取 (a) **。 团队从各种来源抓取句子: 维基百科 (Wikipedia) 、维基新闻 (Wikinews) 和 Librusec (一个书籍合集) 。这确保了基准覆盖不同的领域,从百科全书式的描述到文学叙事。

接下来是 **句子标注 (b) **。 他们使用最先进的形态句法解析器来分析每个句子的结构,创建一个“依存树”。这张地图告诉系统,“cat”是主语,“slept”是动词,“in zero gravity”是修饰动词的介词短语。

2. 扰动 (破坏句子的艺术)

一旦系统理解了句子结构,它就会应用专家编写的规则来生成 **最小对立体 (c) **。 这就是语言学魔法发生的地方。系统故意“破坏”句子,以隔离特定的语法规则。

例如,如果有效句子是:

Vpervye kosmonavt spal v nevesomosti (“For the first time an astronaut slept in zero gravity”)

系统可能会生成一个不合语法的版本,方法是将名词“zero gravity”的格结尾更改为介词“in”之后语法上不允许的形式。

研究人员将这些扰动归类为三大语言学支柱:

  1. **形态学 (Morphology) : ** 违反构词规则 (例如,错误的前缀顺序) 。
  2. **句法 (Syntax) : ** 违反结构规则 (例如,主谓一致性、否定) 。
  3. **语义 (Semantics) : ** 违反基于意义的约束 (例如,使用的时态与时间副词相矛盾) 。

这些现象的分布非常全面,涵盖了归入 12 个高级类别的 45 个不同范式。

图 2: RuBLiMP 中的现象分布。

3. “反作弊”层: 去污染

这可以说是该论文最关键的贡献。大语言模型是在海量的互联网数据块上训练的。模型极有可能“知道”一个句子是正确的,仅仅是因为它在训练期间记住了那个确切的句子,而不是因为它理解语法。

为了解决这个问题,研究人员使用一种称为 MIN-K% PROB 的技术实施了 **最小对立体清洗 (d) **。

其逻辑非常迷人: 如果模型记住了训练样本,它将为该句子中的每个 token 分配高概率。如果它以前没见过这个句子,可能会有一些概率较低的“离群” token。通过过滤掉模型似乎已经记住的句子 (即“惊喜”因素太低的句子) ,RuBLiMP 确保评估测试的是 **泛化能力 **, 而不是记忆力。

下面的图表展示了这种过滤的影响。\(\Delta\)-分数代表使用去污染后性能的下降。正的下降值意味着模型在未过滤数据上依赖于记忆。

图 3: 每个 LM 和 K% 的 Delta 分数。

RuBLiMP 长什么样?

为了让你具体了解模型测试的内容,这里是所使用的具体范式的示例。你可以看到差异是多么细微——后缀中的一个字母变化或单词的轻微移动都可能使俄语句子不合语法。

表 6: RuBLiMP 中所有 45 个范式的示例。

例如,在 **论元结构 (Argument Structure) ** 下,基准测试模型是否知道有生命的主语 (如人) 在某些语境下可以与无生命的宾语互换,而在其他语境下则不行。在 **体 (Aspect) ** 下,它测试模型是否理解你不能将“完成体”动词 (暗示动作已完成) 与表示“很长时间”的词 (暗示持续时间) 一起使用。

实验: 人类与机器

研究人员评估了 25 个不同的语言模型,范围从单语俄语模型 (如 ruBERTruGPT) 到大型多语言模型 (如 XLM-RBLOOMLLaMA) 。他们还收集了俄语母语者的人类基线数据。

指标

模型使用 **困惑度 (perplexity) **(针对解码器模型) 或 **伪困惑度 (pseudo-perplexity) **(针对编码器模型) 进行评估。本质上,模型会看到这一对句子。如果它给合乎语法的句子分配的概率高于不合语法的句子,它就得一分。

用于这些计算的公式是 NLP 中的标准公式:

公式 1: 困惑度计算 公式 2: 伪困惑度计算

结果

结果描绘了一幅让 AI 感到挫败的画面。虽然模型已经取得了显著进步,但它们仍然落后于人类的直觉。

**1. 人类立于不败之地。 ** 人类在几乎所有范式中都取得了近乎完美的分数 (>95%) 。由自动化流程生成的句子经过了语言学家的验证 (见下表 2) ,结果显示非常可靠,合理的最小对立体占数据集的 94% 以上。

表 2: 按现象分类的合理最小对立体比例。

**2. 大并不总是更好。 ** 令人惊讶的是,巨大的模型并不总是优于较小的、专门的模型。例如,ruGPT-medium 的表现与 ruGPT-large 相似。专门的俄语模型在特定的俄语语法细微差别上通常优于像 mGPTBLOOM 这样的大型多语言模型。

**3. 什么是简单的,什么是困难的? **

  • **简单: ** 模型通常擅长 形态学 和 **一致性 **。 如果名词是复数,模型知道动词应该是复数。这可能是因为这些模式在训练数据中在各种局部语境下不断出现。
  • **困难: ** 模型在 语义结构关系 方面很挣扎。
  • *否定: * 模型无法区分否定代词的正确和错误用法 (例如,“He never goes” vs. “He ever goes”) 。
  • *时态: * 模型难以识别动词时态何时与时间副词相矛盾 (例如,“Yesterday he will go”) 。
  • *长距离依赖: * 当主语和动词被许多其他单词隔开时,模型会失去对关系的跟踪。

4. 长度效应 研究人员分析了句子长度如何影响准确性。有趣的是,随着句子变长,模型的表现通常会 提高。这似乎违反直觉 (更长的句子更复杂) ,但在这个基准中,较短的句子通常隔离了最困难的语义现象。

图 4: 按长度的七个五分位数分组的单语 LM 在 RuBLiMP 上的结果 (按领域) 。

多语言分析

团队还比较了多语言模型在不同语言中的表现,将 RuBLiMP 与英语 (BLiMP) 、中文 (CLiMP/SLING) 等基准一起使用。

发现是什么?** 没有一个模型能统御所有语言。 ** 一个模型可能精通英语句法,但在俄语或日语上的表现可能处于随机猜测的水平。这凸显了假设“多语言”模型在其支持的所有语言中同样称职的危险性。

表 11: 多语言实验的准确率分数。

结论

RuBLiMP 代表了我们在评估语言模型方面向前迈出的重要一步。通过摒弃简单的模板并直面数据污染问题,研究人员提供了一种工具,不仅告诉我们模型 是否 有效,还告诉我们它是 如何 理解语言的。

对于学生和研究人员来说,启示很清楚:

  1. **不要轻信损失曲线: ** 训练损失低的模型可能只是在死记硬背数据。去污染的基准测试至关重要。
  2. **语法尚未解决: ** 虽然 LLM 很流利,但它们仍然在努力掌握人类直觉能够领悟的结构和语义逻辑——尤其是在像俄语这样形态复杂的语言中。
  3. **语境很重要: ** 从真实书籍和文章中提取句子的方法,创造了比过去使用的合成句子更难、更现实的测试。

随着 AI 的不断进化,像 RuBLiMP 这样的基准测试充当了必要的“成绩单”,确保我们的机器不仅仅是在假装流利,而是真正获得了语言能力。