AI 的“Wug”测试: 大语言模型的学习方式像人类吗?

如果你上过语言学导论课,那你很可能对“Wug 测试”并不陌生。1958 年,Jean Berko Gleason 向孩子们展示了一张像鸟一样的生物图片,并说: “这是一只 wug 。 ”然后她展示了两只这样的生物,说道: “现在还有一只。一共有两只。这里有两只……?”孩子们正确地回答了“ wugs ”。

这个测试表明,儿童并非只是死记硬背单词;他们内化了抽象的语法规则 (比如加“s”表示复数) ,并将这些规则应用到从未听过的单词上。他们以惊人的效率做到这一点,通常是从间接证据——即非显式指令的上下文线索——中推断出规则。

今天,我们面临一个新的问题: 大语言模型 (LLM) 是否具备同样的能力?

像 GPT-4 和 Llama 这样的现代模型是在数万亿个 token 上训练出来的——这比人类儿童听到的数据量多达成千上万倍。然而,与人类相比,它们的数据效率却出奇地低。最近的一篇论文*《Can Language Models Induce Grammatical Knowledge from Indirect Evidence?》 (语言模型能否从间接证据中归纳出语法知识?) *研究了这一差异。通过让语言模型接受现代化、数字版本的 Wug 测试,研究人员探索了 AI 究竟是能真正从间接线索中进行泛化,还是仅仅依赖于死记硬背。

核心问题: 直接证据 vs. 间接证据

要理解人类与机器在学习上的差距,我们首先需要对学习方式进行分类。在语言习得理论中,证据通常分为两类:

  1. 直接证据 (Direct Evidence) : 你看到了具有特定单词的特定句子结构,并了解到这种特定的组合是有效的。
  2. 间接证据 (Indirect Evidence) : 你在一个语境中看到了某种句子结构,并推断该语法规则适用于其他语境,即使单词不同。

人类是利用间接证据的大师。如果你学到“The wug is eating (这只 wug 正在吃东西) ”,你可以推断出“The wug eats (这只 wug 吃东西) ”在语法上也是正确的,即使你从未听过后面这句话。你会分别推断名词“wug”和动词“eat”的属性并将它们重新组合。

研究人员假设,这种利用间接证据的能力是一种关键的“归纳偏置 (inductive bias) ”,正是它让人类能够如此高效地学习语言。为了测试语言模型是否具有这一特征,他们设计了 Wug 间接证据测试 (WIDET)

图 1: 证据的间接性。直接证据指的是与之前观察到的实例完全相同的实例。词汇间接证据针对相同的语言知识,但在词汇项上有所不同。句法和词汇间接证据在句法和词汇项上均有所不同。

如上图 1 所示,该研究区分了三个层级的证据:

  • 直接证据 (DE) : 模型在训练时看到的就是测试时会遇到的完全相同的句子 (例如,“wug loves himself”) 。
  • 词汇间接证据 (LexIE) : 模型看到相同的语法结构,但周围的单词不同 (例如,“wug is helping himself”) 。句法相同,但词汇变了。
  • 句法间接证据 (SynIE) : 模型在完全不同的句子结构中看到目标词 (wug) (例如,“wug helped his friend”) 。模型必须从完全不同的语境中推断出性别或及物性等属性。

方法论: 将“Wugs”注入矩阵

如何测试模型是否能学习一个它从未见过的单词?你自己创造一个。

研究人员采用了一个标准的预训练数据集 (英文维基百科) ,并注入了包含新造 token 的合成句子: <wug#n>。这确保了模型对该词没有任何先验知识。然后,他们在这个修改后的数据上训练了一个 BabyBERTa 模型 (RoBERTa 的一个更小、在发展心理学上更合理的版本) 。

关键变量是频率 。 他们以不同的比率注入这些“wug”句子——从 0 到 100 次观察——以此观察模型需要多少数据才能“学会”。

语言现象

团队针对七种不同的语言现象对模型进行了测试,以观察语法规则的类型是否有影响。这些现象包括:

  • 照应语一致性 (Anaphor Agreement) : 代词与主语的匹配 (例如,sheherself) 。
  • 及物性 (Transitivity) : 知道一个动词是否需要宾语。
  • 主谓一致性 (Subject-Verb Agreement) : 单复数匹配 (例如,The wugs run vs. The wug runs) 。

下表详细列出了用于训练 (输入) 和评估 (测试) 的具体句子结构。请注意 LexIESynIE 的训练实例与评估实例有何不同,这要求模型在逻辑上进行跨越。

表 1: 语言现象和实例。以 * 开头的句子是不符合语法的。

评估采用“最小对立体 (minimal pair) ”方法。模型会看到两个句子: 一个符合语法的和一个不符合语法的 (标有星号 *) 。如果模型给符合语法的句子分配了更高的概率,则视为“通过”测试。

结果: 关于低效的发现

实验结果揭示了直接记忆与真正泛化之间的鲜明对比。

研究人员追踪了随着“wug”观察次数从 0 增加到 100,模型的准确率变化情况。如果模型像人类一样学习,我们会期望它们能从间接证据 (LexIE 和 SynIE) 中迅速掌握规则。

然而,数据讲述了一个不同的故事。

图 2: 语言现象和证据的实验结果 (准确率;%) 。灰色点线表示在没有任何额外实例 (n = 0) 的预训练数据上训练的模型的得分。

让我们来解析图 2 中的图表:

  1. 直接证据 (蓝色线) : 不出所料,这种效果最好。当模型在训练中看到确切的句子时,其准确率迅速飙升。这就是死记硬背。
  2. 词汇间接证据 (橙色线) : 裂痕开始显现。尽管语法结构与测试句子完全相同 (只是单词不同) ,但模型的学习速度明显慢于直接证据。在某些情况下,如*及物动词 (Transitive) *,即使经过 100 次观察,它仍难以达到高准确率。
  3. 句法间接证据 (绿色线) : 这是最令人担忧的结果。在几乎所有类别中,从句法不同的语境进行泛化的效果都糟糕透顶。对于及物动词 (第一行中间) ,随着模型看到更多示例,表现实际上下降了。

“及物性”异常

为什么在 SynIE 设置下,及物动词的表现会下降?作者认为这揭示了 LLM 泛化方式的一个缺陷。

在及物性的 SynIE 训练数据中 (参见表 1) ,句子结构是: “every lion hunts what no prey can [wug]”。这里,[wug] 是一个动词。然而,从结构上看,它出现在句尾。在评估中,正确的结构是 “some trees [wug]ed the car”,其中 [wug] 后面跟着一个宾语。

模型可能采用了一种“线性启发式规则”——它学到 [wug] 出现在句尾,并假设它不能跟宾语。它未能学会层级语法规则 (即 [wug] 是一个及物动词) ,而是过度拟合了表面上的词序。这是一种典型的失败模式,被称为“线性泛化”,区别于人类使用的“层级泛化”。

深入探究: 距离与噪声的问题

关于模型为何挣扎的一个假设是“距离”。在像照应语性别一致性 (“The wug… has devoted herself) 这样的句子中,主语和反身代词被其他单词隔开了。

研究人员想知道: 在主语和代词之间增加更多单词 (距离) 或混淆性单词 (干扰项) ,是否会破坏模型的学习过程?

他们设计了一个更深入的分析,使用干扰类型 :

  • 干扰项 (Attractors) :wugherself 之间插入性别的名词 (例如,“The wug helping the man loves herself”) 。
  • 距离 (Distance) : 仅添加更多中性词以增加间隔。

表 3: 分析中使用的干扰类型和训练实例。<w> 对应 <wug#n>。

这项压力测试的结果具有启发性。

图 3: 更多间接实例的模型得分。

如图 3 所示,“干扰项”的存在 (特别是 AT2 , 它包含像“him”这样的异性代词) 导致学习过程极其不稳定。模型被中间的代词搞糊涂了,难以将“herself”链接回主语“wug”。

有趣的是,纯粹的距离 (DT1,DT2) 并不像主动干扰项那样具有破坏性。这表明模型并不是因为主语太远而忘记了它;而是因为一路上被其他潜在的 (但不正确的) 主语分心了。

“Wug”的生成方法重要吗?

对这项研究的一个合理批评是,在句子中插入像 <wug#n> 这样的 token 并不太自然。在原始的人类 Wug 测试中,这些单词听起来像真实的英语单词 (在语音上是合理的) 。

为了解决这个问题,作者在他们的“标签 (Tag) ”方法和“Wug”方法之间进行了比较,后者使用伪词生成器来创建可发音的假词 (如 blicknad) 。

表 4: 在不同 wug 创建方法的间接实例预训练数据上训练的模型计算出的得分。N 是观察次数。

表 4 显示了一些迷人的东西: 在“Wug”方法 (使用逼真的伪词) 中,模型在观察的情况下就达到了高准确率 (超过 80%) 。

为什么?因为分词器 (tokenizer) 将伪词分解为带有含义或看起来像英语复数 (例如,以 ’s’ 结尾) 的子词。模型通过利用现有的英语形态学知识进行了“作弊”。通过使用抽象的 <wug#n> 标签,研究人员成功地隔离了学习过程,证明他们的方法是对从零开始学习的更严格、更准确的测试。

结论: 数据效率差距

WIDET 实验的发现描绘了现代 AI 的复杂图景。虽然大语言模型能力惊人,但它们的学习机制在特定方面与人类认知存在根本差异:

  1. 间接证据的低效性: 人类能从不同的语境中迅速推断出规则,而语言模型则难以泛化,除非训练数据与测试数据非常相似 (直接证据) 。
  2. 表面层级的启发式规则: 及物性实验的失败表明,模型通常依赖简单的词序模式,而不是深层的语法结构。
  3. 易受干扰: 中间插入的单词 (干扰项) 很容易破坏模型连接主语和动词/代词的能力,阻碍了复杂句子的学习。

这篇论文凸显了未来研究的一个主要前沿。要构建像人类儿童一样高效学习的 AI,我们不能仅仅扩大数据规模。我们需要能够鼓励使用间接证据的架构和训练目标——让模型能够连接不同语境之间的点,而不仅仅是记住这些点本身。

在那之前,LLM 依然强大,但在语言的聪慧程度上,可能还不如一个通过 Wug 测试的学龄前儿童。