简介: AI 中的“刺激贫乏”问题
语言学和认知科学中最持久的争论之一围绕着一个简单的问题: 既然儿童听到的语音往往是杂乱、不完整且充满打断的,他们是如何如此迅速地学会复杂的语法规则的?
这个难题通常被称为“刺激贫乏” (Poverty of the Stimulus) ,它促使语言学家诺姆·乔姆斯基 (Noam Chomsky) 提出人类必须拥有一种先天的“层级偏置” (hierarchical bias) ——一种内置的神经框架,使我们倾向于将语言理解为树状结构,而不仅仅是单词的线性序列。
快进到人工智能的现代。我们现在拥有像 Transformer 这样处理海量文本的大型语言模型 (LLMs) 。然而,尽管它们流利顺畅,这些模型往往在儿童能毫不费力掌握的区别上挣扎: 即线性顺序 (单词的序列) 与层级结构 (语法树) 之间的区别。
当神经网络看到一个句子时,它是在理解语法,还是仅仅根据线性模式统计猜测下一个单词?
在一篇题为 “Semantic Training Signals Promote Hierarchical Syntactic Generalization in Transformers” (语义训练信号促进 Transformer 的层级句法泛化) 的引人入胜的论文中,研究人员 Aditya Yedetore 和 Najoung Kim 提出了一个新颖的假设。他们问道: 拼图缺失的那一块会是“意义” (Meaning) 吗?
儿童不仅仅是听到形式 (单词) ;他们感知意义 (周围的世界) 。这篇博客文章将探讨他们的研究,该研究表明,教 AI 理解语义 (意义) 可能是解锁真正句法 (语法) 泛化的关键,而无需硬编码的层级偏置。
背景: 线性与层级陷阱
为了理解这个问题,我们需要看一个语言学中的经典测试案例: 英语的是非问句构成 。
考虑这个陈述句: “The newt does sleep.” (这只蝾螈在睡觉。) 要将其变成问句,我们将助动词 “does” 移到前面: “Does the newt sleep?” (这只蝾螈在睡觉吗?)
如果一个机器学习模型仅在像这样的简单句子上进行训练,它可能会假设以下两条规则之一:
- 线性规则 (Linear Rule) : 将句子中出现的第一个助动词移到前面。
- 层级规则 (Hierarchical Rule) : 将主助动词 (结构上附着于主动词的那个) 移到前面。
对于简单句,这两条规则产生的结果是一样的。但是,当主语被一个引入了第二个助动词的关系从句修饰时,会发生什么呢?

如 Figure 1 所示,考虑这个句子: “The newt who does sleep does not swim.” (那只在睡觉的蝾螈并没有游泳。)
- 线性规则: 该规则会选取它看到的第一个 “does”。
- *结果: * “Does the newt who _ sleep doesn’t swim?” (错误)
- 层级规则: 该规则识别主动词 (“swim”) 并移动其助动词 (“doesn’t”) 。
- *结果: * “Doesn’t the newt who does sleep _ swim?” (正确)
仅在文本 (仅形式) 上训练的标准 Transformer 因“懒惰”而臭名昭著。它们通常会锁定线性规则,因为它在计算上更简单,且适用于大多数简单句子。研究人员着手观察,添加语义训练信号——教模型句子的实际含义——是否会推动模型采用正确的层级规则。
方法论: 在混合中加入意义
研究人员基于 McCoy 等人 (2020) 的语法设计了一个受控实验,使用合成数据集。他们为 Transformer 创建了两种截然不同的训练条件。
1. 仅形式 (Form Alone)
在这个设置中,模型的功能就像一个标准的序列到序列翻译器。它的任务是接收陈述句并输出相应的问句。
- 输入:
the newt does sleep . QUEST - 输出:
does the newt sleep ?
2. 形式与意义 (Form & Meaning)
在这里,模型有一个额外的工作。除了问句构成任务外,它还必须学会将陈述句翻译成其意义的逻辑表示。
- 输入:
the newt does sleep . TRANS - 输出:
Sleep ( ιx . Newt ( x ) )
通过强迫模型预测这种逻辑形式,研究人员假设模型将被迫处理句子的底层结构,而不仅仅是表面的词序。

Table 1 展示了数据分布。至关重要的是,训练数据 (白色和浅灰色单元格) 是模棱两可的;它同时支持线性规则和层级规则。模型从未在区分这两条规则的复杂“泛化”句子 (深灰色单元格) 上进行过显式训练。真正的测试仅在评估阶段进行: 当面对像 “The newt who does sleep doesn’t swim” 这样的复杂句子时,模型会移动正确的助动词吗?
用于“意义”任务的逻辑表示看起来像标准的逻辑语义学。例如:

这个公式表示: “The newt doesn’t see the yak.” (蝾螈没有看到牦牛。) 目标是看这种数学结构是否能帮助神经网络“看到”语言树。
实验 1: 意义的直接影响
第一个实验对比了仅在“仅形式”上训练的标准 Transformer 与在“形式与意义”上训练的 Transformer。模型通过两个指标进行评估:
- 分布内准确率 (In-distribution accuracy) : 它们能为之前见过的简单句构成问句吗?
- 泛化准确率 (Generalization accuracy) : 它们能正确处理需要层级规则的复杂句子 (如关系从句示例) 吗?
结果
结果非常鲜明。

如 Figure 2 所示:
- 图 (a): 两个模型在测试集 (简单句) 上都达到了近乎完美的准确率。就训练数据而言,它们都“学会了任务”。
- 图 (b): 差异在于泛化能力。“仅形式”模型 (左侧柱状图) 几乎完全使用了错误的线性规则 (层级准确率接近 0%) 。它们未能泛化。
- 相比之下, “形式与意义” 模型 (右侧柱状图) 显示出层级偏好的显著提升,约 60% 的时间选择了正确的语法结构。
这一结果表明,简单地强迫模型理解句子背后的逻辑,就能防止它走懒惰的线性捷径。
实验 2: 结构性顿悟 (Structural Grokking)
AI 的最新研究发现了一种称为 “顿悟” (grokking) 的现象。这是指模型最初似乎只是死记硬背训练数据 (获得 100% 的训练准确率) ,但如果你让它训练非常长的时间——远远超过“饱和”点——它会突然切换策略并学会通用规则。
研究人员想知道: “仅形式”模型的失败仅仅是因为训练时间不够长吗?意义又是如何影响这个时间线的?
他们在两种不同的设置下训练模型 300,000 步 (远超简单准确率所需的时间) : 语言建模 (Language Modeling,预测下一个词) 和序列到序列 (Sequence-to-Sequence,翻译) 。

Figure 3 揭示了训练动态:
- 仅形式 (左列) :
- 在语言建模设置 (左上) 中,模型最终确实“顿悟”了结构。它的准确率起初很低,但在许多步之后缓慢攀升至层级泛化。
- 在序列到序列设置 (左下) 中,它基本从未学会。它一直停留在线性规则上。
- 形式与意义 (右列) :
- 在两种设置中,模型几乎立即就实现了层级泛化。
- 看右上角的图: 准确率在训练早期就飙升至接近 100% 并保持在那里。
结论: 虽然仅在形式上训练的模型如果给予足够的时间有时也能跌跌撞撞地找到正确的规则 (顿悟) ,但语义信号起到了强大的催化剂作用。它们使正确的泛化更容易被发现,也更快被学会。
实验 3: 为什么意义会有帮助?
研究人员确定了意义确实有帮助,但他们需要理解为什么。模型是真的学会了句法,还是利用了逻辑公式中的另一种捷径?
他们调查了三个具体的假设。
假设 A: 仅仅是因为否定符号的位置吗?
在实验 1 使用的逻辑形式中,否定符号 (\(\neg\)) 通常出现在逻辑字符串的最开始。

如 Figure 4 所示,层级规则通常要求移动对应于主句否定的助动词。如果模型只是学会了“将问句的第一个词映射到意义开头的否定符号”,那它可能只是在进行位置匹配,而不是理解结构。
为了测试这一点,研究人员使用时态 (Tense) 代替否定创建了一个新数据集。他们在逻辑公式中移动时态标记,使其不再整齐地与句首对齐。

Figure 5 展示了这一压力测试的结果。即使移除了“作弊代码” (位置对齐) (在 “+tense last” 条件下) ,接受意义训练的模型仍然比仅接受形式训练的模型泛化得更好。这证明了益处不仅仅来自浅层的视觉匹配——模型正在使用语义结构。
假设 B: 仅仅是看到输出结构吗?
也许翻译任务本身并不重要。也许仅仅让模型接触逻辑公式 (输出端) 就足以给它一种“层级偏置”,即使它不需要将句子映射到公式上。
研究人员测试了一个 “意义到意义” (Meaning to Meaning) 的任务,即模型只学习复制逻辑形式。

Figure 6 显示了结果: 失败。 “意义到意义”模型 (上图) 表现糟糕,与“仅形式”相似。这证实了关键信号来自映射过程——将线性句子翻译成结构化意义的过程。
假设 C: 识别主助动词
最后,研究人员询问语义任务的帮助是否仅仅是因为它强迫模型识别哪个词是主动词或主助动词 。
他们创建了特定的辅助任务,例如要求模型简单地输出句子,但高亮显示主助动词 (例如: the newt (does) sleep) 。

Figure 7 显示,显式训练模型 “识别主助动词” (左列) 极大地提升了层级泛化能力,几乎达到了完整“形式与意义”方法的表现。
这表明,“意义”翻译任务之所以有效,是因为它隐式地强迫模型弄清楚哪个动词是句子的“真正”动词——这是理解句子树状结构的先决条件。
主谓一致的作用
最后还有一个遗留问题。在实验 2 中,那些最终“顿悟”了解决方案的“仅形式”模型,在没有意义的情况下是如何做到的?
研究人员怀疑是主谓一致 (Subject-Verb Agreement) 。 在英语中,单数主语用 “does”,复数主语用 “do”。
- “The newts who do sleep do not swim.”
- “The newt who does sleep does not swim.”
这种一致性提供了一个统计线索,将主语与主助动词联系起来。为了验证这一点,研究人员创建了一个无一致性的数据集 (移除了复数形式,所以一切看起来都是单数) 。

Figure 8 给出了最终判决:
- 左图 (仅形式) : 在没有主谓一致线索的情况下,仅形式模型彻底崩溃。即使经过大量训练,它也无法学会层级规则。
- 右图 (意义) : 接受意义训练的模型仍然完美地学会了。
这是一个强有力的结论。它表明,虽然统计学习者可以利用表面线索 (如一致性) 来伪装出正确答案,但语义训练信号提供了一种稳健的、结构性的理解,即使在这些表面线索被剥离时仍然有效。
结论与启示
这项研究弥合了语言学理论与现代 AI 之间的鸿沟。它挑战了神经网络注定永远只是依赖表面统计数据的“随机鹦鹉”这一观点。
主要结论如下:
- 语义引导句法: 训练模型理解句子的意义有助于它理解句子的构建方式。
- 效率: 意义使模型比仅在文本上训练更快、更一致地学习结构规则。
- 稳健性: 即使缺失表面线索 (如主谓一致) ,语义信号仍然有效,这意味着更深层次的泛化。
对于 AI 领域而言,这表明如果我们想要真正理解语言结构的模型,我们不应该仅仅给它们喂食更多文本。我们应该给它们喂食文本和意义对——无论是代码、逻辑形式,还是像图像和视频这样的多模态数据。通过将语言接地 (grounding) 于意义,我们提供了这些模型原本缺乏的“层级偏置”。
](https://deep-paper.org/en/paper/file-3639/images/cover.png)