AI 如何学习未见之事: “美好的五天”之谜

想象一下，你正在读一本书，偶然看到了这样一个短语: “a beautiful five days” (美好的五天) 。

对于以英语为母语的人来说，这听起来非常自然。你可能会说: “We spent a beautiful five days in Rome.” (我们在罗马度过了美好的五天) 。但如果你停下来审视一下语法，会发现有些奇怪的事情正在发生。单词 “a” 是一个单数冠词 (用于单个事物，如 “a dog” 一只狗) 。而短语 “five days” (五天) 是复数的。从严格的语法角度来看，将单数冠词与复数名词短语结合应该是一场灾难。我们不会说 “a days” 或 “a five dogs”。然而，这种 “Article + Adjective + Numeral + Noun” (冠词+形容词+数词+名词，简称 AANN) 的构式在英语中却是完全可以接受的。

我们是如何学会这个的？更重要的是，对于现代技术而言，大型语言模型 (LLM) 是如何学会这个的？

最近一篇题为 “Language Models Learn Rare Phenomena from Less Rare Phenomena” (语言模型从较常见现象中学习罕见现象) 的论文调查了这个迷人的语言学难题。研究人员解决了一个 AI 领域的巨大问题: 模型仅仅是死记硬背它们所看到的东西，还是真的能从稀疏的数据中归纳出复杂的规则？为了找出答案，他们从头开始训练语言模型，系统地隐藏特定的语法结构，看看 AI 是否能依靠自己“发明”出这些结构。

争论: 死记硬背 vs. 泛化

在 AI 领域有一种普遍的批评，认为大型语言模型不过是“随机鹦鹉” (stochastic parrots) ——它们只是将记忆中的文本片段拼凑在一起，而不理解底层的规则。因为像 GPT-4 这样的模型是在数万亿个单词上训练的，它们几乎已经把所有可能的句子结构看过了数百万次。如果一个模型生成了一种罕见的句子类型，很难判断它是因为理解了语法，还是仅仅在回忆训练样本。

这使得在 AI 中研究类似人类的学习变得困难。人类即使从未听过某个句子，也能判断它是否符合语法。LLM 能做到吗？

为了解决这个问题，这篇论文的作者使用了一种称为 “受控培养” (controlled rearing) 的技术。他们没有使用庞大的预训练模型，而是在一个“人类规模”的数据集 BabyLM (约 1 亿个单词，大致相当于人类儿童听到的词量) 上训练较小的模型 (基于 OPT 架构) 。这使得研究人员能够对训练数据进行“手术”——移除或修改特定的句子，以测试模型究竟是如何学习的。

案例研究: AANN 构式

研究人员选择了 AANN 构式 (“a beautiful five days”) 作为他们的目标，因为它是一种“罕见现象”。在 BabyLM 语料库中，AANN 仅占所有句子的 0.02% 左右。这是一个边缘案例——一种违背标准一致性规则的语言学“长尾”事件。

如果 AI 能学会这种罕见规则，它是怎么做到的？

死记硬背: 它是否需要看到 “a beautiful five days” 才能知道它是合法的？
泛化: 它能否通过观察其他具有相似结构基因的更常见短语来学习 AANN 的规则？

核心方法: 外科手术式的数据操纵

方法论是这篇论文的核心。研究人员不仅训练了一个模型；为了确保统计显著性，他们从头开始训练了 114 个不同的模型。他们创建了训练数据集的几个“反事实”版本。

如下图所示，研究人员系统地操纵了输入语料库。

该图展示了四个阶段，演示了修改输入文本如何影响 BabyLM 模型处理 AANN 的准确性。

以下是他们为这些 AI 模型创造的不同“世界”的细分:

未消融 (Unablated，对照组) : 模型看到的是正常的文本，包括罕见的 AANN 样本。
无 AANN (No AANN) : 研究人员使用复杂的正则表达式 (文本匹配代码) 从训练数据中删除了每一个 AANN 实例。这个模型生活在一个 “a beautiful five days” 根本不存在的世界里。
反事实破坏 (Counterfactual Corruptions，ANAN / NAAN) : 在这些数据集中，他们不仅仅是删除了 AANN；他们用包含相同单词但在语法上不正确的无意义句子替换了它们。
ANAN: “a five beautiful days” (冠词-数词-形容词-名词)
NAAN: “five beautiful a days” (数词-形容词-冠词-名词)

使用 SLOR 衡量成功

你怎么衡量一个模型是否“知道”一条语法规则？你不能直接问它。相反，研究人员使用了一种称为 SLOR (句法对数比率，Syntactic Log-Odds Ratio) 的指标。

AI 给出的标准概率分数会受到词频的偏差影响。一个模型可能会给 “a happy dog” 打出高概率，仅仅是因为 “happy” 和 “dog” 是常见词。SLOR 对此进行了调整。它衡量句子结构的可能性，并针对单个单词的常见程度进行了归一化。

SLOR 计算公式。

通过使用 SLOR，研究人员可以测试模型是否认为像 “a whopping ninety LMs” 这样的句子是可以接受的，这是基于它的结构，而不仅仅是因为它认出了这些单词。

实验 1: 未见而学

第一个主要发现令人震惊。研究人员使用了在 无 AANN (No AANN) 语料库上训练的模型——这个模型在它的“一生”中表面上从未见过 AANN 结构——并对其进行了测试。

结果表明, 语言模型 (LM) 可以在从未见过单个正样本的情况下学习 AANN 的可接受性。

虽然在正常数据上训练的模型 (未消融) 表现最好 (准确率约为 70%) ，但那个从未见过 AANN 的模型仍然达到了 47% 的准确率——远高于 20% 的随机概率水平。

此外，研究人员将其与在“破坏”数据 (ANAN 和 NAAN) 上训练的模型进行了比较。

散点图比较了不同训练条件下的准确性。

上图至关重要。它显示，即使模型被明确训练了“错误”的词序 (如 “a five beautiful days”) ，它学习这些错误词序的效果也不如它*零样本 (zero-shot) *学习正确的 AANN 结构那样好。

这意味着模型并不是一张只会死记硬背词序的白纸。它从英语语言的其他部分学到了更深层的语法，使得 “a beautiful five days” 变得合理，即使它以前从未见过这种说法。

词汇限制 (“顽固”的形容词)

这种泛化甚至更深一层。在英语中，你可以说 “a beautiful five days”，但你不能说 “a blue five pencils” (五支蓝色的铅笔，但在 AANN 结构下这不成立) 。某些形容词 (如颜色) 具有“顽固的分配性” (stubbornly distributive) ，不适用于这种构式。

模型知道这种区别吗？

散点图比较了不同形容词类型的 z-score 评分。

如图 3 所示，即使是使用 无 AANN (橙色方块) 训练的模型，其模式也与人类 (黑色三角形) 相似。它们都不喜欢“顽固”的形容词 (图表右侧) ，同时接受定量和定性的形容词。这证实了模型不仅仅是在瞎猜；它纯粹通过间接证据推断出了关于什么样的词适合填入这个槽位的语义限制。

实验 2: 泛化的“钥匙”

如果模型没见过 AANN，它是怎么学会的？作者假设模型是从相关的、更常见的现象中进行泛化的。

他们确定了几个可能作为线索的“邻近”语法结构:

“The” ANN: 像 “the beautiful five days” 这样的短语。定冠词 “the” 很容易与复数连用。也许模型将这种知识迁移到了 “a” 上。
“A few” / “A couple”: 像 “a few days” 或 “a couple bottles” 这样的短语。这些非常常见。它们教导模型 [冠词 + 量词 + 复数名词] 是合法的。
单数度量短语 (Singular Measure Phrases) : 像 “Five miles is a long way” 这样的句子。在这里，一个复数短语 (“five miles”) 带一个单数动词 (“is”) ，将复数短语视为一个单一的语义单元。

为了测试这一点，研究人员进行了“双重消融”。他们移除了 AANN 以及这些假设的“钥匙”之一，看看模型猜测 AANN 的能力是否会崩溃。

箱线图比较了各种实验条件下的平均 SLOR。

结果 (图 4，左侧) 证实了这一假设。

“Unablated” (未消融，顶部) 得分最高。
“No AANNs” (无 AANN) 有所下降，但保持稳健。
然而，当他们移除 “No Measure” 短语 (单数度量名词) 或 “No A few/couple” 时，性能显著进一步下降。

这为 “开启这一切的钥匙” 假设提供了强有力的证据。模型通过在 “a few days” 和 “five days is enough” 之间进行三角定位，学会了罕见的 “a beautiful five days”。它搭建了一座从常见结构通向罕见结构的桥梁。

实验 3: 变异性的作用

最后，研究人员问道: 训练数据的多样性重要吗？

如果一个模型看到 “a beautiful five days” 十次，它的学习效果是否和看到十个不同的例子 (如 “a lovely three weeks”, “a strange two years” 等) 一样好？

理论表明，构式中“槽位” (slots) 的高变异性有助于学习者理解该构式是能产的 (productive) ——意味着它是一个通用规则，而不是一个固定短语。

展示观察到的 AANN 相对变异性的图表。

图 5 中的结果支持了这一点。在使用 高变异性 AANN (紫色三角形) 训练的模型中，其表现始终优于使用低变异性样本训练的模型。当模型看到许多不同的形容词和名词填入该句子结构时，它在将该结构泛化到新词时会变得更加自信。

结论

这项研究为大型语言模型的“黑盒”提供了深刻的见解。它表明，这些模型不仅仅是背诵台词的“随机鹦鹉”。相反，它们拥有复杂的统计学习机制，能够进行句法泛化 。

主要结论包括:

泛化是真实的: 模型可以接受它们从未见过的合法语法结构。
间接学习: 这种学习依赖于“桥梁”——更常见的、相关的语言结构 (如 “a few days”) 。
数据质量很重要: 输入数据的变异性向模型发出了一个信号，即某种语法模式是灵活且能产的。

通过使用“受控培养”——仔细操纵训练数据——研究人员提供了一个存在性证明，即语言模型可以驾驭语言的“长尾”。它们通过掌握常见事物来学习罕见事物。这不仅让我们离理解机器如何学习更近了一步，甚至可能为我们揭示人类思维的统计能力提供启示。

AI 如何学习未见之事: “美好的五天”之谜#

争论: 死记硬背 vs. 泛化#

案例研究: AANN 构式#

核心方法: 外科手术式的数据操纵#

使用 SLOR 衡量成功#

实验 1: 未见而学#

词汇限制 (“顽固”的形容词)#

实验 2: 泛化的“钥匙”#

实验 3: 变异性的作用#

结论#