当一个孩子学习语言时,他们不会一开始就说出语法复杂的完整句子。他们是从单词开始的。婴儿早在理解像“狗狗在玩球”这样的句子之前,就学会了将“狗狗”或“球”识别为独特且有意义的单位。在发展心理学中,词汇学习先于句法学习。

但是,大型语言模型 (LLM) 的学习方式也是如此吗?

我们通常将 LLM 视为理解人类语言习得的代理,然而 Bastian Bunzeck 和 Sina Zarrieß 发表的一篇题为 “Subword models struggle with word learning, but surprisal hides it” 的论文表明,我们可能犯了一个错误。研究人员发现,LLM 处理文本的最常见方式——子词分词 (subword tokenization) ——从根本上改变了它们学习单词的方式时机,使得它们的学习过程与人类截然不同。

在这篇深度文章中,我们将探讨标准模型为何难以区分真词与胡言乱语,它们如何利用上下文掩盖这种无能,以及为什么字符级 (character-level) 模型在模仿人类学习曲线方面可能实际上做得更好。

图 1: 人类学习者和 Transformer LLM 的词汇学习示意图 (上) ,以及我们需要探索单词与非单词辨别的词汇判断测试 (下) 。人类学习者通过语言经验建立心理词典,而人工学习者则根据频率为字符串分配概率。

问题所在: 学习单词 vs 学习模式

要理解这篇论文的贡献,我们首先需要看看现代 AI 的架构。大多数最先进的模型 (如 GPT-4 或 Llama) 既不是逐个字母地阅读文本,也不是阅读完整的单词。它们使用的是子词分词 , 通常是字节对编码 (Byte-Pair Encoding, BPE) 。

BPE 根据频率将文本分解为块。像 “the” 这样的常见词可能是一个单独的 token (标记) ,而罕见词或名称可能会被分成多个块 (例如,“Moggie” 可能会变成 Mog + gie) 。这在计算上是高效的,但在认知上似乎不太合理。它将单词拆分成不一定具有语言意义的单位。

这项研究的核心问题是: 基于子词的模型真的学会了什么是“词”吗? 还是它仅仅学会了哪些 token 在统计上会跟随其他 token 出现?

人类标准: 词汇判断

心理语言学家使用词汇判断任务 (Lexical Decision Task) 来测试人类的词汇知识。参与者会看到一串字母,并必须做出决定: 这是一个真正的单词吗?

  • 刺激: Dog -> 结果: 是。
  • 刺激: Mog -> 结果: 否 (除非你懂英式俚语,但在标准英语中,它不是一个词) 。

人类非常擅长这个。我们的脑海中有一部“心理词典”。我们不需要在句子中看到单词 “dog” 就能知道它的存在。

AI 标准: 惊奇度 (Surprisal)

AI 研究人员通常使用不同的方式来衡量词汇学习,即使用惊奇度 (Surprisal) 。 这衡量了模型在特定上下文中看到某个词时的“惊讶”程度。如果模型以高概率预测出一个词,惊奇度就低 (意味着它已经“学会”了这个词) 。

  • 上下文: “The fuzzy animal barked at the ____” (那只毛茸茸的动物对着____叫)
  • 目标: Dog

作者假设惊奇度是一个“作弊代码”。它允许模型根据句法上下文猜测单词,而无需真正知道该单词本身是否作为一个有效的语言单位存在。

方法论: 对模型进行压力测试

为了验证这一假设,研究人员在两种类型的模型和三种类型的测试之间建立了比较。

1. 模型

他们训练了 “BabyLMs”——这是 Llama 架构的微型版本,仅在 1000 万个单词上进行训练 (这个严格限制的数据集旨在模仿人类儿童听到的语言量) 。

  • 子词模型 (BPE): 标准分词 (词汇量约 8,000) 。
  • 字符模型: 字母级别的分词 (词汇量约 100) 。这些模型必须逐个字符地重建单词。

他们还将这些模型与不同大小的模型 (小、中、大) 进行了比较,看看增加参数量是否能解决问题。

表 2: 我们要自行训练的 Llama 模型的超参数。图 3: 我们要自行训练的 Llama 模型的损失曲线。

2. 刺激物: Wuggy

为了生成公平的测试用例,作者使用了一个名为 “Wuggy” 的工具。Wuggy 会生成“伪词”,这些词看起来和听起来都像英语,但实际上不是。

  • 真词: sending
  • 伪词: monding

这些词对在长度和音节结构上是匹配的。这确保了模型不会仅仅因为非单词看起来很“奇怪” (如 xkqz) 而拒绝它们。

图 4: 显示 (i) 单词的 token 数量,(ii) 来自 CELEX 的频率得分,以及 (iii) 非单词的 token 数量 (针对 BPE 和字符分词) 的配对图。

如上方的配对图所示,研究人员分析了这些单词是如何被分词的。理想情况下,分词的复杂性不应使结果产生偏差。字符模型 (橙色) 自然具有更高的每个单词 token 数,而 BPE (蓝色) 则将其压缩。

3. 实验

研究人员进行了三个不同的实验来探测模型的理解能力:

  1. 词汇判断 (“真实”测试) : 模型在隔离状态下 (仅前置一个空格) 看到单词和非单词。它会给哪一个分配更高的概率?
  • *逻辑: * 如果模型知道 sending 存在于其词汇表中,即使没有上下文,它的概率也应该高于 monding
  1. 惊奇度 (“简单”测试) : 单词被放置在一个有效的句子中。
  • *上下文: * “I am sending a letter.” vs “I am monding a letter.”
  1. 反惊奇度 (“困惑”测试) : 单词被放置在一个语义/句法不合适的句子中。
  • *上下文: * “The sky is sending blue.” (毫无意义,但 sending 仍然是一个真词) 。
  • *逻辑: * 即使上下文完全是垃圾,模型是否仍然更偏好真词而不是假词?

结果: 子词模型的挣扎

结果揭示了两种模型架构在能力上的巨大差距。

子词模型在隔离状态下失败

词汇判断任务 (无上下文识别单词) 中,子词表现不佳。

  • 在处理高频词时,小型子词模型仅比随机猜测好一点点。
  • 即使是最大的子词模型也难以达到字符模型的高可靠性。
  • 为什么? 因为子词模型并没有真正的“词”的概念。它们只有 token 的概念。如果 sending 被分词为 send + ing,而 mondingmond + ing,模型可能会识别出两者中的 ing 后缀。如果没有上下文来引导词根,它不确定哪种组合是“合法”的。

字符模型表现优异

然而,字符模型在识别高频词方面达到了近乎完美 (97-99%) 的准确率,无论模型大小如何。因为它们是逐个字母构建单词的,它们似乎建立了一个稳健的内部表示,知道哪些字符序列构成有效的英语单词,哪些则不构成。

上下文掩盖了无能

当研究人员切换到惊奇度任务 (将单词放入句子中) 时,子词模型突然表现良好了,与字符模型不相上下。

这证实了标题中提到的“隐藏”效应。子词模型严重依赖句法 (句子结构) 来预测接下来的内容。如果句子结构预测会出现一个动词,模型可能会猜测 sending 而不是 monding,是因为它符合预测模式,而不是因为它知道 sending 是一个词汇项而 monding 不是。

反惊奇度任务进一步证明了这一点。当被置于糟糕的上下文中 (“The sky is sending…”) ,子词模型的表现显著下降。它们被糟糕的上下文搞糊涂了,失去了区分真词和假词的能力。然而,字符模型仍然保持稳健——无论句子多么愚蠢,它们都知道 sending 是一个词。

学习的“时机”: 解开句法与单词的纠缠

这篇论文最迷人的发现或许在于学习的轨迹。研究人员在整个训练过程中提取了模型的检查点 (checkpoints) ,以观察它们何时学会了不同的技能。

他们比较了以下学习曲线:

  1. 单词学习 (词汇判断准确率) 。
  2. 句法学习 (在 BLiMP 上的表现,这是一个针对主谓一致等语法规则的基准测试) 。

图 2: 选定的词汇和句法学习曲线

上图展示了架构之间在“认知发展”上的根本差异:

  • 字符模型 (上排) : 看看线条的分离。单词学习曲线 (蓝色/紫色) 很早就快速上升。句法曲线 (绿色/橙色) 上升得较晚且较慢。
  • *解释: * 就像人类儿童一样,字符模型先学单词 , 然后再弄清楚语法规则。这两个过程是可分离的。
  • 子词模型 (下排) : 线条是“纠缠”在一起的。单词学习和句法学习的曲线几乎同时上升。
  • *解释: * 子词模型将单词和句法作为一个单一的、混乱的统计大杂烩来学习。它们不是先获得词汇量然后学习如何使用它;它们是在同一时间学习使用模式和 token。

为了可视化这种统计关系,研究人员制作了一个相关性热图。

图 6: 相关性热图

在这个热图中,红色/黄色表示高相关性。你可以看到,对于 BPE (子词) 模型,词汇判断的表现与句法任务 (如回指一致性或控制提升) 高度相关。对于字符模型,这种相关性较弱或为负,表明这些是在不同时间学习的不同技能。

深度剖析: “词汇性”的演变

研究人员还观察了训练过程中真词与非词之间的原始概率差异。

图 7: 预训练过程中的平均惊奇度差异

在图 7 中,Y 轴代表对真词相对于非词的偏好程度。

  • BPE 模型 (蓝线) : 注意它们是如何从接近零甚至负值开始的?在训练的最开始,子词模型实际上更偏好非词!它们需要经过大量的训练时间 (步骤 10^3 到 10^4) 才能开始可靠地偏好真词。
  • 字符模型 (橙线) : 它们几乎立即表现出对真词的偏好。

这表明 a priori (先验) 分词 (在模型看到单词之前就将其拆分) 阻碍了模型自然地发现单词。它迫使模型跳过“单词发现”阶段,直接跳到预测 token 序列。

结论: 这对应对 AI 和认知科学意味着什么

这篇论文揭示了当前自然语言处理中的一个盲点。为了优化效率和困惑度 (预测下一个 token) ,我们采用了从根本上改变语言学习本质的子词分词器。

  1. 对于认知建模: 如果我们想用 LLM 来模拟儿童如何学习语言,子词模型可能是有缺陷的。它们将两个截然不同的发展阶段 (词汇习得和句法习得) 合并为一个。字符级模型虽然计算量更大,但提供了更像人类的发展路径。
  2. 对于 AI 鲁棒性: 子词模型对上下文的依赖使得它们很脆弱。正如反惊奇度实验所示,如果上下文变得怪异,模型就会“忘记”什么是词。字符模型拥有更稳健、不依赖上下文的有效语言定义。

随着我们继续构建更大、“更聪明”的模型,我们必须问自己: 我们是想要仅仅能很好地预测模式的模型,还是想要理解语言基本构建块的模型?这项研究表明,要获得后者,我们可能需要重新思考在模型看到文本之前如何对其进行切分。