LLM 真的知道什么是“词”吗？子词分词中隐藏的缺陷

当一个孩子学习语言时，他们不会一开始就说出语法复杂的完整句子。他们是从单词开始的。婴儿早在理解像“狗狗在玩球”这样的句子之前，就学会了将“狗狗”或“球”识别为独特且有意义的单位。在发展心理学中，词汇学习先于句法学习。

但是，大型语言模型 (LLM) 的学习方式也是如此吗？

我们通常将 LLM 视为理解人类语言习得的代理，然而 Bastian Bunzeck 和 Sina Zarrieß 发表的一篇题为 “Subword models struggle with word learning, but surprisal hides it” 的论文表明，我们可能犯了一个错误。研究人员发现，LLM 处理文本的最常见方式——子词分词 (subword tokenization) ——从根本上改变了它们学习单词的方式和时机，使得它们的学习过程与人类截然不同。

在这篇深度文章中，我们将探讨标准模型为何难以区分真词与胡言乱语，它们如何利用上下文掩盖这种无能，以及为什么字符级 (character-level) 模型在模仿人类学习曲线方面可能实际上做得更好。

图 1: 人类学习者和 Transformer LLM 的词汇学习示意图 (上) ，以及我们需要探索单词与非单词辨别的词汇判断测试 (下) 。人类学习者通过语言经验建立心理词典，而人工学习者则根据频率为字符串分配概率。

问题所在: 学习单词 vs 学习模式

要理解这篇论文的贡献，我们首先需要看看现代 AI 的架构。大多数最先进的模型 (如 GPT-4 或 Llama) 既不是逐个字母地阅读文本，也不是阅读完整的单词。它们使用的是子词分词 , 通常是字节对编码 (Byte-Pair Encoding, BPE) 。

BPE 根据频率将文本分解为块。像 “the” 这样的常见词可能是一个单独的 token (标记) ，而罕见词或名称可能会被分成多个块 (例如，“Moggie” 可能会变成 Mog + gie) 。这在计算上是高效的，但在认知上似乎不太合理。它将单词拆分成不一定具有语言意义的单位。

这项研究的核心问题是: 基于子词的模型真的学会了什么是“词”吗? 还是它仅仅学会了哪些 token 在统计上会跟随其他 token 出现？

人类标准: 词汇判断

心理语言学家使用词汇判断任务 (Lexical Decision Task) 来测试人类的词汇知识。参与者会看到一串字母，并必须做出决定: 这是一个真正的单词吗？

刺激: Dog -> 结果: 是。
刺激: Mog -> 结果: 否 (除非你懂英式俚语，但在标准英语中，它不是一个词) 。

人类非常擅长这个。我们的脑海中有一部“心理词典”。我们不需要在句子中看到单词 “dog” 就能知道它的存在。

AI 标准: 惊奇度 (Surprisal)

AI 研究人员通常使用不同的方式来衡量词汇学习，即使用惊奇度 (Surprisal) 。这衡量了模型在特定上下文中看到某个词时的“惊讶”程度。如果模型以高概率预测出一个词，惊奇度就低 (意味着它已经“学会”了这个词) 。

上下文: “The fuzzy animal barked at the ____” (那只毛茸茸的动物对着____叫)
目标: Dog。

作者假设惊奇度是一个“作弊代码”。它允许模型根据句法上下文猜测单词，而无需真正知道该单词本身是否作为一个有效的语言单位存在。

方法论: 对模型进行压力测试

为了验证这一假设，研究人员在两种类型的模型和三种类型的测试之间建立了比较。

1. 模型

他们训练了 “BabyLMs”——这是 Llama 架构的微型版本，仅在 1000 万个单词上进行训练 (这个严格限制的数据集旨在模仿人类儿童听到的语言量) 。

子词模型 (BPE): 标准分词 (词汇量约 8,000) 。
字符模型: 字母级别的分词 (词汇量约 100) 。这些模型必须逐个字符地重建单词。

他们还将这些模型与不同大小的模型 (小、中、大) 进行了比较，看看增加参数量是否能解决问题。

表 2: 我们要自行训练的 Llama 模型的超参数。图 3: 我们要自行训练的 Llama 模型的损失曲线。

2. 刺激物: Wuggy

为了生成公平的测试用例，作者使用了一个名为 “Wuggy” 的工具。Wuggy 会生成“伪词”，这些词看起来和听起来都像英语，但实际上不是。

真词: sending
伪词: monding

这些词对在长度和音节结构上是匹配的。这确保了模型不会仅仅因为非单词看起来很“奇怪” (如 xkqz) 而拒绝它们。

图 4: 显示 (i) 单词的 token 数量，(ii) 来自 CELEX 的频率得分，以及 (iii) 非单词的 token 数量 (针对 BPE 和字符分词) 的配对图。

如上方的配对图所示，研究人员分析了这些单词是如何被分词的。理想情况下，分词的复杂性不应使结果产生偏差。字符模型 (橙色) 自然具有更高的每个单词 token 数，而 BPE (蓝色) 则将其压缩。

3. 实验

研究人员进行了三个不同的实验来探测模型的理解能力:

词汇判断 (“真实”测试) : 模型在隔离状态下 (仅前置一个空格) 看到单词和非单词。它会给哪一个分配更高的概率？

*逻辑: * 如果模型知道 sending 存在于其词汇表中，即使没有上下文，它的概率也应该高于 monding。

惊奇度 (“简单”测试) : 单词被放置在一个有效的句子中。

*上下文: * “I am sending a letter.” vs “I am monding a letter.”

反惊奇度 (“困惑”测试) : 单词被放置在一个语义/句法不合适的句子中。

*上下文: * “The sky is sending blue.” (毫无意义，但 sending 仍然是一个真词) 。
*逻辑: * 即使上下文完全是垃圾，模型是否仍然更偏好真词而不是假词？

结果: 子词模型的挣扎

结果揭示了两种模型架构在能力上的巨大差距。

子词模型在隔离状态下失败

在词汇判断任务 (无上下文识别单词) 中，子词表现不佳。

在处理高频词时，小型子词模型仅比随机猜测好一点点。
即使是最大的子词模型也难以达到字符模型的高可靠性。
为什么? 因为子词模型并没有真正的“词”的概念。它们只有 token 的概念。如果 sending 被分词为 send + ing，而 monding 是 mond + ing，模型可能会识别出两者中的 ing 后缀。如果没有上下文来引导词根，它不确定哪种组合是“合法”的。

字符模型表现优异

然而，字符模型在识别高频词方面达到了近乎完美 (97-99%) 的准确率，无论模型大小如何。因为它们是逐个字母构建单词的，它们似乎建立了一个稳健的内部表示，知道哪些字符序列构成有效的英语单词，哪些则不构成。

上下文掩盖了无能

当研究人员切换到惊奇度任务 (将单词放入句子中) 时，子词模型突然表现良好了，与字符模型不相上下。

这证实了标题中提到的“隐藏”效应。子词模型严重依赖句法 (句子结构) 来预测接下来的内容。如果句子结构预测会出现一个动词，模型可能会猜测 sending 而不是 monding，是因为它符合预测模式，而不是因为它知道 sending 是一个词汇项而 monding 不是。

反惊奇度任务进一步证明了这一点。当被置于糟糕的上下文中 (“The sky is sending…”) ，子词模型的表现显著下降。它们被糟糕的上下文搞糊涂了，失去了区分真词和假词的能力。然而，字符模型仍然保持稳健——无论句子多么愚蠢，它们都知道 sending 是一个词。

学习的“时机”: 解开句法与单词的纠缠

这篇论文最迷人的发现或许在于学习的轨迹。研究人员在整个训练过程中提取了模型的检查点 (checkpoints) ，以观察它们何时学会了不同的技能。

他们比较了以下学习曲线:

单词学习 (词汇判断准确率) 。
句法学习 (在 BLiMP 上的表现，这是一个针对主谓一致等语法规则的基准测试) 。

图 2: 选定的词汇和句法学习曲线

上图展示了架构之间在“认知发展”上的根本差异:

字符模型 (上排) : 看看线条的分离。单词学习曲线 (蓝色/紫色) 很早就快速上升。句法曲线 (绿色/橙色) 上升得较晚且较慢。
*解释: * 就像人类儿童一样，字符模型先学单词 , 然后再弄清楚语法规则。这两个过程是可分离的。
子词模型 (下排) : 线条是“纠缠”在一起的。单词学习和句法学习的曲线几乎同时上升。
*解释: * 子词模型将单词和句法作为一个单一的、混乱的统计大杂烩来学习。它们不是先获得词汇量然后学习如何使用它；它们是在同一时间学习使用模式和 token。

为了可视化这种统计关系，研究人员制作了一个相关性热图。

图 6: 相关性热图

在这个热图中，红色/黄色表示高相关性。你可以看到，对于 BPE (子词) 模型，词汇判断的表现与句法任务 (如回指一致性或控制提升) 高度相关。对于字符模型，这种相关性较弱或为负，表明这些是在不同时间学习的不同技能。

深度剖析: “词汇性”的演变

研究人员还观察了训练过程中真词与非词之间的原始概率差异。

图 7: 预训练过程中的平均惊奇度差异

在图 7 中，Y 轴代表对真词相对于非词的偏好程度。

BPE 模型 (蓝线) : 注意它们是如何从接近零甚至负值开始的？在训练的最开始，子词模型实际上更偏好非词！它们需要经过大量的训练时间 (步骤 10^3 到 10^4) 才能开始可靠地偏好真词。
字符模型 (橙线) : 它们几乎立即表现出对真词的偏好。

这表明 a priori (先验) 分词 (在模型看到单词之前就将其拆分) 阻碍了模型自然地发现单词。它迫使模型跳过“单词发现”阶段，直接跳到预测 token 序列。

结论: 这对应对 AI 和认知科学意味着什么

这篇论文揭示了当前自然语言处理中的一个盲点。为了优化效率和困惑度 (预测下一个 token) ，我们采用了从根本上改变语言学习本质的子词分词器。

对于认知建模: 如果我们想用 LLM 来模拟儿童如何学习语言，子词模型可能是有缺陷的。它们将两个截然不同的发展阶段 (词汇习得和句法习得) 合并为一个。字符级模型虽然计算量更大，但提供了更像人类的发展路径。
对于 AI 鲁棒性: 子词模型对上下文的依赖使得它们很脆弱。正如反惊奇度实验所示，如果上下文变得怪异，模型就会“忘记”什么是词。字符模型拥有更稳健、不依赖上下文的有效语言定义。

随着我们继续构建更大、“更聪明”的模型，我们必须问自己: 我们是想要仅仅能很好地预测模式的模型，还是想要理解语言基本构建块的模型？这项研究表明，要获得后者，我们可能需要重新思考在模型看到文本之前如何对其进行切分。

问题所在: 学习单词 vs 学习模式#

人类标准: 词汇判断#

AI 标准: 惊奇度 (Surprisal)#

方法论: 对模型进行压力测试#

1. 模型#

2. 刺激物: Wuggy#

3. 实验#

结果: 子词模型的挣扎#

子词模型在隔离状态下失败#

字符模型表现优异#

上下文掩盖了无能#

学习的“时机”: 解开句法与单词的纠缠#

深度剖析: “词汇性”的演变#

结论: 这对应对 AI 和认知科学意味着什么#