当一个孩子学习语言时,他们不会一开始就说出语法复杂的完整句子。他们是从单词开始的。婴儿早在理解像“狗狗在玩球”这样的句子之前,就学会了将“狗狗”或“球”识别为独特且有意义的单位。在发展心理学中,词汇学习先于句法学习。
但是,大型语言模型 (LLM) 的学习方式也是如此吗?
我们通常将 LLM 视为理解人类语言习得的代理,然而 Bastian Bunzeck 和 Sina Zarrieß 发表的一篇题为 “Subword models struggle with word learning, but surprisal hides it” 的论文表明,我们可能犯了一个错误。研究人员发现,LLM 处理文本的最常见方式——子词分词 (subword tokenization) ——从根本上改变了它们学习单词的方式和时机,使得它们的学习过程与人类截然不同。
在这篇深度文章中,我们将探讨标准模型为何难以区分真词与胡言乱语,它们如何利用上下文掩盖这种无能,以及为什么字符级 (character-level) 模型在模仿人类学习曲线方面可能实际上做得更好。

问题所在: 学习单词 vs 学习模式
要理解这篇论文的贡献,我们首先需要看看现代 AI 的架构。大多数最先进的模型 (如 GPT-4 或 Llama) 既不是逐个字母地阅读文本,也不是阅读完整的单词。它们使用的是子词分词 , 通常是字节对编码 (Byte-Pair Encoding, BPE) 。
BPE 根据频率将文本分解为块。像 “the” 这样的常见词可能是一个单独的 token (标记) ,而罕见词或名称可能会被分成多个块 (例如,“Moggie” 可能会变成 Mog + gie) 。这在计算上是高效的,但在认知上似乎不太合理。它将单词拆分成不一定具有语言意义的单位。
这项研究的核心问题是: 基于子词的模型真的学会了什么是“词”吗? 还是它仅仅学会了哪些 token 在统计上会跟随其他 token 出现?
人类标准: 词汇判断
心理语言学家使用词汇判断任务 (Lexical Decision Task) 来测试人类的词汇知识。参与者会看到一串字母,并必须做出决定: 这是一个真正的单词吗?
- 刺激: Dog -> 结果: 是。
- 刺激: Mog -> 结果: 否 (除非你懂英式俚语,但在标准英语中,它不是一个词) 。
人类非常擅长这个。我们的脑海中有一部“心理词典”。我们不需要在句子中看到单词 “dog” 就能知道它的存在。
AI 标准: 惊奇度 (Surprisal)
AI 研究人员通常使用不同的方式来衡量词汇学习,即使用惊奇度 (Surprisal) 。 这衡量了模型在特定上下文中看到某个词时的“惊讶”程度。如果模型以高概率预测出一个词,惊奇度就低 (意味着它已经“学会”了这个词) 。
- 上下文: “The fuzzy animal barked at the ____” (那只毛茸茸的动物对着____叫)
- 目标: Dog。
作者假设惊奇度是一个“作弊代码”。它允许模型根据句法上下文猜测单词,而无需真正知道该单词本身是否作为一个有效的语言单位存在。
方法论: 对模型进行压力测试
为了验证这一假设,研究人员在两种类型的模型和三种类型的测试之间建立了比较。
1. 模型
他们训练了 “BabyLMs”——这是 Llama 架构的微型版本,仅在 1000 万个单词上进行训练 (这个严格限制的数据集旨在模仿人类儿童听到的语言量) 。
- 子词模型 (BPE): 标准分词 (词汇量约 8,000) 。
- 字符模型: 字母级别的分词 (词汇量约 100) 。这些模型必须逐个字符地重建单词。
他们还将这些模型与不同大小的模型 (小、中、大) 进行了比较,看看增加参数量是否能解决问题。

2. 刺激物: Wuggy
为了生成公平的测试用例,作者使用了一个名为 “Wuggy” 的工具。Wuggy 会生成“伪词”,这些词看起来和听起来都像英语,但实际上不是。
- 真词: sending
- 伪词: monding
这些词对在长度和音节结构上是匹配的。这确保了模型不会仅仅因为非单词看起来很“奇怪” (如 xkqz) 而拒绝它们。

如上方的配对图所示,研究人员分析了这些单词是如何被分词的。理想情况下,分词的复杂性不应使结果产生偏差。字符模型 (橙色) 自然具有更高的每个单词 token 数,而 BPE (蓝色) 则将其压缩。
3. 实验
研究人员进行了三个不同的实验来探测模型的理解能力:
- 词汇判断 (“真实”测试) : 模型在隔离状态下 (仅前置一个空格) 看到单词和非单词。它会给哪一个分配更高的概率?
- *逻辑: * 如果模型知道 sending 存在于其词汇表中,即使没有上下文,它的概率也应该高于 monding。
- 惊奇度 (“简单”测试) : 单词被放置在一个有效的句子中。
- *上下文: * “I am sending a letter.” vs “I am monding a letter.”
- 反惊奇度 (“困惑”测试) : 单词被放置在一个语义/句法不合适的句子中。
- *上下文: * “The sky is sending blue.” (毫无意义,但 sending 仍然是一个真词) 。
- *逻辑: * 即使上下文完全是垃圾,模型是否仍然更偏好真词而不是假词?
结果: 子词模型的挣扎
结果揭示了两种模型架构在能力上的巨大差距。
子词模型在隔离状态下失败
在词汇判断任务 (无上下文识别单词) 中,子词表现不佳。
- 在处理高频词时,小型子词模型仅比随机猜测好一点点。
- 即使是最大的子词模型也难以达到字符模型的高可靠性。
- 为什么? 因为子词模型并没有真正的“词”的概念。它们只有 token 的概念。如果 sending 被分词为
send+ing,而 monding 是mond+ing,模型可能会识别出两者中的ing后缀。如果没有上下文来引导词根,它不确定哪种组合是“合法”的。
字符模型表现优异
然而,字符模型在识别高频词方面达到了近乎完美 (97-99%) 的准确率,无论模型大小如何。因为它们是逐个字母构建单词的,它们似乎建立了一个稳健的内部表示,知道哪些字符序列构成有效的英语单词,哪些则不构成。
上下文掩盖了无能
当研究人员切换到惊奇度任务 (将单词放入句子中) 时,子词模型突然表现良好了,与字符模型不相上下。
这证实了标题中提到的“隐藏”效应。子词模型严重依赖句法 (句子结构) 来预测接下来的内容。如果句子结构预测会出现一个动词,模型可能会猜测 sending 而不是 monding,是因为它符合预测模式,而不是因为它知道 sending 是一个词汇项而 monding 不是。
反惊奇度任务进一步证明了这一点。当被置于糟糕的上下文中 (“The sky is sending…”) ,子词模型的表现显著下降。它们被糟糕的上下文搞糊涂了,失去了区分真词和假词的能力。然而,字符模型仍然保持稳健——无论句子多么愚蠢,它们都知道 sending 是一个词。
学习的“时机”: 解开句法与单词的纠缠
这篇论文最迷人的发现或许在于学习的轨迹。研究人员在整个训练过程中提取了模型的检查点 (checkpoints) ,以观察它们何时学会了不同的技能。
他们比较了以下学习曲线:
- 单词学习 (词汇判断准确率) 。
- 句法学习 (在 BLiMP 上的表现,这是一个针对主谓一致等语法规则的基准测试) 。

上图展示了架构之间在“认知发展”上的根本差异:
- 字符模型 (上排) : 看看线条的分离。单词学习曲线 (蓝色/紫色) 很早就快速上升。句法曲线 (绿色/橙色) 上升得较晚且较慢。
- *解释: * 就像人类儿童一样,字符模型先学单词 , 然后再弄清楚语法规则。这两个过程是可分离的。
- 子词模型 (下排) : 线条是“纠缠”在一起的。单词学习和句法学习的曲线几乎同时上升。
- *解释: * 子词模型将单词和句法作为一个单一的、混乱的统计大杂烩来学习。它们不是先获得词汇量然后学习如何使用它;它们是在同一时间学习使用模式和 token。
为了可视化这种统计关系,研究人员制作了一个相关性热图。

在这个热图中,红色/黄色表示高相关性。你可以看到,对于 BPE (子词) 模型,词汇判断的表现与句法任务 (如回指一致性或控制提升) 高度相关。对于字符模型,这种相关性较弱或为负,表明这些是在不同时间学习的不同技能。
深度剖析: “词汇性”的演变
研究人员还观察了训练过程中真词与非词之间的原始概率差异。

在图 7 中,Y 轴代表对真词相对于非词的偏好程度。
- BPE 模型 (蓝线) : 注意它们是如何从接近零甚至负值开始的?在训练的最开始,子词模型实际上更偏好非词!它们需要经过大量的训练时间 (步骤 10^3 到 10^4) 才能开始可靠地偏好真词。
- 字符模型 (橙线) : 它们几乎立即表现出对真词的偏好。
这表明 a priori (先验) 分词 (在模型看到单词之前就将其拆分) 阻碍了模型自然地发现单词。它迫使模型跳过“单词发现”阶段,直接跳到预测 token 序列。
结论: 这对应对 AI 和认知科学意味着什么
这篇论文揭示了当前自然语言处理中的一个盲点。为了优化效率和困惑度 (预测下一个 token) ,我们采用了从根本上改变语言学习本质的子词分词器。
- 对于认知建模: 如果我们想用 LLM 来模拟儿童如何学习语言,子词模型可能是有缺陷的。它们将两个截然不同的发展阶段 (词汇习得和句法习得) 合并为一个。字符级模型虽然计算量更大,但提供了更像人类的发展路径。
- 对于 AI 鲁棒性: 子词模型对上下文的依赖使得它们很脆弱。正如反惊奇度实验所示,如果上下文变得怪异,模型就会“忘记”什么是词。字符模型拥有更稳健、不依赖上下文的有效语言定义。
随着我们继续构建更大、“更聪明”的模型,我们必须问自己: 我们是想要仅仅能很好地预测模式的模型,还是想要理解语言基本构建块的模型?这项研究表明,要获得后者,我们可能需要重新思考在模型看到文本之前如何对其进行切分。
](https://deep-paper.org/en/paper/2502.12835/images/cover.png)