支离破碎：子词分词是否会破坏 LLM 的形态学能力？

像 GPT-4 这样的大型语言模型 (LLM) 通常被视为一种输入“文本”并输出“文本”的魔法盒子。但严格来说，它们并不像人类那样阅读单词。在模型看到你的输入之前, 分词器 (tokenizer) 会将你的句子切分成更小的块，称为*子词 (subwords) *。

通常，这种分词过程是由频率统计驱动的——常见的单词保持完整，而罕见的单词则被拆成碎片。但是，这种统计式的切分是否保留了单词结构的含义？如果一个模型将 “unhappines” (不快乐) 拆分为 un、hap、pi 和 ness，它真的理解构建该单词的语言规则吗？

在论文 “Subword Segmentation in LLMs: Looking at Inflection and Consistency” (LLM 中的子词分词: 着眼于屈折变化与一致性) 中，研究人员 Marion Di Marco 和 Alexander Fraser 深入探讨了语言学与工程学的这一关键交叉点。他们研究了模型切分单词的方式是否会影响其理解形态学 (morphology) ——即单词内部结构——的能力。他们的发现为我们了解 LLM 如何处理语法，以及为什么“一致性”可能比语言学上的完美更重要，提供了一个有趣的视角。

问题所在: 当统计学忽略语法时

形态学是研究单词如何构成的学科。在英语中，我们知道 baker (面包师) 在 bakery (面包房) 工作，而 botanist (植物学家) 研究 botany (植物学) 。我们理解这些联系，因为我们能识别出词根和后缀。

LLM 使用的分词算法 (如 BPE 或 WordPiece) 关心的是压缩率，而不是语言学。它们希望用尽可能少的 token 来表示文本。这往往导致混乱的拆分。理想情况下，模型应该将德语动词 einpflanzen (种植入) 拆分为其逻辑部分: ein (小品词/前缀) 、pflanz (词根) 、en (后缀) 。然而，基于频率的分词器可能会将其胡乱拆分为 e、in、p、fl、a、n、z、e、n。

研究人员提出了一个关键问题: 这种混乱的分词是否会损害模型在语言任务上的表现?

为了回答这个问题，他们评估了 GPT-4o 在 10 种不同语言 (从英语、法语到芬兰语、匈牙利语) 上的表现。他们提出了两个具体的标准来衡量分词的质量，并测试了符合 (或不符合) 这些标准的单词在下游任务中的表现。

标准 1: 遵守语素边界

第一个假设很直观: 一个“好”的分词应该尊重单词的语言学边界。它应该清晰地将词干 (stem) (承载词汇意义) 与屈折变化 (inflection) (表示时态、数或人称的后缀) 分离开来。

研究人员根据 GPT-4o 对动词的分词与“黄金标准”形态学数据 (来自 MorphyNet) 的匹配程度，将其分为五类:

EXACT (精确) : 单词被精确地拆分为词干和后缀。
SINGLE (单一) : 后缀是干净的，但词干被进一步拆分了。
CONCAT (连接) : 后缀被拆分成几块，但词干和后缀之间的边界得到了尊重。
OVERLAP (重叠) : 混乱的类别。拆分发生在词干或后缀内部，模糊了边界。
UNSPLIT (未拆分) : 单词是一个单一的 token。

下表以法语动词为例说明了这些类别。请注意 OVERLAP 类别 (例如 comm + anda + ient) 是如何破坏根词 command 和结尾之间的边界的。

Table 2: Segmentation categories derived from MorphyNet for French verbs.

“重叠”有多糟糕？

当作者分析 GPT-4o 在 10 种语言中的词汇表时，他们发现了一个鲜明的事实: 混乱的“OVERLAP”类别占主导地位。

如下图所示，对于几乎每一种语言 (葡萄牙语和意大利语除外) ，绝大多数动词都属于深蓝色的“OVERLAP”类别。即使对于形态简单的英语，模型也很少能找到清晰的语言学边界。

Figure 1: Segmentation categories per language showing the dominance of the OVERLAP category.

这种混乱分词的普遍性使得研究问题变得更加紧迫: 如果模型几乎总是忽略语言学边界，它是否未能学会语法？

标准 2: 分词一致性

第二个标准不再局限于严格的语言学，而是关注一致性 。即使分词在语言学上并不完美，模型是否至少能以相同的方式切分同一个单词的不同形式？

考虑德语动词 dramatisieren (戏剧化) 。如果模型将现在时切分为 dram + atis + ieren，但将过去时切分为 dra + ma + tisi + erte，那么模型必须为同一个基本概念学习两种完全不同的表示。理想情况下，token 中代表“词干”的部分应该在整个屈折变化范式中保持不变。

为了衡量这一点，作者使用了重叠系数 (Overlap Coefficient) 。该指标计算两个词形之间 token 集合的相似度。

Formula for the overlap coefficient.

与其他指标 (如 Jaccard) 不同，如果词元 (lemma，即字典形式) 的 token 是屈折形式 token 的子集，该公式允许获得满分 (1.0) 。这是可取的，因为屈折形式自然会添加后缀；我们只希望词干 token 保持不变。

下表显示了一致性高低的示例。请注意中间一列 (意大利语) : vincere (赢) 根据变位的不同被切分得完全不同。这就是高度的不一致 。

Table 4: Examples for different segmentation consistencies in verb forms.

在所研究的 10 种语言中，这些重叠分数的分布各不相同，但许多语言在 0.5 到 0.7 附近出现了一个“隆起”，这表明完全的一致性在当前的 LLM 中是很罕见的。

Figure 2: Distribution of overlap scores per inflection paradigm for verbs.

实验: 分词真的重要吗？

为了测试这些标准是否会影响模型的“大脑”，研究人员为 GPT-4o 设定了两项语言任务:

词元预测 (Lemma Prediction) : 给定一个屈折变化的动词 (例如 složeny) ，预测其字典形式 (složit) 。
屈折生成 (Inflection Generation) : 给定一个词元和一组语法标签 (例如 walk + 过去时) ，生成相应的形式 (walked) 。

他们比较了具有“好”分词 (边界清晰/高一致性) 的单词与具有“坏”分词 (重叠/低一致性) 的单词的表现。他们还按频率 (常见与罕见) 区分单词，以观察模型是否依赖于对常见单词的死记硬背。

结果 1: 语言学边界并不重要

令人惊讶的是, 标准 1 (遵守语素边界) 的影响非常小。

当比较“OVERLAP”组 (混乱拆分) 与“NO OVERLAP”组 (清晰拆分) 时，大多数语言在词元预测上的表现几乎相同。

这表明，严格遵守语言规则——像人类语言学家那样精确切分——对于 LLM 理解单词并非绝对必要。只要模型见过的次数足够多，它似乎有能力学习混乱 token 的含义。

结果 2: 一致性是关键

标准 2 (一致性) 讲述了一个不同的故事。研究人员发现，分词一致的单词与不一致的单词之间存在明显的性能差距。

在下方的词元预测任务表中，请看带有星号 (*) 的行。这表明 lowOverlap (低一致性) 组的性能有统计学上的显著下降。这种影响对于低频词 (freq ≤ 10) 尤为残酷。例如，在匈牙利语 (HU) 中，罕见且不一致的单词的准确率与其一致的对应单词相比显著下降。

Table 5: Number of correctly predicted lemmas contrasting segmentation consistency.

这种趋势在生成任务 (创建屈折形式) 中得以延续。生成单词比识别单词更难，在这里，分词不一致带来的惩罚甚至更严厉。

在零样本 (zero-shot) 设置下 (不给模型任何示例) , lowOverlap (不一致) 单词在几乎所有语言中的表现都明显更差。即使提供了一个“单样本 (one-shot) ”示例，一致的单词通常也优于不一致的单词。

Table 6: Number of correctly generated forms contrasting segmentation consistency.

关键结论: 如果模型将 “walk”、“walking” 和 “walked” 切分成看起来完全不同的 token 碎片，它就很难理解它们是同一个词，特别是当这个词很罕见的时候。

位置重要吗？

研究人员进行了更深入的挖掘。如果一致性很重要，那么哪里的一致性最重要？是单词的开头 (词根) 还是结尾 (后缀) ？

他们设计了一个“位置”实验。他们观察了相似度较低的词元/词形对，但将它们分为两组:

Same 1st (首个相同) : 也就是第一个 token 是相同的。
Diff 1st (首个不同) : 第一个 token 是不同的。

结果令人震惊。

Table 7: Number of correctly predicted verb lemmas contrasting positional segmentation differences.

请看捷克语 (CS) 和匈牙利语 (HU) 等语言的列。与 Same 1st 相比, Diff 1st 组 (首个 token 发生变化) 的性能大幅下降。

事实上, Same 1st 组的表现通常与“高相似度 (High Similarity) ”组一样好。这表明，只要单词的开头保持一致——锚定词汇意义——模型就能容忍单词其余部分的许多混乱。如果第一个 token 变了，模型就会丢失语义线索。

结论: 支持一致性分词的理由

这项研究强调了我们构建大型语言模型方式中一个隐藏的低效之处。我们依赖像 BPE 这样的数据驱动分词器，因为它们易于训练且文本压缩效果好。然而，这种便利是有代价的。

不需要语言学纯洁性: 我们不需要分词器像专业语言学家那样行事。模型并不在乎切分是否精确地发生在后缀边界上。
一致性不可妥协: 模型确实在乎同一个单词在不同语境下是否看起来不同。当一个单词词干的分词在其屈折变化形式中漂移不定时，模型就难以进行泛化，特别是对于具有丰富形态的语言 (如芬兰语或匈牙利语) 和罕见单词而言。

这对多语言 LLM 的未来具有重要意义。当我们试图包含资源较少的语言时，我们不能依靠海量的频率数据来暴力强迫模型死记硬背每一个不规则的 token 切分。

作者建议，未来的分词策略不应仅仅关注压缩率或频率。它们应该针对范式内的一致性进行优化。如果我们能确保 “write”、“writes” 和 “writing” 都共享一个一致的子词锚点，我们就能制造出学习更快、泛化能力更强、并能更深层地理解语言结构的模型。

问题所在: 当统计学忽略语法时#

标准 1: 遵守语素边界#

“重叠”有多糟糕？#

标准 2: 分词一致性#

实验: 分词真的重要吗？#

结果 1: 语言学边界并不重要#

结果 2: 一致性是关键#

位置重要吗？#

结论: 支持一致性分词的理由#