为什么你的分词器存在偏差（以及均匀采样如何修复它）

如果你曾经训练过现代自然语言处理 (NLP) 模型，你很可能使用过子词分词器 (subword tokenizer) 。无论是字节对编码 (BPE)、WordPiece 还是 UnigramLM，分词都是我们庞大的语言模型运行的隐形基础。我们通常将分词视为一个已解决的预处理步骤——一个将文本转换为 ID 的静态查找表。

但是，如果我们向模型提供 token 的方式限制了它的潜力呢？

为了使模型更加鲁棒，研究人员转向了子词正则化 (subword regularization) ——一种我们故意“破坏”单词的标准分词，以便向模型展示同一文本的不同表示形式的技术。虽然这种方法有效，但新的研究表明，目前最流行的实现方法 (如 BPE-Dropout) 在数学上是有缺陷的。它们存在严重的偏差 (biased) , 限制了模型看到语言结构的全貌。

在这篇文章中，我们将深入探讨研究论文 《Distributional Properties of Subword Regularization》 (子词正则化的分布特性) 。我们将探讨为什么当前的随机分词器存在偏差，作者提出的基于图论的解决方案 (均匀采样) ，以及为什么这个简单的转换可以立即提高机器翻译的性能。

子词正则化中隐藏的偏差

要理解解决方案，我们首先必须理解问题所在。

确定性分词是如何工作的

标准算法如 BPE 是确定性的。它们致力于最大化压缩率。如果你将单词 tokenization 输入到一个训练好的 BPE 分词器中，它总是会输出相同的分割，也许是: to ken ization

这很高效，但它产生了一种依赖性。模型会过度依赖这个特定的序列。如果模型在实际应用场景中遇到拼写错误或罕见的形态变化，它可能会失败，因为它从未在不同的上下文中学习过该单词的子组件。

随机分词 (Dropout) 的兴起

为了解决这个问题，研究人员引入了随机性，即所谓的子词正则化 。最常见的方法是 BPE-Dropout 。

在 BPE-Dropout 中，在分词过程中，算法会以概率 \(p\) 随机跳过合并规则。这迫使分词器回退到更小的子词。

标准形式: to ken ization
Dropout 版本 1: t ok en ization
Dropout 版本 2: to ken iz ation

这起到了数据增强和正则化的作用。它使模型对噪声更加鲁棒，并帮助它学习单词的组合性。

问题所在: 随机得不够彻底

这正是论文的核心洞见: 仅仅因为一个过程是随机的，并不意味着它能均匀地覆盖搜索空间。

BPE-Dropout 是在贪婪合并算法中*事后 (post-hoc) *注入噪声。它并不是查看单词所有可能的分割方式然后选择一个。它只是随机地破坏“最佳”方式。作者发现这导致了严重的分布偏差 。即使有很高的 dropout 率，分词器也严重偏向于产生少数几种接近标准形式的分割，而完全忽略了数千种其他有效的分割方式。

展示 BPE-Dropout 和 MaxMatch-Dropout 偏差概率的表格。

如上表所示，对于单词“tokenization”，BPE-Dropout 将高达 97.77% 的概率分配给了标准分割。第二常见的分割仅占 1.89%。分解这个单词的绝大多数有效方式获得的概率接近于零。

如果正则化的目的是让模型接触独特的上下文并增强数据，那么这种偏差正在人为地限制训练的有效性。

解决方案: 基于格 (Lattices) 的均匀采样

作者提出了一个理论上严谨的替代方案: 均匀采样 (Uniform Sampling) 。

我们不应该随机破坏 BPE 算法，而应该利用现有词表定义一个单词所有可能分词的“搜索空间”，然后以相等的概率从中选择一条路径。

第一步: 将单词可视化为图

为了实现这一点，我们要从简单的字符串匹配转向图论。我们可以使用有限状态转换器 (FSTs) 来表示分词过程。

词表转换器 (\(\mathcal{T}\)): 我们创建一个图来表示词表中的每一个子词。
单词自动机 (\(\mathcal{A}\)): 我们将输入单词 (例如 “ababc”) 表示为线性的字符序列。
组合 (\(\mathcal{A} \circ \mathcal{T}\)): 通过结合这两者，我们创建了一个格 (Lattice) 。

这个格是一个有向无环图 (DAG)，其中起始节点是单词的开头，结束节点是单词的结尾，从起点到终点的每一条路径都代表了使用该词表的一种有效分词方式。

图 1: 从 A circle T 中均匀采样分词结果。

在上面的图 1 中:

(a) 显示了输入单词 “ababc”。
(b) 显示了词表的转换器 (所有已知的子词) 。
(c) 是生成的格 (Lattice) 。穿过这个图的每一条路径都是 “ababc” 的一种有效分词方式。

第二步: 无偏差采样

一旦我们有了这个格，问题就变了。我们不需要“丢弃 (drop) ”合并规则。我们只需要从起始节点 (0) 到结束节点 (6) 选择一条随机路径。

然而，朴素的随机游走 (random walk) 是行不通的。如果我们在每个岔路口只是简单地抛硬币，较短的路径或分支较少的路径将会被过度代表。为了确保均匀采样——即每条唯一的完整路径被选中的概率完全相同——作者使用了一种特定的采样算法 (改编自 Lavrov, 2018) 。

该算法计算每个节点可能的下游路径数量。然后它对每个交叉路口的决策进行加权，使得任何完整路径的最终概率正好是 \(1/N\)，其中 \(N\) 是有效分词的总数。

比较分布

标准 Dropout 方法与这种新的均匀采样之间的差异是巨大的。

图 3: 通过香农效率测量的分布均匀性。

图 3 展示了香农效率 (Shannon Efficiency) , 这是衡量分布均匀程度的指标 (越高越好/越均匀) 。

红圈 (BPE Dropout): 即使增加 dropout 概率 \(p\)，效率也几乎没有攀升。分布仍然是不均匀且有偏差的。
黑三角 (Uniform): 这种方法保证了最大熵。它完美均匀地探索了分割空间。

为什么这很重要: 覆盖率

我们为什么关心熵？因为数据增强 。我们希望模型看到尽可能多不同的形态分解，以学习真实的底层语言结构。

图 2: 在 N 次采样和 Dropout 概率 p 下观察到的单词的唯一分词数量。

图 2 可能是论文中最引人注目的可视化图表。它展示了“覆盖率”的热力图——即在训练期间实际观察到了多少种唯一的分词方式。

第一行 (Dropout): 注意大片的黑色区域。即使有数百万个样本，BPE-Dropout (左上角) 也未能产生大多数有效的分词。它只是不断地输出相同的几个版本。
第二行 (Uniform): 均匀采样方法点亮了整个图表。它使用相同的词表让模型接触到了更加多样化的输入集合。

训练算法

实现这一点的过程令人惊讶地简单，可以作为现有分词器的“即插即用”替代品。作者提出了一种混合策略。我们不想要纯粹的混乱；我们仍然希望模型学习标准分词，因为那是它在推理过程中最可能看到的。

训练策略如下工作:

设定一个概率 \(p\) (例如 0.1 或 0.25) 。
对于训练语料库中的每个单词:

以概率 \(p\)，使用均匀采样算法生成一个新的分词。
否则，使用标准的确定性分词。

算法 3: 均匀采样分词。

这种混合方法确保了模型有一个稳定的目标 (确定性路径) ，同时不断受到无偏均匀样本 (增强路径) 的正则化。

实验与结果

理论听起来很可靠，但它真的能转化为更好的性能吗？作者在英语 \(\leftrightarrow\) 德语、英语 \(\leftrightarrow\) 罗马尼亚语和英语 \(\leftrightarrow\) 法语的机器翻译任务上进行了测试。

他们将基准 BPE/MaxMatch 与其 Dropout 变体以及新的均匀采样变体进行了比较。

主要发现

结果在几乎所有指标 (BLEU 分数、CHRF 和 COMET) 上都是一致的。

表 5: 机器翻译性能的主要结果。

如上面的结果表所示 (参考论文附录中更广泛的结果) :

均匀采样胜出: 在几乎每一对语言和指标中, 均匀采样 (p=0.1 或 p=0.25) 都优于标准的 BPE-Dropout 和 MaxMatch-Dropout。
效率提升: 这种改进不仅体现在原始翻译质量 (BLEU) 上，还体现在语义评估 (COMET) 上。例如，在英语 \(\rightarrow\) 德语任务中，均匀采样模型的 COMET 得分为 78.12 , 而 Dropout 模型的得分为 77.51 。
一致性: 作者指出，在英语 \(\rightarrow\) 罗马尼亚语任务中，均匀采样在所有指标和底层分词器中都是表现最好的模型。

假设成立: 通过消除子词正则化中的偏差，模型获得了更高质量的数据增强，从而导致更好的泛化能力。

结论

我们经常痴迷于模型架构——增加更多的层、注意力头或专家 (Experts) ——而忽视了数据管道。这篇论文强调, 我们如何分词与我们分词什么同样重要。

像 BPE-Dropout 这样的标准子词正则化方法就像是一个“创可贴”，注入的噪声在统计上是有偏差的，且范围有限。通过严格地将分词空间建模为格并从中均匀采样，我们可以解锁:

真正的正则化: 打破对标准分割的依赖。
最大化增强: 看到同一数据的更多独特视角。
更好的性能: 在翻译等下游任务中获得持续的收益。

对于学生和从业者来说，结论很清楚: 随机性并不总是均匀的。在为 AI 设计随机过程时，确保你的分布实际上覆盖了搜索空间，可能就是优秀模型与最先进模型之间的区别。

本文引用的所有图片和数据均来自 Cognetta, Zouhar 和 Okazaki 的研究论文《Distributional Properties of Subword Regularization》。

子词正则化中隐藏的偏差#

确定性分词是如何工作的#

随机分词 (Dropout) 的兴起#

问题所在: 随机得不够彻底#

解决方案: 基于格 (Lattices) 的均匀采样#

第一步: 将单词可视化为图#

第二步: 无偏差采样#

比较分布#

为什么这很重要: 覆盖率#

训练算法#

实验与结果#

主要发现#

结论#