如果你读到句子“The dog bit the man” (狗咬了人) ,你很清楚谁遭殃了。如果你把词序换成“The man bit the dog” (人咬了狗) ,意思就完全反转了。这是因为英语严重依赖词序来传达意义。要理解这个句子,你不仅需要知道出现了什么词,还需要知道它们位于哪里。
但是,如果你说的一种语言里,“The dog bit the man”和“Man dog bit the”意思完全一样,那会怎样?
在自然语言处理 (NLP) 的世界里,我们设计最强大的模型 (如 Transformers 和 BERT) 时,很大程度上是基于像英语这类语言的直觉。我们假设知道单词的位置至关重要。这由一种称为位置编码 (Positional Encoding, PE) 的机制来处理。然而,一篇名为*“A Morphology-Based Investigation of Positional Encodings”* (基于形态学的位置编码研究) 的精彩研究论文挑战了这一假设。
研究人员提出了一个根本性的问题: 我们要用来追踪词序的机制,对于所有语言来说真的都是必要的吗?
在这篇文章中,我们将深入探讨这项研究,探索语言学与深度学习架构之间的关系。我们将看到语言的结构复杂性 (形态学) 如何使标准的 Transformer 组件变得多余,以及这对多语言人工智能的未来意味着什么。
深度学习中的“英语偏见”
在剖析这篇论文之前,我们需要了解当前的架构现状。
现代大型语言模型 (LLM) 建立在 Transformer 架构之上。Transformer 的核心机制——自注意力 (Self-Attention) ——有一个特点,那就是它是“排列不变的”。通俗地说,如果你给 Transformer 一袋乱序的单词,它处理它们的方式与处理有序句子完全相同。对于原始的注意力机制来说,“I love AI”和“AI love I”看起来是一模一样的。
为了解决这个问题,Transformer 的原创者引入了位置编码 (PE) 。 这些是添加到词嵌入中的数学向量,就像时间戳或坐标标记一样。它们告诉模型: “这个词是第一个”,“这个词是第二个”,依此类推。
对于英语,这是不可或缺的。但这篇论文的作者认为,这种设计选择忽略了一个巨大的研究领域: 语言类型学 (Linguistic Typology) 。
形态学 vs. 句法
语言通常使用两种主要策略来传达谁对谁做了什么:
- 词序 (句法) : 将主语放在动词前,宾语放在动词后 (如英语或汉语) 。
- 词形 (形态学) : 改变单词本身的结构 (添加后缀、前缀或修改词根) 来表明其角色。
依赖词序的语言通常被称为分析语 (Analytic) 或形态贫乏 (Morphologically Poor) 语言。依赖修改单词的语言被称为综合语 (Synthetic) 或形态丰富 (Morphologically Rich) 语言。
在像梵语、芬兰语或土耳其语这样的形态丰富语言中,“狗”这个词可能会根据是它在咬人、被咬还是被给了一根骨头而改变词尾。因为单词本身携带了语法信息,所以单词出现的顺序就没那么重要了。
这就引出了论文的核心假设: 如果一种语言在单词内部编码语法信息 (高形态学) ,深度学习模型应该较少依赖位置编码。
假设的可视化
为了真正理解这一点,让我们看看研究人员提供的英语 (形态贫乏语言) 和梵语 (形态丰富语言) 之间的比较。

如上方的 图 1 所示,看左边的英语部分。如果你轮换主语——Father (父亲) 、Child (孩子) 、King (国王) ——意思会发生巨大的变化。结构是僵化的。
现在看右边的梵语部分。单词有特定的结尾 (标记) ,如 acc (宾格) 。
- Pita (父亲)
- Rajne (给国王)
- Balkam (孩子 - 宾语)
- Datvan (给)
无论你说“Father to the King Child Gave”还是“Child to the King Father Gave”,后缀都确切地告诉你谁把谁给了谁。尽管顺序被打乱,意思依然保持完整。
研究人员认为,在梵语上训练的 BERT 模型,如果我们拿走它看词序的能力,它不应该惊慌失措。然而,在英语上训练的 BERT 模型则应该会彻底失败。
方法论: 如何测试假设?
为了证明这种关系,作者进行了一项大规模的实证研究,涵盖了 9 个语系 中的 22 种语言 。
1. 量化复杂性 (TTR 指标)
首先,他们需要一种方法来衡量一种语言的“形态复杂性”。他们使用了一个称为 类符-形符比 (Type-Token Ratio, TTR) 的指标。
- 形符 (Token) : 文本中的单词总数。
- 类符 (Type) : 该文本中唯一单词的数量。
在英语中,“walk”、“walks”、“walked”和“walking”是不同的类符,但我们的变化并没有那么多。在芬兰语这样的语言中,一个名词可能有数百种形式。因此,形态丰富的语言具有更高的 TTR,因为它们在相同数量的文本中生成了更多独特的单词形式。
作者使用 FLORES-200 基准计算了所有 22 种语言的 TTR,以确保一致性。
- 低 TTR (分析语) : 越南语 (0.077) 、汉语 (0.17) 、英语 (0.194) 。
- 高 TTR (综合语) : 芬兰语 (0.428) 、韩语 (0.465) 、土耳其语 (0.376) 。
2. “脑叶切除”实验
实验设置很巧妙但也直截了当。他们使用了每种语言的预训练 BERT 模型。然后,他们在各种下游任务 (如命名实体或解析句子) 上对这些模型进行了微调。
他们运行了两个版本的训练:
- 基线 (Baseline) : 标准 BERT,位置编码完好无损。
- 扰动 (Perturbed) : BERT,位置编码设为零 (实际上移除了模型看词序的能力) 。
然后他们测量了性能的 相对下降 (Relative Decrease) 。
\[ \text{Relative Decrease} = \frac{\text{Score}_{\text{baseline}} - \text{Score}_{\text{perturbed}}}{\text{Score}_{\text{perturbed}}} \]如果模型在没有 PE 的情况下崩溃,相对下降就会很高 (意味着 PE 是必不可少的) 。如果模型几乎不受影响,相对下降就会很低 (意味着 PE 没起多大作用) 。
3. 语言范围
为了确保结果不是侥幸,该研究使用了一组多样化的语言,如下表 2 所示。这防止了研究仅仅偏向欧洲语言。

结果: 句法任务
对语法的最直接测试是句法任务。研究人员观察了 命名实体识别 (NER) 和 词性 (POS) 标注。这些任务要求模型理解句子的语法结构,以识别名词、动词、人名和地点。
让我们看看命名实体识别的结果。

图 2 讲述了一个令人信服的故事。纵轴显示了移除位置编码后性能下降了多少。横轴上的语言大致按形态复杂性排序。
- 左侧 (分析语) : 看越南语 (vi) 和汉语 (zh) 。下降是巨大的——越南语超过 60%!这些语言几乎没有形态变化;它们几乎完全依赖词序。没有 PE,模型就迷失了。
- 中间 (中等) : 英语 (en) 和法语 (fr) 位于中间。它们遭受了显著的下降,但没有纯分析语那么糟糕。
- 右侧 (综合语) : 看土耳其语 (tr) 和芬兰语 (fi) 。曲线变平了。性能下降微乎其微。模型基本上在说: “我不需要知道位置;词尾告诉了我需要知道的一切。”
这一趋势在 词性 (POS) 标注任务中重复出现,如图 3 所示。

在这里,越南语 (vi) 和汉语 (zh) 再次出现了最高的相对性能下降。当我们向右移动到像俄语 (ru) 和芬兰语 (fi) 这样形态丰富的语言时,对位置编码的依赖性减弱了。
依存句法分析
也许最难的句法任务是 依存句法分析 (Dependency Parsing) ——梳理单词之间的关系树 (例如,确定哪个形容词修饰哪个名词) 。这通常需要严格关注结构。

在 图 4 中,趋势非常明显。
- 汉语 (zh) : 巨大的下降 (约 60%) 。
- 芬兰语 (fi) : 下降幅度小得多 (约 20%) 。
这证实了对于形态丰富的语言,句法被编码在单词内部。“词袋” (一个没有顺序的句子) 仍然包含足够的信息来重建语法树,因为单词的“乐高积木”只能以特定的方式拼合在一起。
结果: 语义任务
对于那些更多关于意义而非严格语法的任务,这种趋势是否成立?研究人员观察了 XNLI (自然语言推理) 和 PAWS-X (复述) 。
在这些任务中,模型必须确定两个句子是否相互矛盾或意思相同。

图 5 显示了自然语言推理的结果。与句法任务相比,曲线更平坦,但模式依然存在。越南语 (vi) 仍然最依赖位置,而斯瓦希里语 (sw) 和乌尔都语 (ur) 依赖较少。
为什么曲线更平坦?作者认为,语义任务通常可以使用“关键词匹配”来解决。如果句子 A 提到“猫”和“吃”,句子 B 提到“猫科动物”和“食物”,即使不知道确切的语法,你也能猜到它们是相关的。因此,位置编码在这些任务中对于所有语言来说都不那么关键,尽管严格排序的语言仍然更需要它。
统计结论
为了形式化这些观察结果,作者计算了 斯皮尔曼相关系数 (Spearman Correlation Coefficient) 。 这个统计指标告诉我们两个变量之间的相关性有多强。在这种情况下,他们关联了:
- 形态复杂性 (TTR)
- 性能的相对下降 (PE 的重要性)
-1.0 的分数意味着完全负相关: 随着复杂性上升,对 PE 的需求下降。

如 表 1 所示,相关性呈强负相关。
- 依存句法分析 (UAS) : -0.882。对于社会/语言学数据来说,这是一个令人难以置信的强相关性。它有效地证明了假设: 单词越复杂,顺序就越不重要。
- NER: -0.742。
- XNLI: -0.773。
数据提供了确凿的证据,证明位置编码的效用不是普遍的——它与语言的类型学性质息息相关。
结论: 重新思考“一种架构适应所有”的方法
这篇研究论文为 NLP 领域提供了一个至关重要的现实检验。多年来,我们将 Transformer 架构 (及其位置编码) 视为通用的最佳解决方案。这项研究表明,这种设计实际上是针对像英语这样的 分析语 优化的。
作者简洁地总结了他们的贡献:
“我们的发现表明,位置编码的重要性随着语言形态复杂性的增加而降低。”
为什么这很重要?
- 效率: 训练 LLM 既昂贵又耗时。如果我们专门为芬兰语、土耳其语或梵语构建模型,我们可能会把参数和计算资源浪费在模型几乎不使用的位置编码上。我们有可能为这些语言设计更高效、具有形态意识的架构。
- 性能: 相反,简单地将以英语为中心的架构套用到形态丰富的语言上可能是次优的。如果模型在应该关注单词结构时被迫关注位置,它的学习效率可能会很低。
- 更好的分词: 结果表明,对于丰富的语言,我们将单词分解成碎片的方式 (分词) 可能比我们将它们排序的方式更重要。
随着 AI 变得真正的全球化,像这样的研究提醒我们,语言是多样化的。我们的模型应该反映人类交流的美丽复杂性,而不是强迫每种语言都适应一个英语形状的盒子。
这篇博客文章解释了 Ghosh 等人发表的研究“A Morphology-Based Investigation of Positional Encodings”,涵盖了他们关于语言形态学如何与深度学习架构相互作用的实验。
](https://deep-paper.org/en/paper/2404.04530/images/cover.png)