超越词表：教会 AI “看”字如何解锁多语言能力

语言是一件奇妙的事物。如果你说英语，“Love” 是由四个字母组成的熟悉序列。如果你说希腊语，“αγάπη” 承载着同样的情感分量，但看起来却完全不同。如果你说中文，“爱”则是一个独特的表意文字。

对人类来说，这些只是我们与意义相关联的符号。然而，对于现代人工智能而言，这些差异却是一个巨大的工程难题。

大多数大型语言模型 (LLM) ，如 BERT 或 GPT，都依赖于一个固定的“词表”——这是一个巨大的查找表，其中每个单词或子词都被分配了一个特定的 ID 编号。如果模型遇到了一个不在其词表中的单词 (即“集外词”或 OOV 错误) ，它就会陷入困境。为了使模型具备多语言能力，工程师们通常不得不用数万个来自不同语言的新 Token 来扩充这个词表，这需要海量的数据集和计算能力。

但是，如果模型不需要词表呢？如果它们可以不分语言，直接“看”着文本图像并理解它呢？

这就是 MTLS (Making Texts into Linguistic Symbols，将文本转化为语言符号) 的前提，这是合肥工业大学研究人员发表的一篇引人入胜的新论文。他们提出了一种方法，剥离像 BERT 这类模型僵化的词表，取而代之以一个视觉的、符号化的处理系统。结果如何？一个仅接受过少量英语数据训练的模型，突然间能够处理中文、韩语甚至科普特语——这些都是它以前从未有效“见过”的语言。

在这篇文章中，我们将打破词表的壁垒，探索 MTLS 的工作原理、其“SSS 嵌入”背后的数学原理，以及为什么这可能是高效多语言 AI 的未来。

词表瓶颈

要理解为什么 MTLS 是必要的，我们需要先看看传统的自然语言处理 (NLP) 是如何处理文本的。

在传统的流程 (如 BERT) 中，文本通过 Tokenization (分词/标记化) 进行处理。句子“I love AI”可能会被拆分为 ['I', 'love', 'AI']。模型在字典中查找这些 Token。I 变成 ID 1045，love 变成 ID 2293，以此类推。这些 ID 映射到模型处理的向量 (嵌入) 上。

当你跨越语言边界时，问题就出现了。如下图所示，如果一个模型的字典只包含英语，那么希腊语单词“αγάπη”对它来说就是不可见的。这会触发 OOV 错误。

图 1: MTLS 简要概述。(a) 说明了利用语言符号与文本之间的映射关系的好处。(b) 展示了元符号系统可以作为语言符号与嵌入空间之间的桥梁。

图 1(a) 说明了这种局限性。当语言改变时，传统的查找方法就会失效。然而, 图 1(b) 引入了 MTLS 概念: 一个 元符号系统 (Meta-Symbol System) 。

研究人员认为，虽然符号不同，但“语义核心” (普遍意义) 是共享的。通过将单词视为 语言符号 (从文本渲染的像素图像) 而不是字典 ID，我们可以将不同的视觉表示 (俄语、韩语、中文、阿拉伯语) 映射到一个共享的嵌入空间中，而无需为地球上的每种语言预定义一个词表。

解决方案: SSS 嵌入

这篇论文的核心创新是用一个名为 SSS 嵌入 的新模块替换预训练语言模型 (PLM) 的传统嵌入层。

SSS 代表:

Symbolic Embedding (符号嵌入)
Selective Embedding (选择性嵌入)
Spatial Embedding (空间嵌入)

目标是获取文本的原始图像并将其转换为标准模型 (如 BERT) 可以理解的向量，从而有效地“欺骗”模型去处理它未曾受训过的语言。让我们分解一下这个架构。

图 2: 我们提出的 MTLS 概述。我们将符号嵌入、选择性嵌入和空间嵌入的组合称为 SSS 嵌入。符号嵌入用于获取语言符号的嵌入，选择性嵌入获取语言符号的特定符号化偏置嵌入，空间嵌入将元符号系统空间中的嵌入映射到 PLM 的嵌入空间。

1. 符号嵌入: 读取像素

第一步是从文本文件转变为像素。系统将单词渲染成固定大小的图像。

MTLS 不会一次性分析整个图像，而是采用类似于 视觉 Transformer (ViT) 的策略。它将单词图像切成小的正方形“图块 (patches) ” (例如 \(16 \times 16\) 像素) 。

这些图块就像是新的“Token”。卷积神经网络 (CNN) 扫描这些图块以提取视觉特征——曲线、线条和笔画——从而创建一个向量序列。如果你有一串单词，每个单词的第一个图块被用作该单词的主要符号表示。

2. 选择性嵌入: 混合专家模型

并非所有的书写系统都是一样的。与拉丁文字的线性流动相比，汉字密集、复杂的笔画需要不同的处理注意力。单个神经网络可能难以这种多样化的视觉风格中进行泛化。

为了解决这个问题，作者引入了使用 混合专家模型 (MoE) 的 选择性嵌入 。

可以把这想象成一个专家团队。你有 \(N\) 个专家 (表示为矩阵) ，对于每一段文本，一个“门控 (Gate) ”决定哪些专家最适合处理它。

描述专家和门控函数的公式。

在这里，\(x\) 是上一步的符号嵌入。Gate 函数计算概率分布——本质上是在问，“专家 A 与专家 B 相比，在这个特定符号的处理上有多大把握？”

系统不会对每个单词使用所有专家 (那样会很慢) 。相反，它只选择 Top-K 个专家。

描述使用 TopK 专家计算偏置嵌入的公式。

这些被选中的专家的输出被相加，创建一个 偏置嵌入 。这种偏置为原始视觉特征增加了细微差别，使模型能够根据脚本的复杂性或风格调整其表示。

3. 空间嵌入: 跨越鸿沟

现在我们有了文本的丰富视觉表示。但我们面临一个问题: 我们想把这个插入到像 BERT 这样的预训练模型中。BERT 期望的是遵循非常特定的数学分布 (其“嵌入空间”) 的向量。如果我们只是把视觉向量硬塞进 BERT，模型会输出无意义的内容。

空间嵌入 充当了视觉世界和 BERT 语义世界之间的翻译器。它使用 Transformer 编码器-解码器结构，在预训练期间使用两个特定的损失函数来对齐这些空间。

步骤 A: 分布相似性

首先，模型确保数据分布的“形状”是匹配的。它使用 Kullback-Leibler (KL) 散度比较新视觉嵌入的概率分布 (\(P_h\)) 与原始文本嵌入的概率分布 (\(P_t\)) 。

分布相似性损失 (KL 散度) 的公式。

这确保了视觉嵌入的 一般统计特性 看起来像 BERT 习惯的文本嵌入。

步骤 B: 空间相似性

接下来，模型使用 对比学习 。它强制单词的视觉嵌入 (例如“Cat”的图像) 在数学上接近“Cat”的原始文本 ID 嵌入，同时将其推离其他单词的嵌入。

使用对比学习的空间相似性损失公式。

最终的训练目标结合了这两个目标:

总损失公式。

通过最小化这个总损失，MTLS 学会将视觉符号投影到向量空间中语义意义所在的精确位置。

实验: 事半功倍

这篇论文的实验设置极其精简，这使得结果更加令人印象深刻。

骨干模型: BERT 和 RoBERTa (单语言版本) 。
训练数据: 仅约 12,000 句英语数据 , 来自通用依赖树库。
无多语言训练: 模型没有在中文、阿拉伯语或韩语文本上进行训练。它只见过英语。

研究人员随后测试了模型处理跨越不同语系 (印欧语系、汉藏语系、亚非语系等) 的 20 种不同语言 的能力。

任务 1: 词性标注 (POS)

在这个任务中，模型必须识别一个词是名词、动词、形容词等。研究人员在“零样本”设置下对此进行了测试——这意味着模型在英语 POS 标签上进行了微调，然后立即要求其对其他语言的单词进行标注，而无需任何进一步的训练。

表 1: POS 标注任务的结果。mBERT、XLM-R、标准 BERT 和 MTLS-BERT 的比较。

从表 1 得出的关键结论:

相对于基线的巨大提升: 看一下“Zero-Shot (零样本) ”列。标准 BERT 在中文 (ZHO) 上的得分仅为惨淡的 14.3% , 在阿拉伯语 (ARA) 上为 15.6% 。这是意料之中的；标准 BERT 不认识这些字母表。
MTLS 的改进: MTLS-BERT 跃升至 28.9% (ZHO) 和 17.5% (科普特语 - COP) 。
科普特语的惊喜: 看一下 COP (科普特语) 这一列。大型多语言模型 mBERT 和 XLM-R 的得分约为 5% 。它们之所以失败，是因为科普特语是一种低资源语言，经常在它们的大规模训练集中缺失。然而，MTLS 得分为 17-18% 。因为 MTLS 是从视觉上阅读符号，所以它比依赖固定词表的模型能更好地泛化到未见过的脚本。

任务 2: 命名实体识别 (NER)

NER 涉及在文本中查找人名、地名和组织机构名。这不仅需要语法句法，还需要语义理解。

表 2: NER 任务的结果。不同语言模型的比较。

从表 2 得出的关键结论: 同样，我们看到了“零样本”能力的闪光点。标准 BERT 在中文上得到 1.6% 。 MTLS-BERT 得到 2.2% 。虽然绝对数值很低 (NER 很难！) ，但相对提升是明显的。

然而，这是一个权衡。注意 ENG (英语) 和 VIE (越南语) 的得分。在拉丁文字语言上，MTLS 的表现略逊于原始 BERT。这是用视觉估计替换高度优化的字典查找的代价。模型获得了广度 (更多语言) ，但在其原生脚本中失去了一些精度。

为什么它有效？ (消融实验)

复杂的 SSS 架构真的有必要吗？研究人员禁用了模型的部分组件进行检查。

表 3: 消融实验结果显示移除组件后性能下降。

w/o PT (无预训练) : 性能崩塌。视觉空间和语义空间之间的映射必须通过学习获得。
w/o SE (无选择性嵌入) : 性能显著下降。“混合专家”对于处理不同的书写风格至关重要。
w/o SSL (无空间相似性) : 模型几乎完全失效。仅仅匹配分布是不够的；需要对比学习来将嵌入锁定在正确的位置。

效率与参数分析

MTLS 最有力的论据之一是关于模型大小的效率。多语言模型通常非常庞大，因为它们的嵌入层 (词表) 必须巨大才能覆盖数千种语言。

图 3: MTLS 中的 SSS 嵌入与 PLM 嵌入之间的参数比较。

如 图 3 所示, XLM-R (一种流行的多语言模型) 的嵌入层拥有近 2 亿个参数 。那仅仅是字典！

相比之下, SSS 嵌入 (蓝色柱状图) 要小得多，大约只有 8500 万个参数 。它比单语言 BERT 嵌入大，但比多语言嵌入小得多，同时在理论上提供了处理任何可以渲染为图像的语言的能力。

视觉文本是未来吗？

论文还探讨了如果你只使用符号嵌入 (仅仅是 CNN 部分) 而没有复杂的选择性或空间映射会发生什么。

图 4: 在多语言 POS 标注任务中是否使用符号嵌入的结果。

图 4 显示，仅仅将文本换成图像 (BERT-SE) 本身效果并不好。繁重的工作是由 空间嵌入 完成的——即那些图像到语义空间的智能映射。

结论

“MTLS”论文提出了一个范式转变。几十年来，NLP 一直是基于文本的。我们假设要理解语言，计算机必须处理离散的文本字符。MTLS 证明了计算机可以像人类一样通过看像素来“阅读”。

通过将文本视为 语言符号 , 作者:

消除了 集外词 (OOV) 问题。
使仅在英语上训练的模型能够处理 科普特语、中文和阿拉伯语 。
减少了与多语言词表相关的参数膨胀。

虽然与在海量多语言语料库上训练的模型相比仍有性能差距，但 MTLS 为 低资源语言 提供了一条充满希望的道路。对于那些没有足够互联网数据来建立庞大词表的语言来说，简单地“看”着文本可能是加入 AI 革命的关键。

本文基于 Wenlong Fei 等人的研究论文 “MTLS: Making Texts into Linguistic Symbols”。

词表瓶颈#

解决方案: SSS 嵌入#

1. 符号嵌入: 读取像素#

2. 选择性嵌入: 混合专家模型#

3. 空间嵌入: 跨越鸿沟#

步骤 A: 分布相似性#

步骤 B: 空间相似性#

实验: 事半功倍#

任务 1: 词性标注 (POS)#

任务 2: 命名实体识别 (NER)#

为什么它有效？ (消融实验)#

效率与参数分析#

视觉文本是未来吗？#

结论#