语言是一件奇妙的事物。如果你说英语,“Love” 是由四个字母组成的熟悉序列。如果你说希腊语,“αγάπη” 承载着同样的情感分量,但看起来却完全不同。如果你说中文,“爱”则是一个独特的表意文字。
对人类来说,这些只是我们与意义相关联的符号。然而,对于现代人工智能而言,这些差异却是一个巨大的工程难题。
大多数大型语言模型 (LLM) ,如 BERT 或 GPT,都依赖于一个固定的“词表”——这是一个巨大的查找表,其中每个单词或子词都被分配了一个特定的 ID 编号。如果模型遇到了一个不在其词表中的单词 (即“集外词”或 OOV 错误) ,它就会陷入困境。为了使模型具备多语言能力,工程师们通常不得不用数万个来自不同语言的新 Token 来扩充这个词表,这需要海量的数据集和计算能力。
但是,如果模型不需要词表呢?如果它们可以不分语言,直接“看”着文本图像并理解它呢?
这就是 MTLS (Making Texts into Linguistic Symbols,将文本转化为语言符号) 的前提,这是合肥工业大学研究人员发表的一篇引人入胜的新论文。他们提出了一种方法,剥离像 BERT 这类模型僵化的词表,取而代之以一个视觉的、符号化的处理系统。结果如何?一个仅接受过少量英语数据训练的模型,突然间能够处理中文、韩语甚至科普特语——这些都是它以前从未有效“见过”的语言。
在这篇文章中,我们将打破词表的壁垒,探索 MTLS 的工作原理、其“SSS 嵌入”背后的数学原理,以及为什么这可能是高效多语言 AI 的未来。
词表瓶颈
要理解为什么 MTLS 是必要的,我们需要先看看传统的自然语言处理 (NLP) 是如何处理文本的。
在传统的流程 (如 BERT) 中,文本通过 Tokenization (分词/标记化) 进行处理。句子“I love AI”可能会被拆分为 ['I', 'love', 'AI']。模型在字典中查找这些 Token。I 变成 ID 1045,love 变成 ID 2293,以此类推。这些 ID 映射到模型处理的向量 (嵌入) 上。
当你跨越语言边界时,问题就出现了。如下图所示,如果一个模型的字典只包含英语,那么希腊语单词“αγάπη”对它来说就是不可见的。这会触发 OOV 错误。

图 1(a) 说明了这种局限性。当语言改变时,传统的查找方法就会失效。然而, 图 1(b) 引入了 MTLS 概念: 一个 元符号系统 (Meta-Symbol System) 。
研究人员认为,虽然符号不同,但“语义核心” (普遍意义) 是共享的。通过将单词视为 语言符号 (从文本渲染的像素图像) 而不是字典 ID,我们可以将不同的视觉表示 (俄语、韩语、中文、阿拉伯语) 映射到一个共享的嵌入空间中,而无需为地球上的每种语言预定义一个词表。
解决方案: SSS 嵌入
这篇论文的核心创新是用一个名为 SSS 嵌入 的新模块替换预训练语言模型 (PLM) 的传统嵌入层。
SSS 代表:
- Symbolic Embedding (符号嵌入)
- Selective Embedding (选择性嵌入)
- Spatial Embedding (空间嵌入)
目标是获取文本的原始图像并将其转换为标准模型 (如 BERT) 可以理解的向量,从而有效地“欺骗”模型去处理它未曾受训过的语言。让我们分解一下这个架构。

1. 符号嵌入: 读取像素
第一步是从文本文件转变为像素。系统将单词渲染成固定大小的图像。
MTLS 不会一次性分析整个图像,而是采用类似于 视觉 Transformer (ViT) 的策略。它将单词图像切成小的正方形“图块 (patches) ” (例如 \(16 \times 16\) 像素) 。
这些图块就像是新的“Token”。卷积神经网络 (CNN) 扫描这些图块以提取视觉特征——曲线、线条和笔画——从而创建一个向量序列。如果你有一串单词,每个单词的第一个图块被用作该单词的主要符号表示。
2. 选择性嵌入: 混合专家模型
并非所有的书写系统都是一样的。与拉丁文字的线性流动相比,汉字密集、复杂的笔画需要不同的处理注意力。单个神经网络可能难以这种多样化的视觉风格中进行泛化。
为了解决这个问题,作者引入了使用 混合专家模型 (MoE) 的 选择性嵌入 。
可以把这想象成一个专家团队。你有 \(N\) 个专家 (表示为矩阵) ,对于每一段文本,一个“门控 (Gate) ”决定哪些专家最适合处理它。

在这里,\(x\) 是上一步的符号嵌入。Gate 函数计算概率分布——本质上是在问,“专家 A 与专家 B 相比,在这个特定符号的处理上有多大把握?”
系统不会对每个单词使用所有专家 (那样会很慢) 。相反,它只选择 Top-K 个专家。

这些被选中的专家的输出被相加,创建一个 偏置嵌入 。 这种偏置为原始视觉特征增加了细微差别,使模型能够根据脚本的复杂性或风格调整其表示。
3. 空间嵌入: 跨越鸿沟
现在我们有了文本的丰富视觉表示。但我们面临一个问题: 我们想把这个插入到像 BERT 这样的预训练模型中。BERT 期望的是遵循非常特定的数学分布 (其“嵌入空间”) 的向量。如果我们只是把视觉向量硬塞进 BERT,模型会输出无意义的内容。
空间嵌入 充当了视觉世界和 BERT 语义世界之间的翻译器。它使用 Transformer 编码器-解码器结构,在预训练期间使用两个特定的损失函数来对齐这些空间。
步骤 A: 分布相似性
首先,模型确保数据分布的“形状”是匹配的。它使用 Kullback-Leibler (KL) 散度比较新视觉嵌入的概率分布 (\(P_h\)) 与原始文本嵌入的概率分布 (\(P_t\)) 。

这确保了视觉嵌入的 一般统计特性 看起来像 BERT 习惯的文本嵌入。
步骤 B: 空间相似性
接下来,模型使用 对比学习 。 它强制单词的视觉嵌入 (例如“Cat”的图像) 在数学上接近“Cat”的原始文本 ID 嵌入,同时将其推离其他单词的嵌入。

最终的训练目标结合了这两个目标:

通过最小化这个总损失,MTLS 学会将视觉符号投影到向量空间中语义意义所在的精确位置。
实验: 事半功倍
这篇论文的实验设置极其精简,这使得结果更加令人印象深刻。
- 骨干模型: BERT 和 RoBERTa (单语言版本) 。
- 训练数据: 仅约 12,000 句英语数据 , 来自通用依赖树库。
- 无多语言训练: 模型 没有 在中文、阿拉伯语或韩语文本上进行训练。它只见过英语。
研究人员随后测试了模型处理跨越不同语系 (印欧语系、汉藏语系、亚非语系等) 的 20 种不同语言 的能力。
任务 1: 词性标注 (POS)
在这个任务中,模型必须识别一个词是名词、动词、形容词等。研究人员在“零样本”设置下对此进行了测试——这意味着模型在英语 POS 标签上进行了微调,然后立即要求其对其他语言的单词进行标注,而无需任何进一步的训练。

从表 1 得出的关键结论:
- 相对于基线的巨大提升: 看一下“Zero-Shot (零样本) ”列。标准 BERT 在中文 (ZHO) 上的得分仅为惨淡的 14.3% , 在阿拉伯语 (ARA) 上为 15.6% 。 这是意料之中的;标准 BERT 不认识这些字母表。
- MTLS 的改进: MTLS-BERT 跃升至 28.9% (ZHO) 和 17.5% (科普特语 - COP) 。
- 科普特语的惊喜: 看一下 COP (科普特语) 这一列。大型多语言模型 mBERT 和 XLM-R 的得分约为 5% 。 它们之所以失败,是因为科普特语是一种低资源语言,经常在它们的大规模训练集中缺失。然而,MTLS 得分为 17-18% 。 因为 MTLS 是从视觉上阅读符号,所以它比依赖固定词表的模型能更好地泛化到未见过的脚本。
任务 2: 命名实体识别 (NER)
NER 涉及在文本中查找人名、地名和组织机构名。这不仅需要语法句法,还需要语义理解。

从表 2 得出的关键结论: 同样,我们看到了“零样本”能力的闪光点。标准 BERT 在中文上得到 1.6% 。 MTLS-BERT 得到 2.2% 。 虽然绝对数值很低 (NER 很难!) ,但相对提升是明显的。
然而,这是一个权衡。注意 ENG (英语) 和 VIE (越南语) 的得分。在拉丁文字语言上,MTLS 的表现略逊于原始 BERT。这是用视觉估计替换高度优化的字典查找的代价。模型获得了广度 (更多语言) ,但在其原生脚本中失去了一些精度。
为什么它有效? (消融实验)
复杂的 SSS 架构真的有必要吗?研究人员禁用了模型的部分组件进行检查。

- w/o PT (无预训练) : 性能崩塌。视觉空间和语义空间之间的映射必须通过学习获得。
- w/o SE (无选择性嵌入) : 性能显著下降。“混合专家”对于处理不同的书写风格至关重要。
- w/o SSL (无空间相似性) : 模型几乎完全失效。仅仅匹配分布是不够的;需要对比学习来将嵌入锁定在正确的位置。
效率与参数分析
MTLS 最有力的论据之一是关于模型大小的效率。多语言模型通常非常庞大,因为它们的嵌入层 (词表) 必须巨大才能覆盖数千种语言。

如 图 3 所示, XLM-R (一种流行的多语言模型) 的嵌入层拥有近 2 亿个参数 。 那仅仅是字典!
相比之下, SSS 嵌入 (蓝色柱状图) 要小得多,大约只有 8500 万个参数 。 它比单语言 BERT 嵌入大,但比多语言嵌入小得多,同时在理论上提供了处理 任何 可以渲染为图像的语言的能力。
视觉文本是未来吗?
论文还探讨了如果你 只 使用符号嵌入 (仅仅是 CNN 部分) 而没有复杂的选择性或空间映射会发生什么。

图 4 显示,仅仅将文本换成图像 (BERT-SE) 本身效果并不好。繁重的工作是由 空间嵌入 完成的——即那些图像到语义空间的智能映射。
结论
“MTLS”论文提出了一个范式转变。几十年来,NLP 一直是基于文本的。我们假设要理解语言,计算机必须处理离散的文本字符。MTLS 证明了计算机可以像人类一样通过看像素来“阅读”。
通过将文本视为 语言符号 , 作者:
- 消除了 集外词 (OOV) 问题。
- 使仅在英语上训练的模型能够处理 科普特语、中文和阿拉伯语 。
- 减少了与多语言词表相关的参数膨胀。
虽然与在海量多语言语料库上训练的模型相比仍有性能差距,但 MTLS 为 低资源语言 提供了一条充满希望的道路。对于那些没有足够互联网数据来建立庞大词表的语言来说,简单地“看”着文本可能是加入 AI 革命的关键。
本文基于 Wenlong Fei 等人的研究论文 “MTLS: Making Texts into Linguistic Symbols”。
](https://deep-paper.org/en/paper/file-3350/images/cover.png)