想象一下,你正在新加坡听一段对话。你可能会听到这样一句话: “I thought all trains 都是 via Jurong East 去到 Pasir Ris。”
对于单语者来说,这很混乱。但对于双语者来说,这非常自然。这种现象被称为语码转换 (Code-Switching, CS) ——即在一次对话中流畅地在两种或多种语言之间交替。
对于人类来说,处理这种情况是直觉性的。但对于人工智能,特别是自动语音识别 (ASR) 系统来说,这是一场噩梦。大多数 ASR 模型都被训练为期望听到一种语言。当语言混合时,模型就很难决定应用哪种词汇或语法规则。
标准方法试图使用语种识别 (Language Identification, LID) 来解决这个问题,这本质上是在问: “现在说的是哪种语言?”或者“这句话中哪种语言说得更多?”但这种方法只见树木不见森林。它忽略了句子的结构骨架。
在研究论文 《语码转换语音的自动矩阵语言确定方法》 (Methods for Automatic Matrix Language Determination of Code-Switched Speech) 中,研究人员 Olga Iakovenko 和 Thomas Hain 提出了一种更复杂的方法。他们不仅仅是计算单词数量,而是应用了一个称为矩阵语言框架 (Matrix Language Frame, MLF) 理论的语言学概念,教机器如何识别混合句子中的“主导”语法框架。
在这篇深度文章中,我们将探讨他们如何弥合理论语言学与计算建模之间的鸿沟,创建一个不仅能理解说了什么,还能理解其结构如何的系统。
语言学基础: 什么是矩阵语言?
要理解解决方案,我们首先需要通过语言学的视角来理解问题。
当人们进行语码转换时,他们并不是随意地将单词堆砌在一起。这是有规则的。由 Myers-Scotton 在 1997 年提出的矩阵语言框架 (MLF) 理论表明,在任何语码转换的话语中,都存在一个层级结构:
- 矩阵语言 (Matrix Language, ML) : 这是主导语言。它提供语法框架——词序和系统语素 (如时态标记、介词和限定词) 。
- 嵌入语言 (Embedded Language, EL) : 这些是从另一种语言插入的元素,通常是实义词,如名词或动词。
实义与系统的区别
这个理论中一个至关重要的区别是实义语素 (承载意义的词,如 “university” 或 “run”) 和系统语素 (提供结构的词,如 “the”、“is” 或 “ing”) 。
如果说话者说: “I’m okay with the danhuang” (蛋黄) ,其语法是英语。“The” 是英语的系统语素。因此,英语是矩阵语言,而 danhuang 是嵌入语言的插入。确定这个身份——矩阵语言身份 (Matrix Language Identity, MLID) ——对于语音处理来说,比简单地知道这句话中有 20% 是普通话要有用得多。
核心方法: 自动确定 ML
研究人员开发了三种不同的原则来自动确定矩阵语言。其中两种基于文本 (使用语言学规则) ,另一种则使用这些文本原则来训练基于音频的模型。
原则 1.1: 单例原则 (独狼)
第一种方法直截了当。它假设如果一个句子由一连串语言 A 的单词组成,中间插入了单个、孤立的语言 B 的单词,那么语言 A 一定是矩阵语言。语言 A 为这些“单例” (singleton) 插入提供了上下文。
例如,在短语 “Oh you post at your that blog” 中,单词 “post” 和 “blog” 是插入到普通话语法结构中的英语单例。因此,矩阵语言是普通话。
虽然准确,但这个原则有一个局限性: 它仅适用于语码转换作为单次插入发生的情况。它无法处理复杂的混合文本块。
原则 1.2: 词符顺序原则 (概率博弈)
这就是工程设计的巧妙之处。第二个实现, P1.2 , 依赖于这样一个观点: 单词的顺序是由矩阵语言决定的。
为了通过计算确定这一点,研究人员构建了一个包含机器翻译 (MT) 和语言模型 (LM) 的管道。

如图 2 所示,该过程如下:
- 取一个语码转换的句子 (假设是 L1 和 L2 的混合) 。
- 将整个句子翻译成纯 L1 (使用逐词翻译以保留原始词序) 。
- 将整个句子翻译成纯 L2。
- 将这些翻译版本输入到 L1 和 L2 的单语语言模型 (LM) 中。
逻辑: 语言模型被训练用来预测一系列单词出现的可能性。如果原始语码转换句子遵循 L1 的语法 (词序) ,那么 L1 语言模型应该认为翻译后的句子“概率很高”。然而,L2 模型在看到 L2 的翻译 (仍然保留 L1 的词序) 时,会认为它是乱语。
语法的数学原理
为了在数学上做出决定,系统会比较概率。
我们想看看句子结构属于语言 1 (\(L_1\)) 的概率是否大于语言 2 (\(L_2\)) :

由于我们是使用句子的翻译版本 (\(\hat{\mathbf{y}}\)) 来估计这一点,我们查看两个语言模型给出的概率比率:

这里,\(\alpha\) 是一个缩放因子。为什么我们需要 \(\alpha\)?因为两个不同的语言模型 (例如,一个英语模型和一个普通话模型) 可能在不同的尺度上“自信”。一个模型可能仅仅因为设计原因就输出普遍较低的概率。\(\alpha\) 因子可以平衡它们。
对这个比率取对数,我们得到一个可用的不等式:

系统通过计算已知单语数据集上的对数概率差异的平均值来计算 \(\alpha\):

最后,决策函数——“法官”——根据这个阈值决定矩阵语言:

这种方法允许计算机确定哪种语言“拥有”句子的词序,即使单词本身是混合的。
校准系统
研究人员使用检测误差权衡 (DET) 曲线来调整这个 \(\alpha\) 值。

在图 1 中,我们可以看到性能的权衡。红星代表理想的真实情况 (ground truth) 。目标是估计一个 \(\alpha\) (粗菱形) ,使系统的性能尽可能接近那颗红星,平衡错误接受率和错误拒绝率。
原则 2: 系统词原则 (骨架)
第三种基于文本的方法, P2 , 专注于词性 (POS) 标注。它实现了语言学规则: 系统语素来自矩阵语言 。
系统扫描句子中的“功能词”:
- 限定词 (the, a)
- 助动词 (is, have, do)
- 连词 (and, but, because)
如果句子包含来自英语的功能词,但不包含来自普通话的功能词,系统将矩阵语言标记为英语。这是一种稳健的方法,因为功能词充当了句子的“骨架”。
具体示例
这些原则在实践中看起来如何?下表显示了不同方法如何对真实的语码转换话语进行分类。

注意第二个例子: “but he quite zai right”。
- 基线 (计算 Token) : 大多数是英语单词 \(\rightarrow\) 英语。
- P1.1 (单例) : “zai” 是单例插入 \(\rightarrow\) 英语。
- P2 (系统词) : “but”, “he”, “right” 是英语功能词 \(\rightarrow\) 英语。
- 等等…… 表格实际上显示 P1.1 将第二行判定为普通话 (zh) ?更正: 仔细观察表格图片,对于 “but he quite zai right”,P1.1 确实写着 zh 。 为什么?因为如果 “but”, “he”, “quite”, “right” 被视为围绕 “zai” 的插入,或者如果这种结构暗示了新加坡使用者熟悉的特定普通话句法 (“zai” 意为稳重/厉害) ,逻辑就会改变。然而,通常 “zai” 在这里是嵌入语言 (EL) 。 这凸显了复杂性: 不同的原则有时会发生冲突,提供关于“真相”的不同视角。
从文本到音频: MLID 系统
上述原则适用于文本。但最终目标是处理语音 。
研究人员利用这些基于文本的原则 (P1.1, P1.2 和 P2) 生成的标签,训练了一个声学模型。他们使用了 ECAPA-TDNN 架构——这是一种通常用于说话人识别的最先进模型。
他们没有训练模型仅识别语言 (LID) ,而是训练了映射 (\(MLID_{P1.1}\), \(MLID_{P1.2}\), \(MLID_{P2}\)) ,直接从音频波形预测矩阵语言 。
实验与结果
团队在两个主要的语码转换语料库上测试了他们的系统:
- SEAME: 来自新加坡和马来西亚的普通话-英语语料库。
- Miami: 来自班戈迈阿密语料库的西班牙语-英语语料库。
他们将新的矩阵语言身份 (MLID) 预测器与标准的声学语种识别 (LID) 系统进行了比较。
音频 MLID 有效吗?
结果令人信服。与标准 LID 模型相比,训练用于预测矩阵语言的音频模型与语言结构事实的相关性更好。
看看迈阿密数据集中的相关性:

在图 4 中,较高的条形代表与文本原则的相关性更高。标记为 \(MLID\) 的列通常显示出很强的性能,通常优于标准的 \(LID\) 和 \(LID_{map}\) 基线。这证明音频模型可以学会“听出”语法结构 (矩阵语言) ,而不仅仅是计算哪种语言的声学存在感更强。
“英语偏差”的发现
这篇论文最深刻的发现之一不仅仅是关于算法性能,还是数据揭示的社会语言学洞察。
在单语数据集中,英语通常占主导地位。然而,当研究人员分析语码转换对话中矩阵语言的分布时,他们发现了明显的差异。

表 11 揭示了一个迷人的趋势:
- 话语级 LID (单语) : 在迈阿密语料库中,68% 的单语话语是英语。
- 矩阵语言 (P2 - CS) : 当发生语码转换时,英语仅在 31% 的时间内是矩阵语言。西班牙语变成了主导的语法框架 (69%) 。
同样,在 SEAME (普通话-英语) 语料库中:
- Token LID: 58% 的 Token 是普通话。
- 矩阵语言 (P1.1) : 普通话在 77% 的时间内提供了语法框架。
这意味着: 即使说话者大量借用英语词汇 (名词、动词) ,他们也倾向于保留其母语或本地语言 (普通话或西班牙语) 作为句子的语法结构。标准的 LID 系统经常会遗漏这一点,仅仅因为句子包含英语单词就将其归类为英语,而 MLID 系统则正确地识别出句子的“操作系统”实际上是西班牙语或普通话。
真实数据 (Ground Truth) 上的表现
对于迈阿密语料库的一小部分子集,研究人员拥有人工标注的矩阵语言“真实标签” (Ground Truth) 。

查看表 8 :
- 标准 LID 系统的 F1-macro 分数 (一种准确度度量) 为 56% 。
- MLID P1.2 系统达到了 60% 。
虽然 60% 表明仍有改进空间,但 MLID 方法在客观上优于简单识别现有语言的传统方法。
结论: 为什么这很重要
这项研究代表了让机器理解人类实际口语的重要一步。语码转换不是错误或“故障”——它是一种复杂的、结构化的语言行为。
通过应用矩阵语言框架理论 , Iakovenko 和 Hain 证明了:
- 我们可以使用翻译和词性规则自动化从文本中提取复杂的语言特征 (如矩阵语言) 。
- 我们可以训练音频模型直接从语音中识别这些结构模式,优于传统的语种识别方法。
- 语境为王: 说话者可能会广泛借用英语单词,但他们倾向于保留其母语的语法框架。承认这一点是为双语社区构建更好的语音识别系统的关键。
随着我们的世界变得越来越互联和多语言化,尊重并理解我们语音“矩阵”的技术对于无缝沟通将变得至关重要。
](https://deep-paper.org/en/paper/2410.02521/images/cover.png)