想象一下，你正在新加坡听一段对话。你可能会听到这样一句话: “I thought all trains 都是 via Jurong East 去到 Pasir Ris。”

对于单语者来说，这很混乱。但对于双语者来说，这非常自然。这种现象被称为语码转换 (Code-Switching, CS) ——即在一次对话中流畅地在两种或多种语言之间交替。

对于人类来说，处理这种情况是直觉性的。但对于人工智能，特别是自动语音识别 (ASR) 系统来说，这是一场噩梦。大多数 ASR 模型都被训练为期望听到一种语言。当语言混合时，模型就很难决定应用哪种词汇或语法规则。

标准方法试图使用语种识别 (Language Identification, LID) 来解决这个问题，这本质上是在问: “现在说的是哪种语言？”或者“这句话中哪种语言说得更多？”但这种方法只见树木不见森林。它忽略了句子的结构骨架。

在研究论文 《语码转换语音的自动矩阵语言确定方法》 (Methods for Automatic Matrix Language Determination of Code-Switched Speech) 中，研究人员 Olga Iakovenko 和 Thomas Hain 提出了一种更复杂的方法。他们不仅仅是计算单词数量，而是应用了一个称为矩阵语言框架 (Matrix Language Frame, MLF) 理论的语言学概念，教机器如何识别混合句子中的“主导”语法框架。

在这篇深度文章中，我们将探讨他们如何弥合理论语言学与计算建模之间的鸿沟，创建一个不仅能理解说了什么，还能理解其结构如何的系统。

语言学基础: 什么是矩阵语言？

要理解解决方案，我们首先需要通过语言学的视角来理解问题。

当人们进行语码转换时，他们并不是随意地将单词堆砌在一起。这是有规则的。由 Myers-Scotton 在 1997 年提出的矩阵语言框架 (MLF) 理论表明，在任何语码转换的话语中，都存在一个层级结构:

矩阵语言 (Matrix Language, ML) : 这是主导语言。它提供语法框架——词序和系统语素 (如时态标记、介词和限定词) 。
嵌入语言 (Embedded Language, EL) : 这些是从另一种语言插入的元素，通常是实义词，如名词或动词。

实义与系统的区别

这个理论中一个至关重要的区别是实义语素 (承载意义的词，如 “university” 或 “run”) 和系统语素 (提供结构的词，如 “the”、“is” 或 “ing”) 。

如果说话者说: “I’m okay with the danhuang” (蛋黄) ，其语法是英语。“The” 是英语的系统语素。因此，英语是矩阵语言，而 danhuang 是嵌入语言的插入。确定这个身份——矩阵语言身份 (Matrix Language Identity, MLID) ——对于语音处理来说，比简单地知道这句话中有 20% 是普通话要有用得多。

核心方法: 自动确定 ML

研究人员开发了三种不同的原则来自动确定矩阵语言。其中两种基于文本 (使用语言学规则) ，另一种则使用这些文本原则来训练基于音频的模型。

原则 1.1: 单例原则 (独狼)

第一种方法直截了当。它假设如果一个句子由一连串语言 A 的单词组成，中间插入了单个、孤立的语言 B 的单词，那么语言 A 一定是矩阵语言。语言 A 为这些“单例” (singleton) 插入提供了上下文。

例如，在短语 “Oh you post at your that blog” 中，单词 “post” 和 “blog” 是插入到普通话语法结构中的英语单例。因此，矩阵语言是普通话。

虽然准确，但这个原则有一个局限性: 它仅适用于语码转换作为单次插入发生的情况。它无法处理复杂的混合文本块。

原则 1.2: 词符顺序原则 (概率博弈)

这就是工程设计的巧妙之处。第二个实现, P1.2 , 依赖于这样一个观点: 单词的顺序是由矩阵语言决定的。

为了通过计算确定这一点，研究人员构建了一个包含机器翻译 (MT) 和语言模型 (LM) 的管道。

基于语素顺序的 ML 确定原则 P1.2 的流程图。

如图 2 所示，该过程如下:

取一个语码转换的句子 (假设是 L1 和 L2 的混合) 。
将整个句子翻译成纯 L1 (使用逐词翻译以保留原始词序) 。
将整个句子翻译成纯 L2。
将这些翻译版本输入到 L1 和 L2 的单语语言模型 (LM) 中。

逻辑: 语言模型被训练用来预测一系列单词出现的可能性。如果原始语码转换句子遵循 L1 的语法 (词序) ，那么 L1 语言模型应该认为翻译后的句子“概率很高”。然而，L2 模型在看到 L2 的翻译 (仍然保留 L1 的词序) 时，会认为它是乱语。

语法的数学原理

为了在数学上做出决定，系统会比较概率。

我们想看看句子结构属于语言 1 (\(L_1\)) 的概率是否大于语言 2 (\(L_2\)) :

公式 1

由于我们是使用句子的翻译版本 (\(\hat{\mathbf{y}}\)) 来估计这一点，我们查看两个语言模型给出的概率比率:

公式 2

这里，\(\alpha\) 是一个缩放因子。为什么我们需要 \(\alpha\)？因为两个不同的语言模型 (例如，一个英语模型和一个普通话模型) 可能在不同的尺度上“自信”。一个模型可能仅仅因为设计原因就输出普遍较低的概率。\(\alpha\) 因子可以平衡它们。

对这个比率取对数，我们得到一个可用的不等式:

公式 3

系统通过计算已知单语数据集上的对数概率差异的平均值来计算 \(\alpha\):

公式 4

最后，决策函数——“法官”——根据这个阈值决定矩阵语言:

公式 5

这种方法允许计算机确定哪种语言“拥有”句子的词序，即使单词本身是混合的。

校准系统

研究人员使用检测误差权衡 (DET) 曲线来调整这个 \(\alpha\) 值。

图 1: 可能的对数 alpha 值的检测误差权衡 (DET) 曲线。

在图 1 中，我们可以看到性能的权衡。红星代表理想的真实情况 (ground truth) 。目标是估计一个 \(\alpha\) (粗菱形) ，使系统的性能尽可能接近那颗红星，平衡错误接受率和错误拒绝率。

原则 2: 系统词原则 (骨架)

第三种基于文本的方法, P2 , 专注于词性 (POS) 标注。它实现了语言学规则: 系统语素来自矩阵语言 。

系统扫描句子中的“功能词”:

限定词 (the, a)
助动词 (is, have, do)
连词 (and, but, because)

如果句子包含来自英语的功能词，但不包含来自普通话的功能词，系统将矩阵语言标记为英语。这是一种稳健的方法，因为功能词充当了句子的“骨架”。

具体示例

这些原则在实践中看起来如何？下表显示了不同方法如何对真实的语码转换话语进行分类。

表 3: 应用原则的示例。

注意第二个例子: “but he quite zai right”。

基线 (计算 Token) : 大多数是英语单词 \(\rightarrow\) 英语。
P1.1 (单例) : “zai” 是单例插入 \(\rightarrow\) 英语。
P2 (系统词) : “but”, “he”, “right” 是英语功能词 \(\rightarrow\) 英语。
等等…… 表格实际上显示 P1.1 将第二行判定为普通话 (zh) ？更正: 仔细观察表格图片，对于 “but he quite zai right”，P1.1 确实写着 zh 。为什么？因为如果 “but”, “he”, “quite”, “right” 被视为围绕 “zai” 的插入，或者如果这种结构暗示了新加坡使用者熟悉的特定普通话句法 (“zai” 意为稳重/厉害) ，逻辑就会改变。然而，通常 “zai” 在这里是嵌入语言 (EL) 。 这凸显了复杂性: 不同的原则有时会发生冲突，提供关于“真相”的不同视角。

从文本到音频: MLID 系统

上述原则适用于文本。但最终目标是处理语音。

研究人员利用这些基于文本的原则 (P1.1, P1.2 和 P2) 生成的标签，训练了一个声学模型。他们使用了 ECAPA-TDNN 架构——这是一种通常用于说话人识别的最先进模型。

他们没有训练模型仅识别语言 (LID) ，而是训练了映射 (\(MLID_{P1.1}\), \(MLID_{P1.2}\), \(MLID_{P2}\)) ，直接从音频波形预测矩阵语言 。

实验与结果

团队在两个主要的语码转换语料库上测试了他们的系统:

SEAME: 来自新加坡和马来西亚的普通话-英语语料库。
Miami: 来自班戈迈阿密语料库的西班牙语-英语语料库。

他们将新的矩阵语言身份 (MLID) 预测器与标准的声学语种识别 (LID) 系统进行了比较。

音频 MLID 有效吗？

结果令人信服。与标准 LID 模型相比，训练用于预测矩阵语言的音频模型与语言结构事实的相关性更好。

看看迈阿密数据集中的相关性:

图 4: CS 迈阿密数据中声学 LID 和 MLID 输出与文本 P1.1、P1.2 和 P2 之间的相关性。

在图 4 中，较高的条形代表与文本原则的相关性更高。标记为 \(MLID\) 的列通常显示出很强的性能，通常优于标准的 \(LID\) 和 \(LID_{map}\) 基线。这证明音频模型可以学会“听出”语法结构 (矩阵语言) ，而不仅仅是计算哪种语言的声学存在感更强。

“英语偏差”的发现

这篇论文最深刻的发现之一不仅仅是关于算法性能，还是数据揭示的社会语言学洞察。

在单语数据集中，英语通常占主导地位。然而，当研究人员分析语码转换对话中矩阵语言的分布时，他们发现了明显的差异。

表 11: CS 语料库中的语言分布。

表 11 揭示了一个迷人的趋势:

话语级 LID (单语) : 在迈阿密语料库中，68% 的单语话语是英语。
矩阵语言 (P2 - CS) : 当发生语码转换时，英语仅在 31% 的时间内是矩阵语言。西班牙语变成了主导的语法框架 (69%) 。

同样，在 SEAME (普通话-英语) 语料库中:

Token LID: 58% 的 Token 是普通话。
矩阵语言 (P1.1) : 普通话在 77% 的时间内提供了语法框架。

这意味着: 即使说话者大量借用英语词汇 (名词、动词) ，他们也倾向于保留其母语或本地语言 (普通话或西班牙语) 作为句子的语法结构。标准的 LID 系统经常会遗漏这一点，仅仅因为句子包含英语单词就将其归类为英语，而 MLID 系统则正确地识别出句子的“操作系统”实际上是西班牙语或普通话。

真实数据 (Ground Truth) 上的表现

对于迈阿密语料库的一小部分子集，研究人员拥有人工标注的矩阵语言“真实标签” (Ground Truth) 。

表 8: 迈阿密的实验结果。

查看表 8 :

标准 LID 系统的 F1-macro 分数 (一种准确度度量) 为 56% 。
MLID P1.2 系统达到了 60% 。

虽然 60% 表明仍有改进空间，但 MLID 方法在客观上优于简单识别现有语言的传统方法。

结论: 为什么这很重要

这项研究代表了让机器理解人类实际口语的重要一步。语码转换不是错误或“故障”——它是一种复杂的、结构化的语言行为。

通过应用矩阵语言框架理论 , Iakovenko 和 Hain 证明了:

我们可以使用翻译和词性规则自动化从文本中提取复杂的语言特征 (如矩阵语言) 。
我们可以训练音频模型直接从语音中识别这些结构模式，优于传统的语种识别方法。
语境为王: 说话者可能会广泛借用英语单词，但他们倾向于保留其母语的语法框架。承认这一点是为双语社区构建更好的语音识别系统的关键。

随着我们的世界变得越来越互联和多语言化，尊重并理解我们语音“矩阵”的技术对于无缝沟通将变得至关重要。

语言学基础: 什么是矩阵语言？#

实义与系统的区别#

核心方法: 自动确定 ML#

原则 1.1: 单例原则 (独狼)#

原则 1.2: 词符顺序原则 (概率博弈)#

语法的数学原理#

校准系统#

原则 2: 系统词原则 (骨架)#

具体示例#

从文本到音频: MLID 系统#

实验与结果#

音频 MLID 有效吗？#

“英语偏差”的发现#

真实数据 (Ground Truth) 上的表现#

结论: 为什么这很重要#