语言从来不是单一的整体。如果你曾尝试构建语音识别系统,你就会知道,当面对现实世界中丰富多彩的口音和方言时,“标准”语言模型往往会失效。对于越南语来说尤其如此,这是一种声调语言,语意随着音高的变化而改变,且地区差异可能极为巨大。

多年来,关于越南语语音识别 (SR) 和方言识别 (DI) 的研究一直基于一个简化的假设: 即该国分为三个广泛的方言区域——北部、中部和南部。虽然这种概括在语言学上有其用处,但它掩盖了一个微妙的现实: 越南的 63 个省份中,每一个都有其独特的“省级方言”。

在这篇文章中,我们将探索该领域向前迈出的重要一步。我们将拆解一篇最近的研究论文,该论文介绍了 ViMD (越南多方言) 数据集。这项工作不仅扩展了可用数据;它通过从粗略的区域聚类转向细粒度的省级分类,从根本上挑战了我们对低资源语言进行建模的方式。

我们将逐步了解该数据集是如何构建的、越南语的语言复杂性、实验的架构,以及为什么教机器区分来自河内 (Hanoi) 的说话者和来自海防 (Hai Phong) 的说话者比听起来要难得多。

语言景观: 不仅仅是三个区域

要理解为什么这个数据集是必要的,我们首先需要领会越南语的复杂性。越南语是单音节声调语言。这意味着每个词由一个音节组成,而该音节的含义由其声调决定。

研究人员提供了越南语音节结构的清晰细分,这对于理解方言差异发生在哪里至关重要。

表 1: 越南语音节结构。

如表 1 所示,一个音节至少需要一个 声调 (Tone) 和一个 韵腹 (Nucleus,通常是元音) 。 更复杂的音节还包括声母 (Initial consonant) 和韵尾 (Coda,尾辅音) 。

方言的变化不仅仅在于俚语;它关乎声音的基本机制。

  1. 声母 (Initials) : 北方方言大约使用 20 个声母,而中部方言有 23 个。
  2. 韵尾 (Finals) : 南方方言只使用 8 个韵尾,而北部和中部则使用 10 个。
  3. 声调 (Tones) : 这可能是越南语最著名的特征。标准语言中有六个声调。

表 2: 越南语声调结构。

表 2 展示了音高轮廓。像 ba 这样的词,根据音高是保持平坦、上升、下降还是中断,可以表示“三”、“父亲”、“祖母”、“毒药”、“废物”或“随意”。

现有数据的问题 以前的数据集 (如 VNSpeechCorpus 或 VDSPEC) 通常将说话者分为“三大”类: 河内 (北部) 、顺化 (中部) 和胡志明市 (南部) 。这忽略了一个现实,即来自义安 (中部) 的说话者听起来与来自顺化 (也是中部) 的说话者截然不同。 ViMD 数据集试图捕捉整个频谱: 63 种独特的省级方言。

构建 ViMD 数据集

创建一个这种规模的数据集——涵盖 63 个不同类别的 102.56 小时音频——本身就是一项工程挑战。作者不仅仅是抓取数据;他们建立了一个严格的流程来确保质量。

收集流程

如下图所示,该过程从原始视频收集转变为高度精选的数据集。

图 1: ViMD 数据集的数据收集流程。

让我们分解图 1 中显示的步骤:

  1. 视频收集: 团队从 63 个省份的官方广播电台获取视频。这确保了“省级”标签对地点的准确性。
  2. 音频提取: 他们使用 Label Studio 平台来分割视频。至关重要的是,他们过滤掉了新闻播音员 (通常使用标准化的“广播”声音) ,以专注于说话自然的当地受访者。
  3. 转录 (人为因素) : 这不仅仅留给人工智能。
  • A 组: 10 名标注员对音频进行转录,修正由 AI API生成的初稿。
  • 质量控制 (B 组) : 第二组独立转录 20% 的数据。研究人员随后计算 A 组和 B 组之间的词错误率 (WER) 。
  • 阈值: 如果 WER 高于 8% (意味着转录内容存在显著分歧) ,则整批数据将被退回重新转录。这种“人在回路 (human-in-the-loop) ”的验证对于方言数据至关重要,因为标准拼写可能无法捕捉当地的发音。

数据集构成与统计

最终的数据集包含丰富的元数据。它不仅是音频和文本;它还包括说话者 ID、性别和精确的地理位置。

表 4: ViMD 数据集中音频样本的详细属性描述。

收集现实世界数据的挑战之一是明显的样本不平衡。作者对收集到的数据中的人口统计学偏差持透明态度。

图 3: (a) ViMD 的性别分布,和 (b) 性别独立词汇计数及重叠。

如上图所示,男性说话者 (蓝色) 在时长和记录数量上主导了数据集——大约是 3:1 的比例。然而,右边的维恩图提供了一个有趣的见解: 尽管在数量上存在性别不平衡,但词汇重叠是显著的。两种性别共享 3,171 个核心词汇,这表明尽管音量有差异,但语言内容是相对共享的。

覆盖范围

ViMD 的独特之处在于其粒度。大多数数据集止步于“中部地区”。ViMD 将其细分为 19 个特定的省份。

图 6: 各性别间的时长和说话者数量比较。

图 6 可视化了所有 63 个省份的数据分布。虽然存在差异,但团队设法确保每个省份都有相对一致的音频时长 (柱状高度) ,从而确保在该数据上训练的模型能够公平地通过声音审视这个国家的每一个角落。

实验设置

为了对这个新数据集进行基准测试,研究人员为其 AI 模型设定了两个主要任务。这些任务代表了语音处理中的两个核心问题:

  1. 方言识别 (DI) : 模型能否听一段剪辑并猜测说话者来自哪里?他们在两个层面上对此进行了测试:
  • 3 区域: 北部 vs 中部 vs 南部。
  • 63 省份: 精确的省份识别 (困难模式) 。
  1. 语音识别 (SR) : 模型能否转录所说的内容?

模型

他们利用了最先进的 Transformer 模型:

  • Wav2vec 2.0 & XLSR: 这些模型通过原始音频进行“自监督”学习。可以将其想象为模型在被教导识别特定单词之前,先听数千小时的语音,仅仅是为了理解人类语音听起来像什么
  • Whisper: OpenAI 强大的多语言模型。
  • PhoWhisper: 专门针对越南语微调的 Whisper 版本。

评估指标

对于阅读本文的学生来说,了解如何衡量成功非常重要。

对于 方言识别 , 他们使用了 F1-macro 分数 (宏平均 F1 分数) :

F1 分数公式 宏平均 F1 分数公式

F1 分数平衡了精确率 (我猜对了吗?) 和召回率 (我找到所有正确的了吗?) 。“宏 (Macro) ”平均确保了一个小省份的权重与像胡志明市这样的大城市一样重要。

对于 语音识别 , 他们使用了 WER (词错误率) :

WER 公式

这里,\(S\) 是替换 (Substitutions) ,\(D\) 是删除 (Deletions) ,\(I\) 是插入 (Insertions) ,\(N\) 是单词总数。 数值越低越好。 WER 为 0.1 意味着模型每 10 个单词中会有 1 个错误。

结果: 粒度的挑战

这是发现变得引人入胜的地方。从区域分类到省级分类的跨越证明是当前 AI 面临的一个巨大障碍。

任务 1: 方言识别 (DI)

当要求模型将说话者分类为“三大”区域 (北部、中部、南部) 时,它们的表现非常出色。

图 10: [DI_VN_3] 的混淆矩阵。

看图 10 中的对角线。深蓝色方块表示高准确率。模型在 95% 的时间里正确识别了北方说话者,在 91% 的时间里正确识别了南方说话者。这表明这三个主要区域具有非常独特的声学特征,机器很容易捕捉到。

性能断崖 然而,当任务转变为识别具体的 省份 (任务 DI_VN_63) 时,性能崩溃了。

表 6: 使用 F1-macro 指标的方言识别实验结果。

在表 6 中,比较各列。DI_VN_3 (3 个区域) 显示的 F1 分数约为 0.91 。 但 DI_VN_63 (63 个省份) 下降到了 0.35 - 0.41

为什么会这样?让我们看看 63 省份任务的“混淆矩阵”。

图 11: [DI_VN_63] 的混淆矩阵。

图 11 中的矩阵是分散的。完美的模型会显示一条清晰的对角线。在这里,我们看到了聚类。

  • 北部省份 (左上角) 混淆了模型;它能分辨出它们是北方的,但无法区分相邻的省份。
  • 中部地区 (中间) 也很混乱,尽管有些省份很突出。
  • 胡志明市 (标签 59) 的预测准确率为 63%,这可能是由于其独特的城市口音以及在媒体中的过度代表性。

有趣的是,研究人员指出 沿海省份 的识别分数较高。这引出了一个假设: 地理特征 (如位于沿海) 可能会以独特的方式影响语言模式,从而让模型能够捕捉到。

任务 2: 语音识别 (SR)

模型转录语音的能力如何?

表 7: 使用 WER 指标的语音识别实验结果。

表 7 显示了词错误率 (WER) 。记住,越低越好。

  • 北部: 模型在这里表现最好 (WER ~0.12 或 12%) 。这是预料之中的,因为标准越南语主要基于北方口音。
  • 中部: 模型在这里最吃力 (WER ~0.17 或 17%) 。中部方言有显著的元音转移 (例如,“a”听起来像“o”) ,这使得在标准数据上训练的模型感到困惑。
  • 微调的影响: “Fine-tuned (微调后) ”行显示出比“w/o Fine-tuned (未微调) ”有显著改进。这证明了 ViMD 数据集的价值——仅仅让模型接触这些特定数据就能让它变得更聪明。

“混合”问题

分析中最有深刻见解的部分之一是比较在所有数据上训练的模型与在特定区域数据上训练的模型。你可能会假设在海量的“全越南”数据集上进行训练对每个人都是最好的。

令人惊讶的是,情况并非总是如此。

图 12: 在整个数据集上微调模型与在三个子数据集上微调模型时的 WER 差异。

图 12 显示了性能差异。绿色条表示“全越南”模型效果更好;红色条表示它的效果比特定区域模型更差。 虽然“全越南”模型通常有帮助 (很多绿色) ,但也存在红色峰值。这表明对于某些特定的方言,将它们扔进一个巨大的数据大熔炉实际上 稀释 了模型理解它们的能力。那些方言的独特特征被大数据集的主导模式“冲淡”了。

区域性错误与混淆

论文强调了困扰不同地区的特定错误。

  • 北部: ’l’ 和 ’n’ 之间的混淆。 (例如,làm vs nàm) 。
  • 中部: 元音转移。bán (卖) 听起来像 bón (喂) 。
  • 南部: ‘v’ 和 ’d’,或 ’tr’ 和 ‘ch’ 之间的混淆。

这些不仅仅是随机错误;它们是系统性的语言特征。通用模型将这些视为“错误”,但具有方言意识的模型会将其识别为正确的本地发音。

结论与未来启示

ViMD 论文是对低资源语言处理的一个警钟。它表明,“解决”一种语言不仅仅是在标准方言上进行训练。

主要收获:

  1. 粒度至关重要: 我们不能再将语言视为单一的整体,或者仅仅通过广泛的区域来区分。省级差异是真实存在的,这对 AI 来说充满挑战。
  2. “标准”偏差: 模型在与“标准” (本例中为北部) 最匹配的方言上表现最好,导致其他地区 (中部/南部) 的技术体验较差。
  3. 数据为王: 发布 102 小时的细粒度、标记好的方言数据是一个巨大的贡献,将允许未来的研究人员构建更具包容性的语音技术。

对于在这个领域感兴趣的学生来说,未来的道路涉及 迁移学习多任务学习 。 我们如何在教导模型越南语的“通用”结构的同时,让它适应像广平 (Quang Binh) 或同塔 (Dong Thap) 这样的省份的特定“纹理”?ViMD 数据集为回答这个问题提供了游乐场。