引言

在生成式人工智能飞速发展的今天，文本转语音 (Text-to-Speech, TTS) 技术早已超越了过去那种生硬的机械音。我们已经进入了 零样本 TTS (Zero-Shot TTS) 的时代。这项技术允许系统仅利用几秒钟的参考音频就能克隆出说话人的声音，而无需针对该特定声音进行任何事先训练。虽然像 VALL-E 和 XTTS 这样的模型已经彻底改变了英语领域的 TTS，但低资源语言往往被甩在后面。

非英语语言的主要瓶颈通常不在于模型架构，而在于数据。高质量、大规模且多样化的语音数据集非常稀缺。对于越南语来说，现有的数据集历来受到音频时长短、背景噪音大或缺乏说话人多样性的限制。

这正是近期一篇题为 “Zero-Shot Text-to-Speech for Vietnamese” 的研究论文所解决的问题。研究人员推出了 PhoAudiobook , 这是一个海量的、高质量的数据集，包含 941 小时的音频。通过整理这一数据集并以此为基准测试最先进的模型，他们展示了更好的数据工程如何显著提高越南语合成语音的自然度和韵律。

在这篇文章中，我们将剖析 PhoAudiobook 的创建过程，探索用于清洗数据的流程，并分析像 VALL-E、VoiceCraft 和 XTTS-v2 这样的领先模型在利用这一新资源训练时的表现。

背景: 零样本 TTS 的挑战

在深入解决方案之前，有必要了解低资源环境下零样本 TTS 面临的具体挑战。

传统的 TTS 系统需要由单一说话人录制数小时的录音室语音，才能构建出高质量的语音模型。零样本 TTS 通过使用 说话人自适应 (speaker adaptation) 和 说话人编码 (speaker encoding) 改变了这一游戏规则。模型从成千上万个不同的说话人中学习人类语音的通用表示。在推理 (生成) 过程中，它利用一个简短的“提示” (几秒钟的音频) 来提取新说话人的独特特征 (音色、音高、口音) ，并将其应用于正在朗读的文本。

然而，为了有效地学习这些通用表示，这些模型需要海量的数据集。对于英语等语言，存在包含数万小时内容的数据集。而对于越南语，可用的数据集往往是碎片化的、嘈杂的，或者缺乏必要的元数据 (如说话人 ID) 。此外，越南语中的声调等语言细微差别也增加了一层额外的复杂性，如果没有高质量的训练数据，通用模型往往难以捕捉到这些细节。

核心方法: 构建 PhoAudiobook

这项研究的核心在于数据集本身的构建。研究人员并非简单地抓取文件并将其输入模型；他们设计了一套严格的流程来确保高保真度。

数据处理流程

研究人员从越南语有声读物中获取原始数据。有声读物是 TTS 训练的绝佳来源，因为它们通常是在专业录音室中录制的，发音清晰且背景噪音极低。

创建流程如下图所示:

Figure 1: PhoAudiobook creation pipeline.

让我们详细拆解图 1 中所示的这个流程的关键阶段:

收集与提取 (Collection & Extraction) : 过程始于收集 23,000 小时的原始有声读物。然而，有声读物通常包含背景音乐或音效。为了解决这个问题，团队使用了 Demucs (一种音乐源分离模型) 来提取人声轨道并丢弃背景噪音。
转录 (Transcription) : 分离出的人声使用多语言 Whisper-large-v3 模型进行转录。这提供了文本和时间戳。
分割与合并 (Segmentation & Merging) : 这是一个关键的创新点。大多数现有数据集由非常短的片段 (10 秒以下) 组成。然而，为了教模型掌握正确的韵律 (说话的节奏和语流) ，需要更长的上下文。研究人员将连续的片段连接起来，创建时长在 10 到 20 秒 之间的样本。
严格过滤 (Rigorous Filtering) : 为了确保转录准确无误，他们使用第二个模型 PhoWhisper-large 进行了“二次检查”。如果 PhoWhisper 的转录结果与初始 Whisper 转录不匹配，该样本就会被丢弃。他们还过滤掉了可能有多人同时说话的片段。
规范化 (Normalization) : 最后，对音频音量进行归一化处理，并将文本标准化 (例如，将数字“43”转换为越南语书面形式“forty-three”) 。

数据集分析与比较

这一流程产出了一个包含 941 小时的精炼语料库。这与现有资源相比如何？

Table 1: Characteristics of PhoAudiobook and other speech datasets for Vietnamese.

如表 1 所示，PhoAudiobook 在多个指标上脱颖而出:

领域 (Domain) : 它是唯一完全源自有声读物的主要数据集，保证了专业录音质量。
SI-SNR (信噪比) : 它的得分为 4.91 dB，高于所有竞争对手，表明音频更纯净。
时长 (Duration) : 虽然 viVoice 在总时长上略大 (1,016 小时对 941 小时) ，但 PhoAudiobook 在 平均时长 (mean duration) 上具有明显优势。

音频片段时长的差异在视觉上非常显著:

Figure 2: Duration distributions of datasets.Audio samples are capped at 40 seconds for visualization purposes.

图 2 突显了以往研究中的一个巨大空白。像 VinBigData 和 BUD500 这样的数据集严重偏向于短片段 (5-10 秒以下) 。相比之下，PhoAudiobook (底部紫色的小提琴图) 在 10 到 20 秒之间有密集的分布。这种分布是有意设计的，旨在帮助 TTS 模型学习如何在更长的时间段内维持叙事流畅度。

实验设置

创建好数据集后，研究人员试图对其有效性进行基准测试。他们选择了三种最先进的零样本 TTS 架构:

VALL-E: 一种语言建模方法，将 TTS 视为条件任务，根据文本和声学提示预测音频编解码器 token。
VoiceCraft: 一种基于 token 填充 (token-infilling) 的神经编解码语言模型，最初为语音编辑设计，但具备极强的零样本生成能力。
XTTS-v2: 基于 Tortoise 架构的模型，以其强大的声音克隆和多语言能力而闻名。

训练策略

为了有效地训练这些模型，研究人员用一组额外的短片段增强了 PhoAudiobook，使总训练数据达到约 1,494 小时。这样做是为了确保模型不仅学会说长段落，还能处理简短、干脆的句子。

评估指标

模型通过客观和主观指标进行评估:

WER (词错误率) : 模型说的词对吗？ (越低越好) 。
MCD (梅尔倒谱失真) : 频谱质量与参考音频有多接近？ (越低越好) 。
RMSE\(_{F0}\): 音高/语调与参考音频的匹配程度如何？ (越低越好) 。
MOS (平均意见得分) : 人类对自然度的评分 (越高越好) 。
SMOS (相似度 MOS) : 人类对声音听起来像目标说话人的程度的评分 (越高越好) 。

结果与分析

实验将新模型 (在 PhoAudiobook 上训练) 与名为 viXTTS 的基线模型进行了比较，后者是在较旧的 viVoice 数据集上微调的。

Table 2: Test results of different TTS models.

表 2 提供了全面的性能概览。以下是关键结论:

1. XTTS-v2 + PhoAudiobook 的主导地位

标记为 XTTS-v2\(_{PAB}\) (在 PhoAudiobook 上训练) 的模型在域内测试集 (PAB-S 和 PAB-U) 以及外部 viVoice 测试集上的几乎所有指标都取得了最佳结果。

值得注意的是，请看 viVoice 测试集上的 WER (词错误率) :

viXTTS (基线) : 12.54%
XTTS-v2\(_{PAB}\) (本文模型) : 8.32%

这是一个至关重要的发现。XTTS-v2\(_{PAB}\) 模型在 viVoice 测试数据上的表现甚至优于实际在 viVoice 数据集上训练的模型。这有力地表明，PhoAudiobook 数据的质量 (更纯净的音频、更好的转录) 使得模型比仅仅拥有大量噪音数据具有更好的泛化能力。

2. 相似度与自然度

在主观人类评估方面，XTTS-v2\(_{PAB}\) 也遥遥领先。它获得了最高的 SMOS 分数，表明它在克隆说话人独特身份方面表现更优。较低的 RMSE\(_{F0}\) 分数进一步证实它比基线更准确地捕捉到了音高和韵律。

3. “短句”异常

结果中有一个有趣的异常值。请看表 2 中的 VIVOS 列。VIVOS 是一个由非常短的句子组成的数据集。

XTTS-v2\(_{PAB}\) WER: 37.81% (高错误率)
VALL-E\(_{PAB}\) WER: 12.63% (低错误率)

为什么表现最好的 XTTS 模型在这里会受挫？研究人员观察到，对于非常短的文本输入，XTTS-v2 倾向于在句子末尾“喋喋不休”或生成冗余的语音。这似乎是 XTTS-v2 本身的架构限制，而不是数据集的问题。相反, VALL-E 和 VoiceCraft 在处理这些简短、简洁的输入时被证明要稳健得多。

结论与启示

PhoAudiobook 的发布标志着越南语自然语言处理的一个重要里程碑。通过整理 941 小时的高质量长格式音频，研究人员提供了一个在音频保真度和元数据质量上都超越现有资源的数据集。

实验向 AI 社区展示了一个明确的教训: 数据工程与模型架构同样重要。 在干净、结构良好的数据 (PhoAudiobook) 上训练的模型，甚至可以在嘈杂数据的验证集上击败在嘈杂数据本身上训练的模型。

虽然 XTTS-v2 被证明是通用长篇叙述的优秀模型，但 VALL-E 和 VoiceCraft 在短句上的稳健性表明，根据具体应用 (例如，有声读物阅读器与对话助手) ，可能需要不同的架构。

目前，这些模型仅针对越南语进行了训练。未来的工作旨在探索“语码转换 (code-switching) ”，使这些声音能够在单个句子中流畅地在越南语和英语之间切换——这在现代多语言的越南是一个高度相关的功能。

引言#

背景: 零样本 TTS 的挑战#

核心方法: 构建 PhoAudiobook#

数据处理流程#

数据集分析与比较#

实验设置#

训练策略#

评估指标#

结果与分析#

1. XTTS-v2 + PhoAudiobook 的主导地位#

2. 相似度与自然度#

3. “短句”异常#

结论与启示#

引言