跨越语音与知识的鸿沟：一种多层次对齐方法

在自然语言处理 (NLP) 领域，从非结构化文本中提取结构化知识——例如实体间的关系——是一个非常成熟的领域。我们拥有复杂的模型，可以阅读“史蒂夫·乔布斯联合创立了苹果公司”这样的句子，并提取出三元组 (史蒂夫·乔布斯, 创始人, 苹果公司)。

但是在语音方面呢？大量的人类知识是通过播客、会议、电话和新闻广播进行交流的。从历史上看，从语音中提取关系 (SpeechRE) 一直被视为一个两阶段的流水线: 首先使用自动语音识别 (ASR) 将音频转录为文本，然后运行基于文本的关系抽取模型。虽然这种方法行得通，但它容易出现“错误传播”——如果 ASR 听错了名字，关系抽取就会立即失败。

最近的研究推动了 端到端 SpeechRE 的发展，即模型聆听音频并直接输出结构化知识。然而，这面临着两个巨大的挑战:

数据稀缺: 大多数数据集使用合成 (文本转语音) 音频，缺乏真实人类语音的细微差别和噪声。
模态鸿沟: 语音编码器 (处理连续声波) 和文本解码器 (生成离散词符) 在完全不同的特征空间中运行。

在这篇文章中，我们将剖析最近的一篇论文 “Multi-Level Cross-Modal Alignment for Speech Relation Extraction” (用于语音关系抽取的多层次跨模态对齐) , 该论文提出了一种名为 MCAM (多层次跨模态对齐模型) 的新颖架构。作者引入了一个巧妙的“教师-学生”训练框架，在词符 (Token) 、实体 (Entity) 和句子 (Sentence) 级别对齐语音和文本，有效地教导语音模型像文本模型一样“思考”。

背景: 为什么 SpeechRE 很难

要理解为什么 MCAM 是必要的，我们需要先看看以前方法的局限性。

在典型的端到端 SpeechRE 模型中，你有一个语音编码器 (如 wav2vec 2.0) 连接到一个文本解码器 (如 BART) 。问题在于这两个组件是在不同类型的数据上预训练的。简单的连接，例如长度适配器 (缩短音频序列以匹配文本长度) ，往往是不够的。语音特征中的语义信息无法自然地映射到文本解码器期望的语义空间。

这篇论文的作者进行了一项初步研究，以观察其他领域 (如语音翻译) 现有的对齐技术在关系抽取中的表现如何。

图 1: 基线模型 (Wu et al., 2022) 及其变体的示意图。

如 图 1 所示，有几种连接这些组件的方法:

(a) 基线: 一个简单的长度适配器 (L-Adapter) 。
(b) 词符级对齐: 使用连接时序分类 (CTC) 将音频帧对齐到特定的词符 (Tokens) 。
(c) 句子级对齐: 将音频压缩成一个全局向量，并将其与文本摘要向量对齐。

当研究人员在 CoNLL04 数据集上测试这些现有方法时，他们发现了一些有趣的现象:

表 1: 基线模型 (LNA-ED) 及其变体在 CONLL04 测试集上的性能。

如 表 1 所示:

词符级对齐 改善了实体识别 (ER) ，但对理解实体间的关系帮助不大。
句子级对齐 帮助了关系预测 (RP) ，但实际上损害了实体识别。

为什么会发生这种情况？作者发现，标准的基于 CTC 的对齐倾向于过度拟合高频词符 (如 “the”, “a”, “is”) ，导致稀有实体词的特征质量坍缩。

图 2: CONLL04 训练集中的词符频率与 CTC 贪婪解码生成的词符频率对比。

图 2 展示了这种坍缩。红线显示了 CTC 模块生成的词符分布。与实际训练数据 (蓝线) 相比，它急剧下降，表明模型忽略了通常构成命名实体的丰富低频词。

相反，句子级压缩丢失了识别特定实体所需的细粒度细节。看来我们要做的不仅仅是选择其中一种；我们需要一种能够 在每个层级 上对齐语音和文本的方法。

解决方案: 多层次跨模态对齐 (MCAM)

提出的 MCAM 模型旨在全面弥合模态鸿沟。该架构使用 语音编码器 (wav2vec 2.0) 处理输入，使用 对齐适配器 将这些特征转换为文本兼容的空间，并使用 文本解码器 (BART) 生成关系三元组。

“秘诀”在于模型的训练方式。在训练期间，作者引入了一个 文本编码器 (BART 编码器) 作为教师。模型学习将语音表示对齐到这位教师提供的文本表示。

图 3: 我们模型的整体架构。

如 图 3 所示，对齐适配器在三个不同的层级上工作。让我们逐一分解。

第 1 层: 词符级 (Token-Level) 对齐

这里的目标是将语音特征序列 (\(\mathbf{H}_s\)) 与文本特征序列 (\(\mathbf{H}_t\)) 对齐。

标准方法将语音特征对齐到静态词嵌入。然而，词符的含义会根据上下文而变化。MCAM 对此进行了改进，它基于文本编码器的 上下文 输出计算对齐分数。

模型使用卷积神经网络 (CNN) 对长语音序列进行下采样。然后，它计算语音特征与当前批次文本特征之间的相似度矩阵。应用 CTC (连接时序分类) 损失，强制语音特征与文本词符单调对齐。

通过使用动态文本特征 (来自文本编码器) 而不是静态嵌入，模型避免了对高频功能词的过度拟合，保留了实体所需的丰富语义。

第 2 层: 实体级 (Entity-Level) 对齐

对齐每个词符固然好，但关系抽取严重依赖于特定实体。模型需要确切知道音频的哪一段对应于“史蒂夫·乔布斯”或“苹果公司”。

挑战在于我们并不自然地知道音频中实体的时间戳。现有的方法使用外部对齐器 (这会增加误差) 或复杂的传输算法。MCAM 提出了一种更简单的机制: 基于窗口的注意力机制 。

由于对齐通常是单调的 (时间向前流动) ，模型假设对应于实体词符的语音存在于相对于其位置的局部窗口内。模型使用限制在该窗口内的注意力机制计算实体词符的语音特征 \(\mathbf{h}_{i}^{(s)}\):

实体级语音特征提取公式。

在这里，模型查看文本特征 \(\mathbf{H}_t[i]\) 并在窗口 \([s:e]\) 内找到最相关的语音片段。

一旦提取出实体的特定语音特征，作者就创建了一个 混合特征序列 (\(\mathbf{H}_m\))。他们获取原始文本序列，并用这些提取的语音特征替换实体的文本特征。

然后训练模型最小化解码器在给定纯文本特征与混合特征时的输出差异 (KL 散度) 。这迫使“苹果公司”的语音表示在解码器眼中与“苹果公司”的文本表示在功能上完全相同。

第 3 层: 句子级 (Sentence-Level) 对齐

最后，模型需要理解全局上下文来预测实体之间的关系。句子说的是实体 A 创立了 实体 B，还是 收购了 实体 B？

为了捕捉这一点，MCAM 使用了一个 语义压缩层 。模型不是使用单个“句子向量”，而是使用 \(R\) 个可学习的查询向量 (其中 \(R\) 是关系类型的数量) 。这些查询通过注意力机制“扫描”输入特征 (语音和文本) 以创建全局表示。

语义压缩公式。

这产生了全局特征 \(\mathbf{G}_s\) (来自语音) 和 \(\mathbf{G}_t\) (来自文本) 。

然而，将所有内容压缩成向量会丢失细节。为了解决这个问题，作者将这些全局向量视为 软提示 (Soft Prompts) 。他们将这些全局向量前置到原始序列特征之前。

对齐是通过 对比损失 (\(\mathcal{L}_{CL}\)) 强制执行的。这个目标将全局语音表示拉近其对应的文本表示，同时将其推离不相关的表示。

对比损失公式。

这确保了口语句子的“主旨”与书面句子的“主旨”相匹配。

训练模型

训练过程是一个多任务学习目标。当然，主要目标是生成正确的文本 (关系三元组) 。模型对生成任务使用交叉熵 (\(\mathcal{L}_{CE}\)) 损失，应用于文本、混合和语音序列。

交叉熵损失公式。

除了上述生成和对比损失外，模型还使用 KL 散度将知识从文本模态蒸馏到语音模态。

KL 散度损失公式。

最终的损失函数结合了所有这些目标，并由超参数 \(\alpha\) 和 \(\beta\) 进行平衡。

总损失公式。

这种复合损失确保模型不仅是在记忆数据，而且是在积极地学习在每个粒度层级 (词符、实体和句子) 上对齐模态。

实验与结果

为了严格测试 MCAM，研究人员不仅仅使用了合成数据。他们构建了两个 真实世界的 SpeechRE 数据集 , 分别基于 CoNLL04 和 ReTACRED。他们聘请母语人士朗读文本实例，创建了一个包含自然停顿、语调和噪声的数据集。他们还使用了一个“Mixed-CoNLL04”数据集 (合成训练数据，真实测试数据) 来测试鲁棒性。

调整超参数

在查看主要比较之前，了解模型的调整方式很重要。研究人员分析了损失权重 \(\alpha\) (用于对比学习) 和 \(\beta\) (用于 CTC) 的影响。

表 3: 我们的模型在不同 alpha 和 beta 值下的性能。

如 表 3 所示，模型相对稳定，但在 \(\alpha=0.8\) 和 \(\beta=0.2\) 时达到峰值性能。这突显出虽然词符对齐 (CTC) 是必要的，但句子级语义对齐 (对比学习) 在确定关系方面具有重要分量。

他们还研究了 语义投影层——文本和语音特征相遇的共享空间。

图 4: 在语义投影层不同层数 N 下的性能。

图 4 表明，使用 BART 编码器的前 3 层作为投影层产生的效果最好。更深层 (\(N > 3\)) 会损害性能，这可能是因为 SpeechRE 数据集的规模有限，难以有效地训练大量参数。

主要性能

结果是决定性的。MCAM 在三个关键指标上始终优于现有基线:

ER: 实体识别 (Entity Recognition)
RP: 关系预测 (Relation Prediction)
RTE: 关系三元组抽取 (Relation Triplet Extraction，即完整任务)

在 CoNLL04 数据集上，MCAM 在实体识别上取得了 40.13 的 F1 分数，在完整三元组抽取任务上取得了 22.07 的分数。这大大超过了基线 LNA-ED 模型，后者的得分分别为 18.87 和 10.41 。

实验分析的关键要点包括:

端到端的优势: MCAM 优于流水线模型 (ASR + TextRE) 。流水线模型受到错误传播的严重影响——如果 ASR 漏掉了一个实体名称，关系抽取就不可能完成。
真实 vs. 合成: 与合成语音相比，所有模型在真实语音上的表现都较差，这验证了作者关于合成数据集作为基准不足的说法。然而，MCAM 对真实语音的“混乱”表现出了比竞争对手更强的鲁棒性。
对齐至关重要: 与其他对齐方法 (如语音翻译中的 Chimera 或 SATE) 的比较表明，MCAM 特定的多层次方法更适合关系抽取所需的粒度。

消融研究: 我们需要所有层级吗？

作者逐一移除组件以验证它们的贡献。

移除词符级对齐: 导致实体识别显著下降。没有 CTC 的指导，模型很难定位实体。
移除实体级对齐: 同样损害了实体识别。针对“混合”序列的 KL 散度损失对于确保解码器像识别文本实体一样有效地识别语音实体至关重要。
移除句子级对齐: 导致 关系预测 出现特定下降。模型可以找到实体，但如果没有软提示提供的全局上下文，就很难理解它们之间的关系。

结论与未来展望

MCAM 论文代表了直接从语音中提取结构化知识的重要一步。通过承认语音和文本是根本不同的模态，并强制在词符、实体和句子级别进行对齐，作者创建了一个比以前的尝试更加鲁棒的模型。

真实世界数据集 (人工朗读的 CoNLL04 和 ReTACRED) 的引入也是一项重要贡献，推动该领域摆脱对合成语音的“拐杖”，转向处理真实人类交流的复杂性。

这为什么重要? 想象一下，一个虚拟助手不仅能转录你的会议，还能自动用“项目 X 的截止日期是周五”或“爱丽丝是市场部的负责人”来更新你公司的知识图谱。MCAM 通过消除对容易出错的转录步骤的依赖，并将语音视为知识抽取的一等公民，使我们更接近这一现实。

该领域的未来工作可以着眼于“零样本” SpeechRE——仅使用 ASR 和 TextRE 可用的丰富数据来训练模型，而无需昂贵的人工标注语音关系数据集。但就目前而言，MCAM 为我们应该如何弥合“所言”与“所知”之间的鸿沟设立了新的标准。

背景: 为什么 SpeechRE 很难#

解决方案: 多层次跨模态对齐 (MCAM)#

第 1 层: 词符级 (Token-Level) 对齐#

第 2 层: 实体级 (Entity-Level) 对齐#

第 3 层: 句子级 (Sentence-Level) 对齐#

训练模型#

实验与结果#

调整超参数#

主要性能#

消融研究: 我们需要所有层级吗？#

结论与未来展望#