引言
想象一下,你使用的语音助手能完美理解你哥哥说的话,但当你说话时,它却连一个简单的句子都听不懂。对于数百万用户来说,这并非假设的场景,而是与现代 AI 交互时的真实写照。
自动语音识别 (ASR) 系统已变得无处不在,从 Siri and Alexa 等虚拟助手到自动客户服务热线和听写软件,背后都有它的身影。然而,尽管这些系统被广泛采用,它们往往存在显著的性能差异。它们可能对讲英语的男性用户效果完美,但对女性用户或低资源语言的使用者却表现吃力。
这种现象很大程度上源于训练数据的不平衡。如果一个模型在训练期间“听”了数千小时的男性声音,它就会优化其参数以最小化该特定声学特征的错误。结果就是系统产生了一个“公平性差距 (fairness gap) ”——即不同人口群体之间错误率的可测量差异。
历史上,修复这一差距往往需要妥协。研究人员发现,他们可以让模型变得更公平 (缩小群体间的差距) ,但这往往以牺牲整体准确性为代价。这被称为“公平性税 (fairness tax) ”。
但是,如果我们不必二选一呢?在论文 “On Mitigating Performance Disparities in Multilingual Speech Recognition” (缓解多语言语音识别中的性能差异) 中,研究人员 Monorama Swain、Anna Katrine van Zee 和 Anders Søgaard 提出了一种新颖的架构方法。通过使用一种称为 Adapter Fusion 的技术结合不同的微调策略,他们证明了可以在提高整体性能的同时缓解性别差异。
在这篇深度文章中,我们将探讨他们是如何实现这一点的,他们提出的架构的运作机制,以及这对构建公平 AI 的未来意味着什么。
背景: ASR 微调的格局
要理解作者的贡献,我们需要先看看他们使用的基线模型: Whisper 。 Whisper 由 OpenAI 开发,是一个在 68,000 小时多语言网络数据上训练的大规模 ASR 模型。虽然 Whisper 很强大,但它也不能免于偏见,“开箱即用”的性能会因语言和说话者的性别而有很大差异。
为了使这样一个庞大的模型适应特定任务或改善其行为,我们使用微调 (fine-tuning) 。 然而,微调一个 15.5 亿参数的模型 (如 Whisper Large) 计算成本昂贵。这导致了参数高效技术的兴起。
作者研究了几种微调流派,每一种都有不同的理念:
- ERM (经验风险最小化) : 这是标准方法。目标很简单: 最小化整个数据集的平均错误率。虽然高效,但 ERM 是“公平盲 (fairness-blind) ”的。如果数据集 80% 是男性,ERM 将专注于针对男性声音进行优化,因为这是降低平均错误率最快的方法。
- LoRA (低秩自适应) : 一种流行的效率技术,它冻结主模型权重并训练小的低秩矩阵,有效地注入新信息。虽然计算成本低,但之前的研究暗示 LoRA 实际上可能会加剧偏见。
- 促进公平的算法:
- Group-DRO (组分布鲁棒优化) : 该方法不是最小化平均误差,而是最小化最差情况的误差。它识别出表现不佳的人口群体,并将训练重点放在那里。
- Spectral Decoupling (谱解耦,SD) : 这是一种正则化技术,旨在迫使模型学习鲁棒的特征,而不是依赖训练数据中常见的“虚假相关性 (spurious correlations) ” (偏见) 。
作者指出的核心问题是,虽然 Group-DRO 和 SD 提高了公平性,但它们往往会损害整体词错率 (WER) 。模型变得更公平了,但也更“笨”了。
核心方法: 利用 Adapter Fusion 增强 Whisper
研究人员的假设既巧妙又简单: 与其选择一种微调策略,不如训练多个专门的模块,让模型决定使用哪一个?
这利用了 Adapter (适配器) 的概念。Adapter 是插入预训练网络冻结层之间的一个小瓶颈层。你可以在不触及庞大原始模型的情况下训练 Adapter。
三大支柱
作者设计了一个系统,训练三个不同的 Adapter,每个 Adapter 都有特定的目标函数:
- ERM Adapter: 训练目标是最大化原始性能 (低 WER) 。
- Group-DRO Adapter: 训练目标是确保表现最差的群体能追赶上来。
- Spectral Decoupling (SD) Adapter: 训练目标是将敏感属性 (如性别) 与预测解耦。
融合层 (The Fusion Layer)
分别训练这些 Adapter 给出了三种关于如何处理音频的“意见”。创新之处在于 Adapter Fusion 。
该技术在三个 Adapter 之上添加了一个新层。它使用一种注意力机制来动态权衡三个 Adapter 的输出。对于任何给定的输入,融合层会问: “这三个 Adapter 中哪一个现在提供的最有用的信息?”并相应地组合它们的输出。

如 Figure 1 所示,该架构通过标准的 Whisper 编码器处理输入。信号随后通过三个并行 Adapter (ERM、G-DRO 和 SD) 。最后, Adapter Fusion 层在将这些表示传递给解码器生成文本之前对它们进行聚合。
这种“Adapter 集成”方法允许模型利用所有三种策略的优势。它可以使用 ERM Adapter 的原始准确性,同时在必要时引入 G-DRO 和 SD Adapter 的鲁棒性和公平性约束。
实验设置
为了测试这一架构,研究人员使用了 VoxPopuli , 这是一个欧洲议会演讲的数据集。该数据集非常适合此目的,因为它包含有关演讲者人口统计信息的元数据,并涵盖了多种语言。
- 语言: 16 种语言,包括英语和法语等高资源语言,以及爱沙尼亚语和斯洛文尼亚语等中等资源语言。
- 人口统计变量: 二元性别 (男/女) 。
- 指标: 词错率 (WER) 。在 ASR 中,WER 越低越好。
团队将他们的 Adapter Fusion 方法与标准基线 (LoRA 和 ERM) 以及单独的公平性算法 (Group-DRO 和 SD) 进行了比较。
结果与分析
结果对模型大小、微调算法和公平性之间的关系进行了细致的剖析。
1. 性能与公平性的权衡
最重要的发现是 Adapter Fusion 成功打破了“公平性税”。
查看下面的 Table 1 , 我们可以看到 16 种语言平均后的词错率 (WER) 。

以下是如何解读这张表:
- \(\Delta\) (Delta): 代表公平性差距 (性别间错误率的差异) 。Delta 越低越好。
- WER (♀+♂): 这是整体错误率。越低越好。
关键观察:
- LoRA 的错误率最高 (12.9) ,差距也最大 (0.9) 。这证实了这样一种猜想: 虽然 LoRA 效率高,但在公平性方面不够鲁棒。
- Group-DRO 实现了最低的差距 (0.2) ,使其在平均主义术语中是“最公平”的。然而,它的整体错误率为 10.4。
- Adapter Fusion 实现了最低的整体错误率 (9.7) 。 虽然它的差距 (0.6) 略高于 Group-DRO,但明显优于 LoRA。
这表明 Adapter Fusion 提供了最佳的“罗尔斯式 (Rawlsian) ”结果。在哲学中,罗尔斯式方法优先考虑改善最弱势群体的状况。因为 Adapter Fusion 如此显著地降低了所有人的错误率,以至于最弱势群体的绝对表现比其他任何方法都要好,即使相对差距不是绝对最小的。
2. 模型大小的影响
研究人员还调查了随着模型变大,这些差异是否依然存在。他们在整个 Whisper 系列中测试了该架构,从“Tiny” (3900 万参数) 到“Large” (15.5 亿参数) 。

Figure 2 可视化了随着模型尺寸增加,错误率的变化轨迹。
- 缩放定律 (Scaling Law) : 正如预期的那样,更大的模型 (x 轴向右移动) 具有更低的错误率 (y 轴下降) 。
- 语言难度: 我们看到语言分成了明显的带状分布。对模型来说,英语 (底部的蓝点) 始终比波兰语 (顶部的紫点) 更容易。
- 一致性: 趋势表明,较大的模型往往仅凭能力更强就能自然地减少差异,但要显著缩小差距,微调仍然是必要的。
3. 语言公平性
公平性不仅仅关于性别;它也关于语言。一项全球性技术不应该仅仅因为你说爱沙尼亚语而不是英语,效果就差 50%。
支持 Adapter Fusion 的最有力论据之一来自于对不同语言性能标准差的分析。高标准差意味着模型表现波动很大——在某些语言上表现极好,在另一些语言上则很糟糕。

Figure 3 讲述了一个引人注目的故事:
- LoRA (最左侧) : 显示出巨大的标准差 (约 15) 。支持得最好的语言和最差的语言之间差距巨大。
- Adapter Fusion (最右侧,AF) : 显示出最低的方差之一 (约 7-8) 。
这表明 Adapter Fusion 起到了稳定器的作用。通过动态地在不同的训练目标之间进行裁决,它防止了模型以牺牲其他语言为代价过拟合主导语言 (如英语) ,从而产生一个更公平的多语言系统。
讨论与启示
Swain 等人的这项工作为机器学习的学生和从业者强调了几个关键点。
“稀疏性”问题
LoRA 在公平性方面的糟糕表现值得注意。LoRA 提倡稀疏性——它试图使用非常少的参数来调整模型。作者指出,稀疏性往往会损害鲁棒性。当模型被限制使用极少的参数来学习任务时,它倾向于抓住数据中最强的相关性。在有偏见的数据集中,最强的相关性往往就是偏见本身 (例如,“这是一个语音数据集,所以这可能是一个男人在说话”) 。
堆叠 (Stacking) 与投票 (Voting)
Adapter Fusion 本质上是一种“堆叠”架构。它增加参数来在子模型之间进行裁决。虽然这比单个 Adapter 稍微增加了推理时间,但这比“投票” (运行整个模型三次并平均结果) 要高效得多。这是部署鲁棒 AI 的一个实用的中间立场。
罗尔斯式公平与平均主义公平
该论文触及了对 AI 伦理至关重要的哲学区别。
- 平均主义公平 (Egalitarian Fairness) 寻求最小化群体之间的差异 (目标是 \(\Delta = 0\)) 。
- 罗尔斯式公平 (Rawlsian Fairness) 寻求最大化最差群体的福利。
Group-DRO 是平均主义的: 它缩小了差距,但这通常通过让每个人的表现都稍微变差来实现。Adapter Fusion 是罗尔斯式的: 差距虽然稍微大一点,但“输家”群体 (以及“赢家”群体) 都看到了显著的性能提升。在高风险应用中,如医疗转录或法律听写,罗尔斯式方法——最小化所有人的绝对错误——通常在实践中更优越。
结论
寻求公平的 AI 往往感觉像是一场零和游戏,必须为了公平而牺牲准确性。这项研究提供了一个充满希望的反例。通过摆脱单一的训练目标并拥抱像 Adapter Fusion 这样的模块化架构,我们可以构建足够细致的系统来平衡相互竞争的目标。
经验风险最小化、组分布鲁棒优化和谱解耦的结合,使得 Whisper 模型能够识别何时需要优化准确性,何时需要纠正偏见。结果是一个不仅能更好地听懂我们,而且能更平等地听懂我们所有人的系统。
对于进入该领域的学生来说,这是一个强有力的教训: 架构设计不仅仅是将层堆叠得更深;它是关于设计能够智能管理现实世界部署中复杂且经常相互矛盾的目标的机制。
](https://deep-paper.org/en/paper/file-3440/images/cover.png)