想象一下,你正在使用一款实时翻译应用。你对着麦克风说: “I was born in London.” (我出生在伦敦。) 假设你是一位女性。该应用将你的句子翻译成法语。
在英语中,这句话是中性的。但在法语中,语法要求必须做出选择。如果说话者是女性,应该是 “Je suis née à Londres.” 如果说话者是男性,则是 “Je suis né à Londres.”
AI 如何决定呢?在文本到文本的翻译中,系统毫无线索;它通常只能猜测 (往往默认使用男性形式) 。但在 语音翻译 (Speech Translation, ST) 中,模型可以访问你的声音。理想情况下,AI 应该能够“听出”与你声音相关的声学特征,对该信息进行编码,并利用它来选择正确的语法性别。
一篇引人入胜的新论文《Different Speech Translation Models Encode and Translate Speaker Gender Differently》 (不同语音翻译模型对说话人性别的编码与翻译方式存在差异) 深入探讨了这一机制。研究人员发现了一个令人惊讶的趋势: 虽然较旧的传统模型非常擅长“听出”性别,但最新的、最先进的架构基本上对这些线索“充耳不闻”,从而导致翻译中存在显著的男性偏见。
在这篇文章中,我们将拆解他们的方法论、他们窥探神经网络内部的创新“探针”技术,以及为什么这对未来公平 AI 的发展至关重要。
问题所在: 概念性别 vs. 语法性别
在检查神经网络之前,我们需要了解语言学上的挑战。研究人员专注于从 英语 (一种具有“概念”性别的语言) 翻译成 法语、意大利语和西班牙语 (具有“语法”性别的语言) 。
在英语中,指代说话者的名词和形容词很少因性别而改变。“I am happy” (我很快乐) 对每个人都是一样的。然而,在罗曼语族中,一致性是强制性的。
- 意大利语: Sono felice (中性/模糊) vs. Sono stanco (男性) / Sono stanca (女性) 。
- 法语: Je suis prêt (男性) / Je suis prête (女性) 。
如果上下文没有明确说明性别 (例如,“I am a woman who…”) ,翻译器 必须 依赖音频信号。这篇论文的核心问题是: 当前的语音翻译模型实际上是利用音频信号来确定性别,还是仅仅在猜测?
嫌疑对象: 两种类型的架构
研究人员比较了两大类语音翻译模型。
1. 传统的编码器-解码器 (Enc-Dec)
这是经典的“端到端”架构。它由一个语音编码器 (处理音频) 和一个文本解码器 (生成翻译) 组成。这些组件是专门为了语音翻译任务从头开始联合训练的。这里使用的模型是一个标准的基于 Transformer 的模型。
2. 现代“语音 + 机器翻译” (基于适配器)
这是一波新的高性能模型浪潮,例如 SeamlessM4T 和 ZeroSwot 。 这些架构就像是弗兰肯斯坦的怪物,但是在好的方面。它们将一个非常强大的、预训练的语音编码器 (如 wav2vec 2.0 或 w2v-BERT) 缝合到一个非常强大的、预训练的机器翻译 (MT) 模型 (如 NLLB) 上。
为了让这两个巨大的、预训练的“大脑”相互交流,它们使用了一个称为 适配器 (Adapter) 的组件。适配器的工作是压缩和映射沉重的语音表示,使它们看起来像 MT 模型可以理解的文本嵌入。
假设: 研究人员怀疑,虽然预训练的语音编码器很强大,但 适配器 可能起到了过滤器的作用,在解码器看到信息之前,就剥离了“非文本”信息——比如说话人的声音特征。
方法论: 探测神经网络的大脑
我们如何知道神经网络“知道”什么?我们不能直接问它。我们必须进行“神经外科手术”。这项技术被称为 探针 (Probing) 。
探针是一个小型的、简单的分类器 (通常是逻辑回归或小型神经网络) ,它位于主模型冻结的隐藏状态之上。如果探针可以查看隐藏状态并准确预测说话者的性别,我们就知道性别信息被编码在了这些状态中。
创新点: 基于注意力的探针
以前的研究通常获取隐藏状态序列 (代表随时间变化的音频) 并将它们平均化 (平均池化) 以获得单个向量。这篇论文的作者认为平均化会稀释信号。相反,他们设计了一种 基于注意力的探针 (Attention-Based Probe) 。
受 Q-Former 等架构的启发,该探针使用一个可学习的“查询”向量。它扫描整个隐藏状态序列,并学习仅关注性别信息最强的特定时刻。

上方的图 2 可视化了该探针的工作原理。 图表显示了“注意力权重”——本质上是模型正在看哪里。
- (a) Test-Generic (通用测试) : 观察一般语音。
- (b) Test-Speaker (说话人测试) : 观察说话人指代自己的句子。
注意图表左侧的尖峰。这表明 性别信息主要集中在句子的最开始部分。 模型几乎立即决定了性别。探针学会了专注于这些早期的时间戳并忽略其余部分。这使得探测比简单的平均化准确得多。
结果: 谁编码了性别?
研究人员在英语到西班牙语 (en-es)、法语 (en-fr) 和意大利语 (en-it) 上测试了模型。他们探测了模型的不同部分:
- Enc-Dec: 编码器输出。
- Seamless / ZeroSwot (适配器前): 语音编码器的原始输出。
- Seamless / ZeroSwot (适配器后): 被处理成看起来像文本之后的输出。
这是他们的发现:

*表 1 分析: * 看底部的 Enc-Dec 行。分数非常高 (F1 超过 90%) 。传统模型在其表示中保留了大量的性别信息。
现在看看 Seamless 和 ZeroSwot 。
- 适配器前 (Pre-Adapter): 它们相当好地编码了性别 (ZeroSwot 在这方面更好) ,尽管不如 Enc-Dec 那么强烈。
- 适配器后 (Post-Adapter): 这是一个关键发现。看分数的下降。对于 Seamless,F1 分数暴跌至大约 54-59%。对“She” (女性) 的召回率显著下降。
结论: 适配器充当了瓶颈 。 在试图将语音压缩为类文本嵌入的过程中,适配器丢弃了说话人的“声音”,实际上在翻译开始之前就从信号中清除了性别信息。
后果: 翻译准确性
“清除”性别信息重要吗?有人可能认为删除生物特征数据对隐私有好处。然而,在翻译中,这会导致错误。
研究人员使用 MuST-SHE 数据集评估了实际的翻译输出,该数据集专门设计用于测试性别一致性 (例如,检查“I was born”是翻译成正确的女性还是男性结尾) 。

*表 2 分析: *
- COMET: 这衡量的是一般翻译质量。 ZeroSwot 和 Seamless 实际上比传统的 Enc-Dec 拥有 更高 的一般质量分数。它们总体上是更好的翻译器。
- Acc. (准确率): 这衡量性别正确性。在这里,情况反转了。一般质量较低的 Enc-Dec 模型实现了最高的性别准确率 (平均 85.57%) 。清除了性别信息的 Seamless 在性别准确率上表现糟糕 (平均 53.35%——仅仅比抛硬币好一点点) 。
编码与翻译之间的联系
这篇论文提供了令人信服的证据,证明模型 翻译 性别的能力与其在内部 编码 性别的能力直接相关。

*图 1 分析: * 这个散点图令人震惊。
- X 轴 是探针 F1 分数 (模型内部对性别的“认知”程度) 。
- Y 轴 是翻译准确率 (它翻译句子的正确程度) 。
- 相关性几乎是完美的 (\(R^2 = 0.99\)) 。
逻辑无可辩驳: 如果模型在适配器层删除了性别信息 (低 X 轴) ,它就无法在输出中生成正确的语法性别 (低 Y 轴) 。
默认男性化
当模型丢失声学信息时,它会做什么?它会回退到其训练文本数据中存在的偏见。在大多数文本语料库中,男性形式是默认或“中性”的形式。
因此,那些“清除”了性别信息的模型 (Seamless 和 ZeroSwot) 表现出巨大的 男性默认偏见 。 它们几乎总是将“我”翻译为男性。
然而,研究人员发现,即使模型 确实 正确编码了性别,它仍然可能失败。他们分析了“混淆矩阵”以查看错误发生在哪里。

*图 4 和表 6 分析: * 图 4 显示了探针 正确 (模型知道性别) ,但翻译 错误 的情况。 注意矩阵左下角的单元格 (例如,33, 33, 38) 。这些代表了探针判断为“She” (正确) ,但翻译结果为“He” (错误) 的情况。
为什么会发生这种情况?表 6 给我们提供了一个定性的线索。看例子 (d) :
- *源文本: * “My main sport was soccer, and I was a goalkeeper…” (我的主要运动是足球,我是一名守门员…)
- *输出: * “…j’étais un gardien [男性]…”
即使说话者是女性,且模型可能检测到了女性声音 (编码在状态中) ,但训练数据中“足球/守门员”与“男性”之间的强烈语义关联压倒了声学信号。语言偏见战胜了声学现实。
为什么这很重要
这篇论文强调了现代 AI 开发中的一个关键张力。我们正走向“基础模型”——像 SeamlessM4T 这样无所不能的大规模通用系统。这些模型依赖适配器来桥接不同的模态 (语音、文本、图像) 。
然而,这种架构似乎在特定的细微之处引入了退步。通过压缩语音使其看起来像文本,我们失去了声音的丰富性。对于一位将“I am tired”翻译成意大利语的女性用户来说,“Sono stanca”和“Sono stanco”之间的区别不仅仅是一个语法错误;这是对用户的性别错称。
关键要点:
- 架构很重要: 对于每个子任务来说,越新并不总是越好。老派的编码器-解码器模型在保留说话人身份方面比基于适配器的模型更好。
- 适配器瓶颈: 目前将语音适应到文本嵌入的方法充当了一个过滤器,删除了性别线索。
- 通过数据实现公平: “清除”性别 (无论是有意还是无意) 会导致不公平。为了给女性说话者提供无偏见的翻译,模型 需要 知道性别是女性。
- 探针有效: 基于注意力的探测方法被证明是预测模型在现实世界中行为的可靠代理。
当我们构建下一代通用翻译器时,我们必须确保在追求效率和模块化的过程中,不会让用户的真实声音沉默。
](https://deep-paper.org/en/paper/2506.02172/images/cover.png)