试想一下,要在没有讲稿的情况下翻译一段说话的视频,而且要同时处理十种不同的语言。现在,把语音换成手势、面部表情和肢体动作。这就是多语言手语翻译 (Multilingual Sign Language Translation, MLSLT) 面临的巨大挑战。
多年来,辅助技术一直难以跨越聋人/听障群体与听人世界之间的沟通鸿沟。虽然我们见证了文本到文本翻译 (如 Google 翻译) 的飞速进步,但手语翻译 (Sign Language Translation, SLT) 却相对滞后。
在最近一篇题为 “Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model” 的论文中,来自东京科学大学 (Institute of Science Tokyo) 和 NHK 科学与技术研究实验室的研究人员提出了一种新颖的方法。他们引入了一种模型,不仅能处理单一手语,还能同时从十种手语中学习,且无需依赖昂贵的中间标签——“标注 (glosses) ”。
在这篇文章中,我们将解读他们是如何做到这一点的,剖析其“Sign2(LID+Text)”方法的架构,以及这项工作对未来包容性技术的重要性。
核心问题: 为什么手语翻译如此困难?
要理解这篇论文的贡献,我们需要先了解当前手语翻译面临的瓶颈。
1. 标注 (Gloss) 瓶颈
传统的手语翻译系统是基于标注 (gloss-based) 的。“标注”是对一个手语动作的书面标签 (例如,当打手语的人跳跃时,写下“JUMP”) 。典型的流程如下:
- 视频 \(\rightarrow\) 识别出的标注 (手语识别)
- 标注 \(\rightarrow\) 口语文本 (翻译)
这种方法虽然有效,但有一个重大缺陷: 标注注释极其昂贵且耗时。 它需要专业语言学家对视频的每一帧进行标记。这造成了“信息瓶颈”,使得在缺乏此类数据的新语言上扩展几乎变得不可能。
本研究的研究人员选择了一种无标注 (gloss-free) 的方法。他们希望直接从原始视频 \(\rightarrow\) 口语文本 , 完全绕过对标注标签的需求。
2. 多语言挑战
大多数手语翻译研究集中在“一对一”翻译 (例如,德国手语到德语文本) 。但世界是多语言的。要构建一个强大的“基础模型” (类似 GPT-4 但用于手语) ,模型需要从多样化的数据集中学习。
然而,简单地将多种手语扔进一个模型会导致语言冲突 (Language Conflict) 。 手语并不是通用的。英国手语 (BSL) 和中国手语 (CSL) 有着截然不同的词汇和语法。

如上图 5 所示,即使像“雨 (Rain) ”这样简单的概念看起来很相似 (上排) ,但像“晚上 (Evening) ”这样的概念 (下排) ,其表达方式却完全不同。当模型试图在没有指导的情况下同时学习这些相互冲突的模式时,其性能通常会下降。
解决方案: Sign2(LID+Text)
研究人员提出了一种名为 Sign2(LID+Text) 的方法。其核心思想简单而强大: 有效地教导模型在词例 (token) 级别上识别它正在处理的是哪种手语,同时学习如何翻译它。

如图 1 所示,该模型接收各种视觉手语输入 (右侧) 和文本输入 (左侧) ,并通过一个统一的无标注框架进行处理。但它是如何处理语言之间的混淆的呢?
架构: 分层编码器-解码器
该模型使用了一种带有特殊设计的基于 Transformer 的架构。它采用了一个分层编码器 (Hierarchical Encoder) , 将任务分为两个层级。

- (注: 请参考上图 2 中的架构图以了解视觉流程) 。*
让我们拆解架构中展示的组件:
1. 特征提取器 (Feature Extractor) 首先,原始视频帧 \(\mathcal{V}\) 被转换为数学表示 (嵌入) 。研究人员使用预训练网络 (SlowFastSign) 来提取这些特征。

2. Sign2LID 模块 (“识别器”) 这是新颖的贡献所在。编码器的初始层负责词例级手语识别 (Token-level Sign Language Identification, SLI) 。
模型不是仅仅给整个视频打上单一标签 (如“美国手语”) ,而是预测序列中每个片段的语言 ID (LID) 。这在流程早期就将视觉特征与特定的语言特征对齐。

在这个方程中,\(\mathcal{L}_{\mathrm{LID}}\) 代表语言 ID 的损失函数。它强制初始编码器层输出一系列语言标签 (例如 <ase>, <ase>, <ase>) ,这些标签与目标文本的长度相匹配。
这一阶段的输出是一个中间表示 \(\mathbf{h}_{\mathrm{int}}\),它现在携带了强烈的特定语言信息:

3. Sign2Text 模块 (“翻译器”) 中间特征随后被传递到编码器的更深层。这些层负责重新排序手语表示,以匹配口语的词序。
手语通常具有与口语不同的句子结构 (例如,宾-主-动 vs. 主-谓-宾) 。模型在这里使用 CTC (连接时序分类,Connectionist Temporal Classification) 目标函数,将视觉特征与口语文本词例对齐。

4. 联合解码 (Joint Decoding) 最后,模型采用联合策略。它结合了 CTC 预测 (擅长对齐) 和注意力解码器 (Attention Decoder,擅长生成流畅句子) 。
总训练目标结合了三个损失函数:
- LID 损失 (LID Loss) : 我们是否正确识别了手语?
- 文本 CTC 损失 (Text CTC Loss) : 我们是否正确地将手势对齐到了单词?
- 注意力损失 (Attention Loss) : 我们是否生成了连贯的句子?

通过平衡这三个目标 (由 \(\lambda\) 权重控制) ,模型学会了同时进行识别、对齐和翻译。
实验设置
为了验证这一方法,研究人员在三个主要数据集上测试了模型:
- SP-10: 一个多语言数据集,涵盖 10 种不同的手语 (包括保加利亚语、汉语、德语、希腊语、英语等) 。
- PHOENIX14T: 一个标准的德国手语基准。
- CSL-Daily: 一个中国手语基准。

如表 6 所示,SP-10 最具多样性,而 CSL-Daily 在训练样本数量上最大。
关键结果
分析涵盖了三种不同的翻译场景。
1. 一对一翻译 (标准 SLT)
首先,这种新架构是否适用于标准的单语言翻译?是的。添加“文本 CTC”对齐显著提高了性能。

在表 3 中,所提出的方法 (Ours w TxtCTC) 优于基线,并在 BLEU 分数 (衡量翻译质量的标准指标) 上取得了与 SignLLM 等最先进方法相当的成绩。
为什么它的效果更好? 研究人员根据句子长度分析了性能。


图 3 和图 4 揭示了一个有趣的趋势。红线 (使用 TxtCTC) 始终高于灰线 (未使用) 。这种提升在短句和中等长度句子中最为显著。CTC 机制帮助模型“锁定”特定的手势和单词,防止在上下文有限的较短序列中出现幻觉或迷失方向。
2. 多对一翻译 (“通用”翻译器)
此设置测试一个模型是否能将 10 种不同的手语翻译成英语。这通常是语言冲突破坏性能的地方。
研究人员比较了为每种语言训练单独的模型与一个“通用”模型的效果。

表 8 清晰地展示了这个问题。当从单独模型 (Individual) 转向通用基线 (Universal) 时,性能显著下降 (平均下降 1.50 BLEU) 。例如,中国手语 (csl \(\rightarrow\) en) 从 6.24 降至 2.72。这证实了如果没有特殊处理,语言之间会相互干扰。
然而,使用所提出的 Sign2(LID+Text) 方法,模型不仅挽回了这一损失,而且实际上比单独模型高出平均 0.58 BLEU。词例级语言识别成功地分离了语言模式,使模型能够利用共享数据而免受冲突影响。
3. 多对多翻译 (最难的任务)
最后,他们在多对多翻译上测试了模型 (例如,将 10 种手语中的任何一种翻译成各自的口语) 。

表 5 显示,即使添加了更多语言对,模型仍保持稳定。虽然与一对一模型相比略有下降 (考虑到难度,这是预期的) ,但性能依然稳健。这表明模型正在有效地共享跨语言信息,这对于自身没有足够数据来训练好模型的低资源语言至关重要。
结论与未来影响
这项研究标志着迈向手语基础模型的重要一步。通过成功消除对标注的需求,并通过词例级语言识别解决语言冲突问题,作者为更具可扩展性和包容性的翻译系统打开了大门。
主要收获:
- 无标注是可行的: 我们不需要昂贵的标记也能获得良好的结果。
- 词例级 ID 至关重要: 在词例级别 (不仅仅是视频级别) 识别语言,有助于编码器组织相互冲突的语法。
- 联合解码有效: 结合 CTC (用于对齐) 和注意力机制 (用于生成) 提供了两全其美的效果,特别是对于较短的句子。
虽然数据稀缺仍然是一个挑战——SP-10 只有大约 8,300 个训练样本——但像这样的方法最大限度地利用了我们现有的数据。随着更大的多语言数据集的出现,像 Sign2(LID+Text) 这样的架构很可能成为打破全球沟通障碍的标准。
](https://deep-paper.org/en/paper/2505.24355/images/cover.png)