跨越鸿沟：多语言无标注手语翻译的新基石

试想一下，要在没有讲稿的情况下翻译一段说话的视频，而且要同时处理十种不同的语言。现在，把语音换成手势、面部表情和肢体动作。这就是多语言手语翻译 (Multilingual Sign Language Translation, MLSLT) 面临的巨大挑战。

多年来，辅助技术一直难以跨越聋人/听障群体与听人世界之间的沟通鸿沟。虽然我们见证了文本到文本翻译 (如 Google 翻译) 的飞速进步，但手语翻译 (Sign Language Translation, SLT) 却相对滞后。

在最近一篇题为 “Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model” 的论文中，来自东京科学大学 (Institute of Science Tokyo) 和 NHK 科学与技术研究实验室的研究人员提出了一种新颖的方法。他们引入了一种模型，不仅能处理单一手语，还能同时从十种手语中学习，且无需依赖昂贵的中间标签——“标注 (glosses) ”。

在这篇文章中，我们将解读他们是如何做到这一点的，剖析其“Sign2(LID+Text)”方法的架构，以及这项工作对未来包容性技术的重要性。

核心问题: 为什么手语翻译如此困难？

要理解这篇论文的贡献，我们需要先了解当前手语翻译面临的瓶颈。

1. 标注 (Gloss) 瓶颈

传统的手语翻译系统是基于标注 (gloss-based) 的。“标注”是对一个手语动作的书面标签 (例如，当打手语的人跳跃时，写下“JUMP”) 。典型的流程如下:

视频 \(\rightarrow\) 识别出的标注 (手语识别)
标注 \(\rightarrow\) 口语文本 (翻译)

这种方法虽然有效，但有一个重大缺陷: 标注注释极其昂贵且耗时。 它需要专业语言学家对视频的每一帧进行标记。这造成了“信息瓶颈”，使得在缺乏此类数据的新语言上扩展几乎变得不可能。

本研究的研究人员选择了一种无标注 (gloss-free) 的方法。他们希望直接从原始视频 \(\rightarrow\) 口语文本 , 完全绕过对标注标签的需求。

2. 多语言挑战

大多数手语翻译研究集中在“一对一”翻译 (例如，德国手语到德语文本) 。但世界是多语言的。要构建一个强大的“基础模型” (类似 GPT-4 但用于手语) ，模型需要从多样化的数据集中学习。

然而，简单地将多种手语扔进一个模型会导致语言冲突 (Language Conflict) 。手语并不是通用的。英国手语 (BSL) 和中国手语 (CSL) 有着截然不同的词汇和语法。

Figure 5: Sign language similarities and differences across languages. Sign videos are from SpreadTheSign. Note for privacy: we anonymize signers.

如上图 5 所示，即使像“雨 (Rain) ”这样简单的概念看起来很相似 (上排) ，但像“晚上 (Evening) ”这样的概念 (下排) ，其表达方式却完全不同。当模型试图在没有指导的情况下同时学习这些相互冲突的模式时，其性能通常会下降。

解决方案: Sign2(LID+Text)

研究人员提出了一种名为 Sign2(LID+Text) 的方法。其核心思想简单而强大: 有效地教导模型在词例 (token) 级别上识别它正在处理的是哪种手语，同时学习如何翻译它。

Figure 1: Overview of multilingual gloss-free model. Here, gsg = German Sign Language, csl = Chinese Sign Language,and bfi = British Sign Language.

如图 1 所示，该模型接收各种视觉手语输入 (右侧) 和文本输入 (左侧) ，并通过一个统一的无标注框架进行处理。但它是如何处理语言之间的混淆的呢？

架构: 分层编码器-解码器

该模型使用了一种带有特殊设计的基于 Transformer 的架构。它采用了一个分层编码器 (Hierarchical Encoder) , 将任务分为两个层级。

Figure 2: Overview of multilingual gloss-free model.

(注: 请参考上图 2 中的架构图以了解视觉流程) 。*

让我们拆解架构中展示的组件:

1. 特征提取器 (Feature Extractor) 首先，原始视频帧 \(\mathcal{V}\) 被转换为数学表示 (嵌入) 。研究人员使用预训练网络 (SlowFastSign) 来提取这些特征。

Equation describing feature extraction

2. Sign2LID 模块 (“识别器”) 这是新颖的贡献所在。编码器的初始层负责词例级手语识别 (Token-level Sign Language Identification, SLI) 。

模型不是仅仅给整个视频打上单一标签 (如“美国手语”) ，而是预测序列中每个片段的语言 ID (LID) 。这在流程早期就将视觉特征与特定的语言特征对齐。

Equation describing LID loss

在这个方程中，\(\mathcal{L}_{\mathrm{LID}}\) 代表语言 ID 的损失函数。它强制初始编码器层输出一系列语言标签 (例如 <ase>, <ase>, <ase>) ，这些标签与目标文本的长度相匹配。

这一阶段的输出是一个中间表示 \(\mathbf{h}_{\mathrm{int}}\)，它现在携带了强烈的特定语言信息:

Equation describing intermediate representation

3. Sign2Text 模块 (“翻译器”) 中间特征随后被传递到编码器的更深层。这些层负责重新排序手语表示，以匹配口语的词序。

手语通常具有与口语不同的句子结构 (例如，宾-主-动 vs. 主-谓-宾) 。模型在这里使用 CTC (连接时序分类，Connectionist Temporal Classification) 目标函数，将视觉特征与口语文本词例对齐。

Equation describing Text CTC loss

4. 联合解码 (Joint Decoding) 最后，模型采用联合策略。它结合了 CTC 预测 (擅长对齐) 和注意力解码器 (Attention Decoder，擅长生成流畅句子) 。

总训练目标结合了三个损失函数:

LID 损失 (LID Loss) : 我们是否正确识别了手语？
文本 CTC 损失 (Text CTC Loss) : 我们是否正确地将手势对齐到了单词？
注意力损失 (Attention Loss) : 我们是否生成了连贯的句子？

Equation describing total loss function

通过平衡这三个目标 (由 \(\lambda\) 权重控制) ，模型学会了同时进行识别、对齐和翻译。

实验设置

为了验证这一方法，研究人员在三个主要数据集上测试了模型:

SP-10: 一个多语言数据集，涵盖 10 种不同的手语 (包括保加利亚语、汉语、德语、希腊语、英语等) 。
PHOENIX14T: 一个标准的德国手语基准。
CSL-Daily: 一个中国手语基准。

Table 6: Statistics of SP-10, PHOENIX14T, and CSLDaily datasets.

如表 6 所示，SP-10 最具多样性，而 CSL-Daily 在训练样本数量上最大。

关键结果

分析涵盖了三种不同的翻译场景。

1. 一对一翻译 (标准 SLT)

首先，这种新架构是否适用于标准的单语言翻译？是的。添加“文本 CTC”对齐显著提高了性能。

Table 3: Experimental results on PHOENIX14T and CSL-Daily dataset for gloss-free SLT (one-to-one SLT).

在表 3 中，所提出的方法 (Ours w TxtCTC) 优于基线，并在 BLEU 分数 (衡量翻译质量的标准指标) 上取得了与 SignLLM 等最先进方法相当的成绩。

为什么它的效果更好? 研究人员根据句子长度分析了性能。

Figure 3: Average BLEU score on different token length intervals on PHOENIX14T.

Figure 4: Average BLEU score on different token length intervals on CSL-Daily.

图 3 和图 4 揭示了一个有趣的趋势。红线 (使用 TxtCTC) 始终高于灰线 (未使用) 。这种提升在短句和中等长度句子中最为显著。CTC 机制帮助模型“锁定”特定的手势和单词，防止在上下文有限的较短序列中出现幻觉或迷失方向。

2. 多对一翻译 (“通用”翻译器)

此设置测试一个模型是否能将 10 种不同的手语翻译成英语。这通常是语言冲突破坏性能的地方。

研究人员比较了为每种语言训练单独的模型与一个“通用”模型的效果。

Table 8: Language conflicts in SP-1O,we present the individual and universal translation results on the baseline.

表 8 清晰地展示了这个问题。当从单独模型 (Individual) 转向通用基线 (Universal) 时，性能显著下降 (平均下降 1.50 BLEU) 。例如，中国手语 (csl \(\rightarrow\) en) 从 6.24 降至 2.72。这证实了如果没有特殊处理，语言之间会相互干扰。

然而，使用所提出的 Sign2(LID+Text) 方法，模型不仅挽回了这一损失，而且实际上比单独模型高出平均 0.58 BLEU。词例级语言识别成功地分离了语言模式，使模型能够利用共享数据而免受冲突影响。

3. 多对多翻译 (最难的任务)

最后，他们在多对多翻译上测试了模型 (例如，将 10 种手语中的任何一种翻译成各自的口语) 。

Table 5: One-to-one vs. many-to-many SLT.

表 5 显示，即使添加了更多语言对，模型仍保持稳定。虽然与一对一模型相比略有下降 (考虑到难度，这是预期的) ，但性能依然稳健。这表明模型正在有效地共享跨语言信息，这对于自身没有足够数据来训练好模型的低资源语言至关重要。

结论与未来影响

这项研究标志着迈向手语基础模型的重要一步。通过成功消除对标注的需求，并通过词例级语言识别解决语言冲突问题，作者为更具可扩展性和包容性的翻译系统打开了大门。

主要收获:

无标注是可行的: 我们不需要昂贵的标记也能获得良好的结果。
词例级 ID 至关重要: 在词例级别 (不仅仅是视频级别) 识别语言，有助于编码器组织相互冲突的语法。
联合解码有效: 结合 CTC (用于对齐) 和注意力机制 (用于生成) 提供了两全其美的效果，特别是对于较短的句子。

虽然数据稀缺仍然是一个挑战——SP-10 只有大约 8,300 个训练样本——但像这样的方法最大限度地利用了我们现有的数据。随着更大的多语言数据集的出现，像 Sign2(LID+Text) 这样的架构很可能成为打破全球沟通障碍的标准。

核心问题: 为什么手语翻译如此困难？#

1. 标注 (Gloss) 瓶颈#

2. 多语言挑战#

解决方案: Sign2(LID+Text)#

架构: 分层编码器-解码器#

实验设置#

关键结果#

1. 一对一翻译 (标准 SLT)#

2. 多对一翻译 (“通用”翻译器)#

3. 多对多翻译 (最难的任务)#

结论与未来影响#