引言
在现代人工智能的版图中,我们见证了机器理解人类语言方式的一场革命。像 GPT-4 这样的大型语言模型 (LLMs) 让我们能够流畅地与计算机对话,多模态模型则允许我们根据文字描述生成图像。然而,一个显著的数字鸿沟依然存在: 手语处理 (Sign Language Processing, SLP) 。
手语是全球约 7000 万听障人士的主要沟通方式。与听觉线性传播的有声语言不同,手语是视觉-手势语言。它们涉及复杂的手部动作 (手形、运动) 以及非手部标记 (面部表情、身体姿态) 。虽然针对口语文本的自然语言处理 (NLP) 因互联网上丰富的书面数据而蓬勃发展,但 SLP 却相对落后。数据稀缺、标注昂贵,且往往局限于特定领域 (如天气预报) 或特定语言 (如美国手语) 。
我们要如何跨越这一鸿沟?我们如何构建像 CLIP 理解图像那样多才多艺地理解手语的模型?
这也正是 Zifan Jiang 等人在研究论文 SignCLIP 中提出的核心问题。研究人员提出了一种方法,将口语文本和手语视频投影到一个共享的“潜在空间 (latent space) ”中——这是一个数学环境,在这个空间里,无论是以口语还是手语表达,只要含义相同,它们的位置就会靠得很近。

如图 1 所示,目标是创建一个模型,即使它从未见过特定的视频或签名者,也能将一个人打“房子 (house) ”手语的视频与文本“house”正确匹配。这篇博客文章将带你了解 SignCLIP 的旅程,从其基本概念和架构设计到其在下游任务中的表现。
背景: 表征的挑战
在深入架构之前,我们需要解决 SLP 中的一个根本障碍: 我们如何向计算机表征手语视频?
在文本处理中,我们将句子分解为标记 (单词或子词) 。但视频是密集、连续的像素流。一个 30 帧/秒的 10 秒视频包含 300 张图像。处理原始像素计算成本高且充满噪声。
研究人员探索了几种表征策略:
- 3D-CNN 视频编码器: 这些是深度学习网络 (如 S3D 或 I3D) ,在海量视频数据集 (如 YouTube 片段) 上进行训练以识别一般动作。它们将视频压缩为特征向量序列。
- 姿态估计 (Pose Estimation) : 这涉及使用计算机视觉工具 (如 MediaPipe Holistic) 来检测人体的特定“关键点”——关节、指尖和面部轮廓。模型处理的不是像素,而是签名者身体的数学坐标 (X, Y, Z) 。
- 离散标记 (Discrete Tokens) : 将手语转换为书面符号 (如 SignWriting 或 Glosses) ,但这需要中间翻译步骤。
SignCLIP 特别研究了使用通用视频特征与姿态估计之间的权衡。正如我们将看到的,计算机如何“看”签名者,对它理解手语的能力有着巨大的影响。
第一步: FingerCLIP —— 概念验证
在尝试解决成熟手语的问题之前,作者从一个“玩具任务”开始: 手指拼写 (Fingerspelling,又称指语) 。
手指拼写是手语的一个子系统,使用手部构型逐个字母地拼出口语单词 (如人名或技术术语) 。它作为一个完美的测试场,因为它词汇量有限 (字母表) ,但视觉变化很大。
研究人员创建了 FingerCLIP , 这是他们提议模型的微型版本,并在 RWTH 德语手指拼写数据库上进行了测试。

编码器之战
FingerCLIP 的主要实验是确定哪种视觉编码器能产生最佳结果。他们比较了:
- VideoCLIP (S3D): 在通用教学视频 (HowTo100M) 上预训练。
- I3D: 专门在英国手语 (BSL-1K) 上预训练。
- MediaPipe Holistic: 提取身体关键点的姿态估计框架。
结果不言自明。研究人员将该任务视为一个检索问题: 给定一个文本提示 (例如,“用德语手语拼写字母 A”) ,模型能从列表中找到正确的视频吗?

表 2 的关键要点:
- 通用视频特征失效 (E1): 零样本 VideoCLIP 模型的表现并不比随机猜测好。这证明通用视频模型并不天生理解手形的细微差别。
- 专用模型更好 (E2): 在英国手语上训练的 I3D 模型表现明显更好。
- 姿态估计获胜 (E3): 使用 MediaPipe Holistic 姿态特征 的模型实现了最高的准确率 (Recall@1 为 0.68,而 I3D 为 0.37) 。
为什么姿态估计会赢?它剥离了背景噪声、光照条件和衣着,迫使模型纯粹关注手和身体的生物力学。因此,研究人员决定使用姿态估计特征而不是原始视频嵌入来驱动 SignCLIP。
核心方法: SignCLIP 架构
吸取了 FingerCLIP 的经验教训,作者扩展到了 SignCLIP 。 目标保持不变: 使用对比学习来对齐文本和视频。
对比目标 (The Contrastive Objective)
对比学习是一种通过比较进行学习的训练技术。
- 正样本对: 一个人打“房子”手语的视频和文本“房子”。模型将这些表征拉得更近。
- 负样本对: 一个人打“房子”手语的视频和文本“汽车”。模型将这些表征推得更远。
通过在成千上万个例子上这样做,模型学会了一个“地图” (潜在空间) ,在那里相似的概念聚集在一起。
对齐的数学原理
该架构包含两个主流: 一个 视频编码器 和一个 文本编码器 。
1. 视频流 首先,处理视频以提取姿态关键点 \(c_v\)。这些被输入到视频编码器 \(f_{\theta_{ve}}\) 中。然后输出被投影到一个特定的维度大小 (\(d=768\)) ,以匹配文本嵌入。

这里,stopgrad 表示特征提取器的部分可能在初始步骤中被冻结 (不更新) 以保持稳定性。结果是一个代表视频帧的向量序列 \(x_v\)。
2. 文本流 同时,文本标签 (例如,“Hello, can I help you?”) 被分词并由预训练的 BERT 模型处理。这产生了文本向量 \(x_t\)。
3. 时间聚合 视频流和文本流都产生数据序列。为了比较它们,必须将它们总结为单个向量——一个是整个视频的摘要向量 (\(z_v\)),一个是整个文本字符串的摘要向量 (\(z_t\))。这是通过平均池化完成的。

一旦获得 \(z_v\) 和 \(z_t\),模型就会计算它们之间的相似度 (通常是点积) 。训练目标 (InfoNCE 损失) 最大化正确配对的相似度,并最小化错误配对的相似度。
数据: Spreadthesign
模型的好坏取决于它的数据。研究人员利用了 Spreadthesign , 这是一个巨大的多语言词典。
- 规模: 约 500,000 个视频-文本对。
- 多样性: 涵盖 41 种不同的手语。
- 内容: 约 18,000 个独特的概念 (单词/短语) 。

图 5 突出了语言的多样性。虽然有些语言的样本较少,但多语言性质是一个特性,而不是缺陷。因为手语通常共享“象似性 (iconicity) ” (即看起来像它们所代表的事物的手势,如“喝水”) ,所以在多种语言上训练可以帮助模型更好地泛化。
工程鲁棒性: 数据增强
为了防止模型简单地死记硬背训练数据,研究人员对姿态关键点应用了几种巧妙的数据增强:
- 空间增强: 随机旋转或缩放骨架。
- 时间增强: 随机加快或减慢视频的部分 (线性插值) 。这至关重要,因为不同的人打手语的速度不同。
- 翻转: 镜像姿态。这有助于模型处理左撇子签名者,即使训练数据主要是右撇子。
实验与结果
研究人员在各种任务上评估了 SignCLIP,重点是 孤立词手语识别 (ISLR) 。 这项任务涉及从视频片段中识别单个手势。
域内表现 (In-Domain Performance)
当在来自 Spreadthesign 的数据 (与训练源相同,但未见过的片段) 上进行测试时,该模型表现令人钦佩。

表 4 展示了他们实验的演变。
- E4 (基线): 起点。
- E6.1 (标准化): 通过标准化关键点 (减去均值,除以标准差) ,性能显著跃升 (Recall@1 从 0.33 增加到 0.40) 。
- E7.2 (时间增强): 增加速度变化提高了鲁棒性。
域外泛化 (Out-of-Domain Generalization)
预训练模型的真正考验是 零样本 (Zero-Shot) 表现——将其应用于全新的数据集而无需任何微调。研究人员在像 ASL Citizen 和 Sem-Lex 这样的外部数据集上测试了 SignCLIP。
如下面的表 3 所示,这些数据集在规模和范围上与训练数据有很大不同。

现实检验: 零样本表现普遍较低。这是机器学习中一种常见的现象,称为 域偏移 (domain shift) 。 人们在 Spreadthesign (词典风格) 中打手语的方式与 ASL Citizen (社区众包) 不同。此外,不同的数据集以不同的方式归一化其姿态数据。
然而,研究人员发现 少样本学习 (Few-Shot Learning) (仅向模型展示 10 个新手势的例子) 或 微调 (Fine-Tuning) (在新数据上稍微更新模型) 产生了令人难以置信的结果。
例如,在 PopSign 数据集上,微调后的 SignCLIP 模型达到了 94% Recall@10 , 在 ASL Citizen 上,它达到了 99% Recall@10 。 这表明,虽然 SignCLIP 开箱即用可能不是“灵丹妙药”,但它学到了一种高度可迁移的手语表征,可以作为特定任务的强大基础。
分析: 潜入潜在空间
对比模型最令人着迷的方面之一是它们创建的潜在空间的语义结构。在 NLP 中,我们经常引用著名的向量算术: “国王”减去“男人”加上“女人”等于“女王”。
这在手语中成立吗?
研究人员从 ASL Citizen 数据集中提取了 KING、QUEEN、MAN 和 WOMAN 的手语嵌入并将其可视化。

如图 2 所示,这些概念之间的空间关系在手语向量空间中得到了保留。从 Man 到 King 的向量大致平行于从 Woman 到 Queen 的向量。这证实了 SignCLIP 不仅仅是在死记硬背手形;它正在捕捉 分布语义 (distributional semantics) 。
象似性的力量
研究人员还问了模型: 哪些手语最通用? 通过分析不同语言嵌入的方差,他们发现具有高 象似性 (iconicity) (视觉上与物体相似) 的手势具有最一致的嵌入。“蝎子 (Scorpion) ”的手势 (通常是钩指动作) 排在首位。相反,像数字这样的抽象概念排名较低,因为它们在不同手语之间差异很大。
结论与启示
SignCLIP 代表了手语处理向前迈出的重要一步。通过重新利用 CLIP 架构并利用姿态估计的高效性,研究人员证明了创建一个连接手语和口语的多语言、多模态桥梁是可能的。
关键要点:
- 姿态 > 像素: 对于目前的 SLP 任务,骨骼姿态估计提供了比原始视频特征更清晰、更稳健的信号。
- 数据为王: 像 Spreadthesign 这样的大规模多语言数据集对于预训练至关重要,利用了手语共享的象似性。
- 基础模型: 虽然零样本表现仍是一个障碍,但 SignCLIP 充当了一个出色的“基础模型”。与从头开始训练模型相比,微调它所需的数据要少得多即可达到最先进的结果。
这项工作为未来的应用铺平了道路,例如实时手语搜索引擎、自动翻译工具以及可以对手语学习者的准确性进行评分的教育应用程序。随着数据集的增长和架构的完善,数字世界与听障社区之间的鸿沟将继续缩小。
](https://deep-paper.org/en/paper/2407.01264/images/cover.png)