人工智能存在代表性不足的问题。到目前为止,我们许多人对人脸识别系统在深肤色人群上失效,或语言模型延续性别刻板印象的头条新闻并不陌生。然而,随着我们将人工智能的边界推向新的模态,例如手语识别,我们遇到了一个新的偏见前沿——它复杂、多维,且往往肉眼难以察觉。

对于聋人和听障 (DHH) 群体而言,数字词典和自动识别系统等 AI 驱动的工具不仅仅是新奇事物,它们是至关重要的无障碍工具。但是,如果这些工具对男性的效果明显好于女性,会发生什么?如果光线不完美,或者用户的肤色较深,系统就会失效,又该怎么办?

在最近的一项研究中,来自东北大学 (Northeastern University) 和微软研究院 (Microsoft Research) 的研究人员对 ASL Citizen 数据集——一个海量的众包美国手语 (ASL) 视频集合——进行了全面的审计。他们的目标不仅仅是找到系统中的裂痕,而是要修复它们。

在这篇深度文章中,我们将探讨他们如何剖析手语识别 (ISLR) 的“黑盒”,识别隐藏的偏见来源,并设计出一种巧妙的数学修正方法,使这些系统更加公平。

背景: 为什么手语 AI 很难

在研究偏见之前,我们需要了解数据。针对口语 (如英语) 的自然语言处理 (NLP) 有数十亿的文本文档可供学习。然而,手语属于“资源匮乏”型语言。我们没有整个互联网的文本资源;我们只有视频。

ASL Citizen 数据集是一个巨大的飞跃。这是第一个用于孤立手语识别的众包数据集,包含 2,731 个独特手语词汇的超过 83,000 个视频。因为它是众包的,所以它捕捉到了真实世界的情况: 不同的网络摄像头、不同的起居室、不同的光线和不同的人。

虽然这种多样性对鲁棒性有好处,但它也引入了噪声。而在 AI 的世界里,噪声往往与偏见相关。研究人员着手回答两个主要问题:

  1. 哪些因素 (人口统计学、语言学或视频质量) 实际上损害了模型性能?
  2. 我们能否在不牺牲整体准确率的情况下修复它 ?

第一部分: 审计——数据里都有谁?

要理解模型性能,我们首先必须看看数据背后的人。研究人员发布了 ASL Citizen 数据集参与者的详细人口统计信息,以便进行精细的分析。

人口统计与分布

该数据集包含各种各样的参与者,但并不完全平衡。如下图所示,参与者偏向于年轻成年人 (20 多岁和 30 多岁) 以及 ASL 水平较高的人 (6 级和 7 级) 。

ASL Citizen 数据集参与者的 ASL 水平分布 (左) 和地区分布 (右) 。

ASL Citizen 数据集参与者的年龄范围。参与者主要集中在 20 多岁和 30 多岁,60 多岁的参与者较少。

这种偏差很关键。如果一个模型主要是在 20 多岁的人群上训练出来的,那么对于运动控制能力或打手语速度可能不同的 70 岁手语者来说,它的表现会如何呢?

肤色差异

在任何计算机视觉任务中,最关键的检查之一就是肤色分析。研究人员在视频帧上使用了肤色分类器。数据分布显示浅肤色的数量较多。

当他们测试两种不同类型的 AI 模型——I3D (观察原始视频像素) 和 ST-GCN (观察“骨架”姿态关键点) 时,他们发现了一个令人不安的趋势。

图 2: I3D (上) 和 ST-GCN (下) 按检测到的肤色划分的 Top-1 准确率得分。我们发现,尽管在数据集中代表性较低,但检测到较浅肤色的视频在两个模型上的平均准确率得分都较高。ST-GCN 模型表现出的这种行为尤为明显。

如图表所示,尽管存在一些波动,但浅肤色的准确率总体呈上升趋势。依赖于检测手部和身体关节的 ST-GCN 模型 (下图) ,在深肤色受试者上的表现明显更差。这表明用于提取姿态的底层计算机视觉工具可能难以处理深肤色受试者的对比度问题,从而导致手语识别模型本身的失效。

第二部分: 无形的偏见——视频质量与语言学

偏见并不总是关于你是谁;有时它关于你拥有的技术设备。研究人员超越了人口统计学,开始研究“视频级”特征。这是分析变得迷人的地方。

图像质量 (BRISQUE) 的影响

并不是每个人都有 4K 网络摄像头。研究人员使用了一种称为 BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator,盲/无参考图像空间质量评估器) 的指标来评估视频帧的质量。较低的 BRISQUE 分数意味着高质量;较高的分数意味着图像失真或质量低。

他们发现了一个强相关性: 更好的摄像头带来更好的 AI 识别效果。

图 3: BRISQUE 图像质量得分与准确率之间的关联。较高的 BRISQUE 分数表示较低的图像质量,反之亦然。因此,较高的图像质量似乎与较好的模型性能相关。

这张图表揭示了一种社会经济偏见。如果使用低端硬件 (产生高 BRISQUE 分数) 的用户获得较差的识别结果,那么技术对于低收入群体的可及性就会降低。

打手语的“速度”

另一个隐藏因素是手语者的动作方式。研究人员使用 弗雷歇距离 (Frechet distance) 来测量视频中的动作相对于参考“种子手语者” (一位专业模特) 的“速度”或偏差。

可以用“遛狗”的类比来理解弗雷歇距离: 想象一个人牵着狗走路。弗雷歇距离是两人走完各自路径所需的最短狗绳长度。在这种情况下,它衡量的是参与者的手部动作与该手语词汇的“标准”或平均动作的偏离程度。

表 2: 打手语“速度” (即每 0.25 秒姿态之间的平均弗雷歇距离) 偏离该手语平均值的标准差数 (分桶统计) ,分为右手和左手。我们发现,无论是右手还是左手,当手语视频中的动作平均“速度”偏离该特定手语的平均值时,性能都会下降。

上表 2 中的数据显示,“离群值”——即打手语速度比平均水平快得多或慢得多的人 (高标准差) ——其准确率显著降低。

性别差距与视频长度

也许最令人惊讶的发现是明显的性别差距。基线模型在 男性参与者身上的表现比女性参与者高出 10 个百分点以上。

为什么?这不仅仅是生物学原因。研究人员分析了视频长度,发现了一种行为差异。

图 9: 男性和女性参与者 (上) 以及 20 多岁、30 多岁、40 多岁、50 多岁、60 多岁和 70 多岁参与者 (下) 在手语级别上偏离平均值的平均标准差数。相对于同一手语的其他视频,女性倾向于录制较短的视频,而年长的参与者倾向于录制较长的视频。

平均而言,女性参与者录制的视频明显比男性短 (负偏差) 。年长的参与者 (60 多岁和 70 多岁) 录制的视频较长,经常在打手语前后停顿。由于模型难以处理“离群”的视频长度 (非常短或非常长) ,这些行为差异导致了性能差距。

第三部分: 通过加权重采样修复偏见

研究人员确定了罪魁祸首:

  1. 视频质量: 低质量视频会扼杀性能。
  2. 视频长度: 离群值 (太短/太长) 会混淆模型。
  3. 人口统计失衡: 训练数据不具代表性。

标准方法 (如仅在一种性别上进行训练) 未能产生良好的结果。相反,团队转向了 加权重采样 (Weighted Resampling)

假设

如果模型在“困难”视频 (低质量或离群长度) 上表现挣扎,我们不应该隐藏它们。我们应该在训练期间强迫模型更频繁地看到它们。通过增加模型看到低质量视频的概率,迫使模型学习鲁棒的特征,即使图像有颗粒感也能工作。

策略 A: 按视频长度重采样

团队尝试根据视频长度的“正常”程度对视频进行重采样。他们使用了视频长度的 Z-score (标准分数) :

Z-score 公式

他们计算了一个重采样概率,优先考虑接近平均值的视频,以稳定训练:

基于视频长度的重采样公式

这有所帮助,但并非灵丹妙药。

策略 B: 按质量重采样 (胜出者)

最有效的策略涉及 BRISQUE 分数。他们反其道而行之: 配置训练循环以 更高的比率重采样低质量视频。

视频被选中进入训练批次的概率是使用其质量的倒数计算的,确保高 BRISQUE (低质量) 视频更频繁地出现:

重采样低质量视频的公式

这里,\(B_i\) 是 BRISQUE 分数。随着分数上升 (质量变差) ,重采样的概率增加。

结果: 缩小差距

这种“压力训练”的结果非常显著。通过强迫模型处理低质量的视频输入,研究人员不仅提高了模型处理糟糕网络摄像头的能——他们还意外地修复了性别差距。

图 1: ASL Citizen 数据集发布的基线基于姿态的 ISLR 模型的准确率和性别均等性 (通过将女性参与者的准确率除以男性参与者的准确率计算得出) (左) ,以及我们要现最好的基于特征的去偏技术 (右) ,即我们以更高的比率重采样视频质量分数较低的视频。我们的方法不仅提高了整体模型的准确率,也提高了性别均等性。

如上图 1 所示:

  • 左图 (基线) : 准确率较低,且“性别均等性” (女性与男性表现的比率) 约为 0.7。
  • 右图 (加权重采样) : 准确率上升,且性别均等性显著提高。

事实证明,“视频质量”是一个掩盖其他偏见的潜在变量。通过使模型对视觉噪声具有鲁棒性,研究人员创建了一个在不同人口统计群体中更加通用和公平的系统。

语言学因素

研究还证实,语言复杂性也有影响。音系复杂或拥有“拥挤邻域” (看起来与许多其他手语相似) 的手语更难识别。

图 4: ST-GCN 模型的 Top-1 准确率与手语频率 (左) 、手语象似性 (左中) 、音系复杂性 (右中) 和邻域密度 (右) 之间的关系。我们发现,在计算 Spearman 等级相关性时,手语频率、音系复杂性和邻域密度都与模型准确率呈显著负相关 \\(( p < 0 . 0 5 )\\)。然而,尽管象似性和准确率之间存在轻微的正相关,但 \\(p\\) 值并不显著。

上面的图表显示,随着复杂性的增加 (在 x 轴上向右移动) ,准确率下降。然而,重采样技术也有助于缓解这些固有的语言学困难。

结论与主要启示

这项研究为 AI 开发者强调了一个至关重要的教训: 偏见并不总是关乎标签。

在 ASL Citizen 的案例中,偏见不仅仅是“男性与女性”。它与视频时长、摄像头质量和打手语的速度纠缠在一起。男性倾向于拥有更长的视频;低收入用户可能拥有颗粒感更强的网络摄像头。这些技术特征充当了人口统计学偏见的代理变量。

通过系统地审计数据集并应用 基于特征的加权重采样 策略——专门针对低质量视频——研究人员实现了“双赢”:

  1. 更高的整体准确率: 模型在识别手语方面普遍变得更好了。
  2. 更高的公平性: 男性与女性之间的表现差距缩小了。

这项工作为未来的手语研究提供了蓝图。它证明了我们要修复偏见并不总是需要收集数百万个新数据点;有时,我们只需要改变模型看待现有数据的方式。通过发布 ASL Citizen 的人口统计数据,作者们为社区继续构建对每个人都更加公平、无障碍的技术打开了大门。