引言: 我们手中隐藏的证据

在法通过科学领域,每一个像素都至关重要。想想国土安全部的受害者识别项目 (Victim Identification Programme) 。他们处理数以百万计的与虐待儿童案件相关的图像和视频,寻找任何能确认犯罪者身份的线索。通常情况下,嫌疑人的脸被遮挡,唯一可见的证据是一只拿着设备或物体的手。

这正是指关节生物识别技术大显身手的地方。与需要接触表面的指纹不同,指关节的纹路在普通照片中清晰可见。然而,自动化识别在过去一直碰壁。虽然近年来的人工智能已经能够熟练地匹配高质量、正对着拍摄的手部图像,但当手指弯曲、旋转或从远处拍摄时——也就是现实监控和法医取证中常见的情况——它的表现却一败涂地。

此外,在法庭上,仅仅说“AI 认为这是匹配的”是不够的。检察官需要可解释性 。 他们需要向陪审团展示为什么两张图像是匹配的,这需要指出具体的物理特征,如折痕和纹路,就像指纹分析师指出指纹的斗和脊一样。

在这篇深度文章中,我们将探讨一篇开创性的论文: 《迈向可解释且前所未有的高精度挑战性指折痕模式匹配》 (Towards Explainable and Unprecedented Accuracy in Matching Challenging Finger Crease Patterns) 。 该论文针对上述问题提出了新颖的解决方案。研究人员介绍了一种方法,它不仅仅将手指视为纹理,而是理解其折痕的几何结构,从而在实现前所未有的准确性的同时,提供了司法所需的可解释性。

核心问题: 纹理与结构

要理解这里的创新,我们首先必须明白为什么现有的方法会失败。

大多数最先进的生物识别系统 (如使用 ResNet 或 DenseNet 的系统) 将指关节图像视为纹理 。 它们观察皮肤表面并学习统计模式。当手指平放时,这种方法效果极佳。但是近端指间关节 (PIP) ——即中间的指关节——非常灵活。当你弯曲手指时,皮肤会拉伸,光线会变化,纹理也会变形。

对于标准的卷积神经网络 (CNN) 来说,弯曲的手指与伸直的手指相比,看起来完全是两个不同的物体。“跨姿态” (cross-pose) 匹配 (即将伸直的手指与弯曲的手指进行匹配) 的失败率一直居高不下。

研究人员认为,虽然皮肤纹理会随动作而变化,但指关节折痕 (皮肤上的深纹) 及其交点 (关键点) 之间的相对位置保持相对稳定。通过将焦点从全局纹理转移到结构关键点 , 我们可以构建一个对变形具有鲁棒性的系统。

解决方案: 对应关系图神经网络 (CGN)

该框架是一个多阶段的流水线,旨在模仿法医检验员的工作方式: 识别地标,寻找对应关系,并比较结构关系。

在详细拆解之前,让我们先可视化整个框架:

CGN 框架可视化图,展示了四个步骤: 关键点检测、对应关系估计、图形成和图相似度评分。

如图 Figure 2 所示,该过程分为四个不同的步骤。

第一步: 指关节折痕点检测

第一个挑战是检测手指上的“兴趣点”或关键点。研究人员利用了一个深度神经网络,其灵感来自 SuperPoint 架构,并专门针对指关节折痕进行了调整。这个被称为 KnuckleCreasePoint 的模块扫描图像,并为每个检测到的点输出三样东西:

  1. 位置 (\(K\)): (x, y) 坐标。
  2. 描述符 (\(F\)): 描述该点周围视觉区域的深度特征向量。
  3. 分数 (\(S\)): 模型对这是一个有效关键点的“自信”程度。

与传统方法 (如 SIFT) 可能依赖简单的对比度变化不同,这种深度学习方法足够鲁棒,即使在光线不佳或皮肤拉伸的情况下也能找到一致的点。

第二步: 寻找对应关系

一旦我们获得了“探针” (Probe,即未知手指) 图像和“库” (Gallery,即存储记录) 图像的一组点,我们需要弄清楚哪个点与哪个点匹配。

系统使用以下公式为两张图像构建描述符矩阵:

公式 1: 利用 MLP 对特征、位置和分数进行处理以构建描述符矩阵。

在这里,位置 (\(K\)) 和分数 (\(S\)) 通过一个多层感知机 (MLP) 处理,并添加到视觉特征 (\(F\)) 中。这创建了一个丰富的表示 (\(D\)),既包含“该点看起来像什么”,也包含“它在哪里”。

为了匹配这些点,模型使用了带有自注意力机制和交叉注意力机制的图神经网络 (GNN) (称为 KnucklePointPair )。它本质上是在问: 图像 A 中的哪个点对应图像 B 中的哪个点?

它生成一个代价矩阵来评估潜在的匹配:

公式 2: 计算探针和库之间点匹配的代价矩阵。

从这个矩阵中,系统过滤掉噪音,只选择 Top-K 个最强的匹配。如果探针图像中的一个点与库图像中的一个点具有非常强的相似性,它们就被认为是一对“匹配对”。

公式 4 和 5: 定义过滤后的高质量匹配关键点集合。

第三步: 构建图

这是方法从“图像匹配”转向“结构匹配”的地方。一组匹配点很好,但这组点的图 (Graph) 更好。

研究人员使用匹配关键点的坐标为两张图像构建图。他们使用 k-近邻 (k-NN) 方法。对于每个关键点,都会画出连接其最近邻居的边。

为什么要这样做?因为即使手指弯曲或旋转,邻近点之间的相对关系在结构上仍然保持相似。

关键点、对应关系以及真实与冒充对的生成图结构的可视化。

请看上面的 Figure 3

  • 第一行显示的是“真实” (Genuine) 对 (同一人) 。注意最右边 (e) 的图结构看起来与 (f) 非常相似,即使图像可能略有不同。
  • 第二行显示的是“冒充者” (Imposter) 对。点是分散的,生成的图看起来完全不同。

这个可视化图是这篇论文所承诺的可解释性的核心。法医检验员可以向陪审团展示这些图表,以说明为什么系统认为两张图像属于同一个人。

第四步: 图相似度与“追踪器”

现在我们有了两个图,我们要如何在数学上确定它们是否相同?这是图神经网络 (GNN) 的领域。

洞察: 节点维度 vs. 特征维度

这篇论文的一个关键理论贡献是关于 GNN 如何处理数据的观察。通常,GNN 沿着特征维度聚合信息。然而,作者发现对于指关节模式,匹配点之间的相关性在节点维度上要强得多。

特征相关性图显示,与特征维度相比,沿着节点维度的相似性更高。

Figure 4 可视化所示,图 (b) 中的对角线和图 (d) 中的密集簇表明,当我们沿着节点维度 (查看整个数据集中的特定关键点) 进行处理时,匹配与不匹配之间的区别要清晰得多。

因此,他们设计了一种特定的“沿节点维度的卷积”:

公式 12: 沿节点维度卷积的聚合函数。

追踪器模块 (The Tracker Module)

为了计算最终的相似度分数,模型使用了双路径方法:

  1. 自图 (Self-Graph): 根据同一图像内的邻居更新节点的特征。
  2. 跨节点 (Cross-Node): 比较两张图像之间对应节点的特征。

相似度不仅仅被检查一次。它在神经网络的多个层 (\(l\)) 中被“追踪”。系统计算每一层对应点之间的余弦相似度。

公式 16: 计算第 l 层节点特征之间的余弦相似度。

这种相似度的演变至关重要。在一个真实的匹配中,随着网络处理图结构,相似度理应变强或保持高位。在一个错误的匹配中,结构将会分崩离析。

追踪器模块示意图,记录跨层相似度的变化。

Figure 5 所示, 追踪器将所有层的这些相似度分数连接成最终向量。该向量被输入到最终的 MLP 中,输出单一分数: 匹配不匹配

公式 20: 使用 Sigmoid 激活函数计算最终相似度分数。

理论唯一性: 指关节能被复制吗?

除了 AI 架构之外,这篇论文还尝试了计算机视觉论文中罕见的事情: 唯一性的理论证明。

在指纹分析中,有既定的统计模型计算两个不同的人拥有相同指纹的概率 (错误随机对应或 FRC) 。这个概率非常低,以至于指纹被认为是唯一的。

作者将类似的多元高斯模型应用于他们的指关节关键点。

公式 21: 用于估计位置和特征之间相关性的多元分布模型。

通过对关键点的位置 (\(K\)) 和特征 (\(F\)) 进行建模,他们使用泊松分布估计了在两个不同人之间找到随机匹配的概率:

公式 22: 观察模板之间 w 次匹配的泊松分布模型。

结果: 计算出的错误随机对应 (FRC) 极低 (见下表 5) 。这提供了一个性能的理论“上限”,表明指关节模式确实具有足够的唯一性,可以用作可采纳的法庭证据,而不仅仅是“AI 魔法”。

表 5: 统计唯一性分析显示极低的 FRC 值。

实验与结果

为了证明他们的方法有效,作者不能仅仅使用现有的数据集——那些数据集要么太小,要么太简单 (大多是伸直的手指) 。所以,他们建立了自己的数据集。

新数据集

他们介绍了多姿态指关节视频数据集 (Multi-pose Finger Knuckle Video Dataset) :

  • 351 名受试者
  • 超过 800,000 张图像
  • 4K 分辨率
  • 在环境光下通过完全非接触式移动成像采集。

这是目前同类中最大且最具挑战性的数据集。

表 1: 新数据集与现有指关节数据库的比较。

性能表现

研究人员将他们的方法 (Ours) 与 ResNet-101、DenseNet 和 Vision Transformers (ViT) 等标准重量级模型,以及专用生物识别网络 (FKNet, RFNet) 进行了对比测试。

结果非常鲜明。

ROC 曲线比较了所提出的方法与各种数据集上的最先进模型。

观察 Figure 6 :

  • 图 (a) 显示了在这个海量新数据集上的性能。所提出的方法 (红线) 实现了 2.00% 的等错误率 (EER) ,而排名第二的方法为 17.71%。
  • 图 (c) 最具说明力。这是 “Finger Knuckle v3.0” 数据集,被公认为目前最具挑战性的数据集。ResNet 等标准方法在底部几乎是一条直线 (接近 0% 准确率) 。所提出的方法保持了稳健的曲线。

下表量化了其在挑战性数据集上的优势。请注意,在错误接受率 (FAR) 为 \(10^{-4}\) 时,所提出的方法达到了 66.35% 的准确率,而 ResNet 和其他方法的准确率为 0.00%

表 4: 在具有挑战性的 Finger Knuckle v3.0 数据集上的性能总结。

消融实验

是图神经网络起了作用?还是节点维度卷积?作者进行了“消融实验” (移除模型的部分组件以查看哪里会出问题) 来确认他们的设计选择。

ROC 图比较了所提出的方法与其他图相似度模型。

Figure 8 显示,他们特定的图架构 (CGN) 优于 SimGNN 或 MGNN 等通用图匹配网络。这证实了“追踪器”和“节点维度卷积”不仅仅是花哨的附加组件,而是针对指关节特定几何结构必不可少的。

结论: 法医鉴定的一大步

这篇论文代表了生物识别领域的重大飞跃。通过将焦点从纹理 (在变形下不可靠) 转移到可解释的结构关键点 , 作者解决了非接触式手指匹配的一个主要瓶颈。

主要收获:

  1. 鲁棒性: 即使手指弯曲或旋转,该方法也能工作,而传统 CNN 在这种情况下会失效。
  2. 可解释性: 关键点图的使用提供了人类可以解释的视觉证据,这是执法部门的关键要求。
  3. 唯一性: 统计分析为 2D 指关节模式的唯一性提供了首个理论支持。
  4. 开放科学: 最大的多姿态视频数据集的发布可能会推动该领域的下一代研究。

随着生物识别技术从接触式传感器转向非接触式、卫生友好型和监控就绪型系统,像本文详述的这种方法将成为新标准。无论是挥手解锁智能手机,还是从模糊的视频帧中识别嫌疑人,我们手上的“折痕”都讲述着每个人独有的故事——而现在,计算机终于可以读懂它们了。