引言
想象一下,你正站在繁忙的机场安检队伍中。当你的包消失在X射线通道中时,一名安检员正全神贯注地盯着监视器,试图解读一团复杂的、伪彩色的重叠形状。他们的工作是从电缆、笔记本电脑和衣服中识别出隐藏的威胁——枪支、刀具、爆炸物。这项任务需要极大的专注力,而人类的疲劳或分心可能会导致严重的错误。
虽然人工智能已经介入并协助进行计算机辅助筛查 (CAS),但目前的系统有一个主要局限性: 它们在“闭集范式”下运行。这意味着它们只能检测被明确训练过的特定物品。如果威胁是一种新颖的变体——比如由聚合物制成的3D打印枪支,或是隐藏在收音机内的拆解爆炸物——传统模型往往会失效。此外,像 GPT-4 这样的通用大型多模态模型 (LMM) 虽然擅长描述自然图像,但在面对X射线图像的半透明和重叠特性时,表现却大打折扣。
在这篇深度文章中,我们将探讨一篇具有开创性的论文,该论文提出了一个解决方案: STING-BEE 。 研究人员引入了一种新的领域感知视觉AI助手,它不仅能检测物体,还能理解复杂的场景,回答问题,甚至在威胁被严重遮挡时进行定位。为了实现这一目标,他们还构建了 STCray , 这是第一个旨在模拟现实世界走私策略的大规模多模态X射线数据集。
当前X射线AI存在的问题
要理解为什么需要 STING-BEE,我们必须首先看看为什么目前的“最先进”通用AI模型在这个领域会失败。像 GPT-4 或 Gemini 这样的模型是在数十亿张自然图像 (照片) 上训练出来的。然而,X射线图像有着根本的不同。它们通过颜色 (橙色代表有机物,蓝色代表金属) 和透明度来代表密度和材料类型。
当一个标准的视觉-语言模型 (VLM) 观察一张杂乱的X射线扫描图时,它经常会“产生幻觉”——自信地描述不存在的物体,或者将行李误认为是医疗扫描图。
图 1: GPT-4、Gemini-1.5 Pro、LlaVa-NeXT 与本文提出的 STING 协议生成的说明文字比较。注意通用模型 (左侧几栏) 如何未能识别出像3D打印枪这样的威胁,或将行李误认为是医学影像,而本文提出的方法 (最右栏) 则准确地描述了场景。
如图 1 所示,虽然像 LLaVA-NeXT 这样的模型可能会猜到电子产品的存在,但它们漏掉了像3D打印枪或刀片这样的关键威胁。这一差距凸显了对专为安检筛查的细微差别而量身定制的数据集和模型的需求。
STCray: 构建多模态基础
实现 STING-BEE 的核心贡献是创建了 STCray , 这是第一个多模态X射线行李安检数据集。以前的数据集可能只提供一个标签 (例如,“枪支: 存在”) ,而 STCray 提供了46,642对图像-说明文字对。
这个数据集并不是通过简单扫描随机包裹建立的。研究人员花费了超过3000个小时,精心策划行李内容,以反映现实世界的威胁和策略性隐藏 。
图 2: STCray 数据集组件概览及其与现有公共数据集的比较。STCray 因支持多模态数据、策略性隐藏以及像3D打印枪支这样的新型威胁而脱颖而出。
如图 2 所示,STCray 的独特之处在于它支持新兴的新型威胁和零样本任务能力。它涵盖了21个威胁类别,从刀具和钳子等标准物品,到简易爆炸装置 (IEDs) 和3D打印枪支等复杂威胁,后者因密度低而极难检测。
3D打印威胁的挑战
STCray 中最重要的包含物之一是3D打印枪支。传统的扫描仪主要依靠金属的高密度来标记枪支。3D打印枪支通常由塑料或聚合物制成,呈现为淡淡的橙色轮廓,很容易与衣服或食物等良性有机物品混在一起。
图 3: 检测3D打印枪支的挑战。左: 一把 ‘Maverick’ 3D打印枪的照片。中: 枪支藏在包里的样子。右: X射线扫描图,枪支呈现为淡淡的橙色轮廓,使其极难从背景杂乱物中分辨出来。
图 3 完美地展示了这一困难。在X射线扫描 (右图) 中,枪支几乎不可见,像幽灵一样隐没在背景中。训练一个模型来发现这些威胁需要高质量的专门数据。
STING 协议: 数据生成的秘方
你不能简单地拍一张X射线的照片,然后让人类完美地“描述它”,因为视觉上的杂乱程度太高了。为了解决这个问题,作者开发了 策略性威胁隐藏 (STING) 协议。这是一种根据特定参数创建数据的系统化方法:
- 杂乱程度 (Clutter Level): 范围从有限 (物品很少) 到极端 (密集的包裹) 。
- 隐藏 (Concealment): 威胁是如何隐藏的?是在笔记本电脑后面吗?还是被线缆缠绕?
- 方向 (Orientation): 物体是平放、倾斜还是旋转的?
图 4: STING 协议工作流程。它从选择行李和威胁类型开始,然后应用特定的杂乱和隐藏策略,以生成描述场景的精确说明文字。
通过在扫描过程中控制这些变量,研究人员可以生成严格准确的基准真实说明文字。例如,与其只是说“一个有枪的包”,该协议生成的是: “一张X射线扫描图,包含一把钳子,呈倾斜角度放置在手提箱角落,钳子被CD接收器和线缆完全覆盖……”
隐藏的层级
该协议对物品的隐藏方式非常严谨。现实世界的走私不会涉及把武器放在一堆衣服上面。它涉及“策略性隐藏”。
图 5: STCray 数据集中使用的10种隐藏层级的图示。复杂程度从简单的低密度覆盖增加到多重叠加的高密度材料。
图 5 可视化了这一进程。在较低层级,威胁可能只是被一本书 (低密度) 覆盖。在最高层级,威胁与金属网格、重型机械部件或故意分散注意力的线缆团叠加在一起。这迫使AI学习“看穿”遮挡物,而不仅仅是识别清晰的轮廓。
图 6: STING 协议的3D表示,展示了杂乱程度、隐藏子层级以及物体位置/方向之间的相互作用。
STING-BEE: 架构
有了数据集,作者开发了 STING-BEE (用于行李增强评估的战略威胁识别和定位) 。
STING-BEE 建立在 LLaVA 架构之上,该架构结合了视觉编码器 (用于“看”图像) 和大型语言模型 (用于“理解”并生成文本) 。然而,标准的 LLaVA 是为聊天设计的。STING-BEE 针对特定的安全任务进行了微调,使用了特殊的标记 (tokens) 。
图 7: STING-BEE 训练和评估流程。它从数据收集 (STCray) 转移到多模态指令微调,从而产生一个能够进行视觉问答 (VQA)、定位和视觉定位的模型。
任务特定标记
为了使模型成为一个多功能助手,作者引入了特定的指令标记:
[refer]: 告诉模型输出特定威胁的边界框坐标 (例如,“枪在哪里?”) 。[grounding]: 告诉模型描述整个图像,并为提到的所有威胁提供边界框。
合成数据增强
为了进一步增强模型的鲁棒性,研究人员使用CT扫描仪捕捉威胁的3D体积。然后,他们通过数学方法将这些3D体积从数千个不同的角度投影成2D X射线图像。
图 8: 从威胁的3D CT扫描生成的2D X射线投影。这种增强技术使模型能够学习威胁从不同寻常的角度看起来是什么样子,这些角度在物理训练数据中可能很少见。
这种增强 (图 8) 确保即使枪支以训练集中从未见过的角度旋转,STING-BEE 也有很高的概率识别出其结构特征。
实验与结果
研究人员对 STING-BEE 进行了一系列测试,将其与通用 VLM (如 LLaVA 和 MiniGPT) 以及专门的检测模型进行了比较。
1. 视觉问答 (VQA)
模型被测试是否有能力回答关于X射线扫描的复杂问题,例如“电池是否被金属物体遮挡?”或“有多少个威胁存在?”。
图 9: 视觉问答 (VQA) 性能比较。STING-BEE 在整体准确率上显著优于像 LLaVA 1.5 和 MiniGPT 这样的通用模型。
如图 9 所示,STING-BEE 达到了 52.81% 的总体准确率,超过了 LLaVA 1.5 (41.94%) 和 MiniGPT (36.62%)。它在“复杂推理”和“实例识别”方面表现出特别的优势,证明它理解X射线的上下文,而不仅仅是像素模式。
2. 跨领域泛化
医学和安全成像中的一个主要障碍是“领域偏移”。在一个制造商的扫描仪上训练的模型通常会在另一个制造商的图像上失效,因为颜色校准或分辨率存在差异。
STING-BEE 在 STCray 上进行训练,但在完全不同的公共数据集 (SIXray 和 PIDray) 上进行了测试。
图 10: 跨领域场景理解性能。STING-BEE 在适应未见数据集方面表现出优于最先进 VLM 的能力。
图 10 中的结果很有说服力。STING-BEE 的 F1 分数达到了 34.69 , 几乎是 MiniGPT (18.45) 的两倍。这表明 STCray 数据集和 STING 协议成功地教会了模型威胁的通用特征,而不是过度拟合特定扫描仪的怪癖。
3. 视觉定位 (Visual Grounding) 和指称定位
模型能指出威胁在哪里吗?对于需要知道往哪里看的人类操作员来说,这至关重要。
图 11: STING-BEE 在不同数据集上的实际操作定性示例。它展示了在场景理解、指称定位和视觉定位方面的成功。
图 11 可视化了模型的多功能性。无论是被要求“找到枪” (指称) 还是“描述图像并关注威胁” (视觉定位) ,STING-BEE 都能成功地在违禁品周围画出边界框,即使是在它未曾训练过的数据集 (Compass XP, PIDray) 的扫描图中也是如此。
图 12: 视觉定位定性示例。红框表示模型预测,与蓝色的基准真实框非常吻合。注意对3D打印枪支的成功检测 (示例 c) 。
图 12 中的定性结果令人印象深刻。该模型正确识别了3D打印枪支 (c) 和隐藏在大量线缆中的威胁 (e)。
局限性
没有模型是完美的。作者坦率地讨论了 STING-BEE 表现挣扎的情况。
图 13: 失败案例。STING-BEE 有时在严重遮挡的情况下表现挣扎,仅识别出物体的一部分 (如 ’d’ 中刀尖) ,而不是整个物品。
当物体极度模糊时 (图 13) ,模型可能会检测到威胁的存在,但无法完美定位,只能在刀尖可见部分周围画框,而不是整个武器。此外,在包含多个不同威胁的包裹中,它偶尔会将它们归为一组或混淆外观相似的工具 (如扳手与钳子) 。然而,在安全背景下,标记威胁的存在是首要任务,即使边界框不是像素级完美的。
结论
STING-BEE 论文代表了航空安全技术的一次重大飞跃。通过摆脱简单的物体检测并拥抱视觉-语言建模,研究人员创建了一个能够推理杂乱、隐藏和上下文的系统。
这项工作的两大支柱——拥有严格的 STING 协议以创建逼真、说明丰富的训练数据的 STCray 数据集 , 以及 STING-BEE 模型 (一种领域微调的 VLM) ——为计算机辅助筛查的未来提供了路线图。随着客运量的增长和威胁的演变,像 STING-BEE 这样的AI助手可能会成为安检人员的标准合作伙伴,提供第二双永远不会疲倦、分心或被隐藏在一团线缆中的3D打印枪支所迷惑的眼睛。
](https://deep-paper.org/en/paper/2504.02823/images/cover.png)