想象一下你是工厂流水线上的质检员。每小时有成千上万个组件从你眼前经过。你的工作不仅仅是发现一个损坏的零件,你还得解释为什么它坏了。是划痕吗?是凹痕吗?是焊接处不整齐吗?

现在,想象一下试图教 AI 做同样的事情。虽然像 GPT-4o 这样的现代多模态大型语言模型 (MLLM) 在描述日落或阅读菜单方面表现令人难以置信,但当被要求发现螺丝上的微小裂缝或医疗扫描上的轻微变色时,它们却显得力不从心。它们缺乏进行 异常检测 (Anomaly Detection, AD) 所需的“专家”眼光。

在这篇文章中,我们将深入探讨一篇题为 “Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models” 的研究论文。我们将探索约翰霍普金斯大学和本田研究所的研究人员如何开发出 Anomaly-OneVision (Anomaly-OV) , 这是一个旨在弥合通用 AI 推理与异常检测所需精度之间差距的模型。

问题所在: 通才 vs. 专才

传统的异常检测 (AD) 领域通常依赖于“无监督”学习。你向模型展示数千张“正常”图像 (例如完美的螺丝) ,它就能学会标记任何看起来不同的东西。

然而,这种方法有一个重大缺陷: 数据稀缺。 在现实世界中,你并不总是有成千上万个正常样本,也不可能有每种潜在缺陷的例子。这催生了 零样本异常检测 (Zero-Shot Anomaly Detection, ZSAD) ——即能够检测模型从未见过的物体中的缺陷,且无需针对该物体进行任何特定训练。

最近,多模态大型语言模型 (MLLM) 承诺将为计算机视觉带来革命。然而,当研究人员在工业缺陷上测试 GPT-4o 等模型时,他们发现了一个断层。

Figure 2. Industrial image anomaly reasoning results from GPT-4o and Anomaly-OV.

图 2 所示,通用模型经常会产生幻觉。在上面的蜡烛示例中,GPT-4o 正确地猜测出存在异常,但编造了一个理由 (“烛芯朝向相反”) ,却漏掉了实际的缺陷 (烛芯附近的一个小孔/裂缝) 。本文提出的模型 Anomaly-OV 则正确识别了烛芯附近的损坏。

核心问题在于,MLLM 是在通用互联网数据上训练的。它们缺乏发现微小缺陷所需的细粒度视觉注意力,也缺乏推理这些缺陷所需的特定词汇。

第一部分: 夯实基础 (数据集)

在构建更好的模型之前,研究人员面临一个障碍: 没有大规模的数据集来教 MLLM 如何 推理 异常。现有的数据集提供图像和二元标签 (正常/异常) 或分割掩码,但没有文本解释。

为了解决这个问题,作者推出了 Anomaly-Instruct-125k

创建“自然场景”数据

工业数据既昂贵又专有。为了构建一个强大的数据集,研究人员建立了一个自动流程来收集“自然场景” (WebAD) 中的异常数据。

Figure 8. Automatic data collection pipeline for WebAD.

图 8 所示,这个过程非常巧妙:

  1. 收集: 他们利用 GPT-4o 生成成对的搜索词 (例如,“一辆被划伤的车”与“一辆崭新的车”) 。
  2. 清洗: 他们使用 CLIP 特征来去除重复项,并验证图像是否实际上与描述相符。
  3. 指令生成: 最后,他们将这些清洗后的图像反馈给 GPT-4o,以生成关于异常的详细问答。

结果是一个涵盖工业、医疗和日常生活物品的海量数据集。

Figure 5. Composition of the instruction data in Anomaly-Instruct-125k.

图 5 展示了该数据集的多样性。它包含对话数据,模型必须回答诸如“潜在原因是什么?”和“如何预防这种情况?”等问题,从而超越简单的检测,进入复杂的推理层面。

第二部分: 方法论 (Anomaly-OneVision)

现在,让我们看看架构。 Anomaly-OneVision (Anomaly-OV) 的目标是创建一个“专家”视觉助手来指导“通才” LLM。

研究人员以 LLaVA-OneVision 为基础模型,但引入了一个关键机制: 异常专家 (Anomaly Expert) 。 该组件识别图像中的可疑区域,并强制 LLM 关注这些区域。

Figure 3. Overview of the Anomaly-OV architecture.

图 3 提供了架构蓝图。让我们分解一下流程:

  1. 图像输入: 高分辨率图像被分割成多个图块 (Patch) (\(I_0\) 到 \(I_4\)) 。
  2. 视觉编码器: 一个标准的视觉 Transformer (ViT) 提取特征。
  3. 专家模块 (LTFM): 这是核心创新点 (下文解释) 。它在 LLM 介入 之前 分析特征以发现异常。
  4. VT 选择器: 基于专家模块的发现,模型选择并“放大”最可疑的视觉 Token。
  5. LLM: 大型语言模型接收标准的视觉特征 加上 被强调的可疑 Token,以生成最终的文本响应。

核心创新: 二次特征匹配 (Look-Twice Feature Matching, LTFM)

人类检查物体分两步。首先,我们会扫视整个物体以了解它是什么。然后,我们会仔细观察特定区域以检查缺陷。研究人员通过 二次特征匹配 (LTFM) 模仿了这种行为。

Figure 4. Simulation of visual anomaly inspection by humans.

第一步: 生成“原型”

与以往使用固定文本提示 (如“一张损坏物体的照片”) 的方法不同,Anomaly-OV 学习直接从视觉特征中生成异常描述。

它获取物体的全局视觉特征 (\(\mathbf{v}_0^o\)),并将其与可学习的“正向” (异常) 和“负向” (正常) 嵌入 (\(\mathbf{e}^+\) 和 \(\mathbf{e}^-\)) 融合。

Equation 3

这个公式本质上是在说: 模型为 当前正在观察的特定物体 创建了一个自定义的“正常” (\(\mathbf{d}_i^-\)) 和“异常” (\(\mathbf{d}_i^+\)) 定义。

第二步: 显著性图

一旦模型知道了这个特定物体的“正常”和“异常”长什么样,它就会扫描图像的每一个图块。它通过将每个局部图像图块与异常原型进行比较,计算出一个 显著性图 (Significance Map) (\(m_j\))。

Equation 9

该公式使用余弦相似度和 Softmax 为每个图块打分。如果一个图块看起来更像“异常”原型而不是“正常”原型,它就会得到高分。

可视化显著性

这个数学逻辑真的有效吗?是的。显著性图准确地高亮了缺陷,而无需任何人工监督 (掩码) 。

Figure 7. Visualization of the significance map on VisA samples.

图 7 中,你可以看到红框 (真实标签) 和下方的“显著性图”。模型成功“点亮”了异常所在的像素区域 (块上的划痕、螺母上的斑点、瓷砖上的线条) 。

帮助 LLM 聚焦

目前的 MLLM 处理成千上万个视觉 Token。这就像在大海捞针。 视觉 Token 选择器 (VT Selector) 使用上述计算出的显著性图来过滤数据。

Equation 11

通过将视觉特征乘以显著性图 (\(\mathbf{m}_j\)),模型抑制了背景噪声并放大了来自缺陷区域的信号。这些被强调的 Token 随后带着一个特殊的提示 <adv> (代表对抗/异常特征) 被输入到 LLM 中,实际上是在对 LLM 说: “嘿,注意这个特定的地方!”

第三部分: 实验与结果

研究人员将 Anomaly-OV 与最先进的 ZSAD 方法 (如 WinCLIP 和 AnomalyCLIP) 以及通用 MLLM (如 GPT-4o) 进行了比较。

零样本检测性能

对于标准的异常检测 (将图像分类为好或坏) ,Anomaly-OV 显著优于现有的方法。

Figure 1. Visualization of the image-level AUROC comparison.

图 1 展示了 AUROC 分数 (一种衡量标准,越高越好) 的雷达图。Anomaly-OV (蓝线) 覆盖的面积最大,在包括 VisA 和 MPDD 在内的多种数据集上超越了 WinCLIP 和 AnomalyCLIP 等方法。

定量数据也支持了这一点:

Table 2. Quantitative comparison of Image-level AUROC.

表 2 所示,Anomaly-OV 取得了 88.6 的平均分,击败了此前最好的 AdaCLIP (85.3)。

推理能力

Anomaly-OV 的真正威力在于其对话能力。研究人员在他们的新基准 VisA-D&R (检测与推理) 上测试了该模型。

案例研究: 工业检测 (PCB)

在这个涉及印刷电路板 (PCB) 的例子中,用户询问是否存在异常。

Table 3. Anomaly-OV presents more accurate anomaly detection.

  • GPT-4o: 声称传感器看起来完好无损。
  • LLaVA-OV (基础模型): 说没有明显的异常。
  • Anomaly-OV: 正确识别了 弯曲的 LED 并解释说它没有与电路板表面正确对齐。

案例研究: 细粒度细节 (通心粉)

食品检测需要发现细微的有机变化。

Table 5. Anomaly-OV presents more precise anomaly reasoning.

在这里,Anomaly-OV 识别出通心粉上的一个“淡黄色斑点”,展示了其检测颜色偏移的能力,而通用模型通常会将其忽略为光照变化。

扩展到医疗和 3D 领域

论文还证明了这种“专家”方法在工厂之外同样有效。

Table 6. Extension to 3D and medical AD & reasoning.

表 6 中,我们看到 Anomaly-OV 正在诊断医学图像 (胸部 X 光片中的肺炎) 并分析 3D 渲染图 (物体上的凸起) 。这表明该架构在计算机视觉的不同领域都具有鲁棒性。

结论

Anomaly-OneVision 代表了让 AI 在高风险视觉检测中发挥作用的重要一步。通过承认通用 LLM 还不够,研究人员成功设计了一个混合系统:

  1. 一个专家视觉编码器 (LTFM),它通过“看两次”——先全局,后局部——来模仿人类的检查方式。
  2. 一个通才 LLM , 它利用那些被强调的视觉线索进行推理和解释。

结合 Anomaly-Instruct-125k 数据集的发布,这项工作为 AI 助手打开了大门,它们不仅能告诉我们出了什么问题,还能解释是什么为什么以及如何修复它。无论是被划伤的汽车保险杠、有缺陷的计算机芯片,还是医疗异常,像 Anomaly-OV 这样的模型正让我们更接近自动化、智能化的视觉推理。