被光蒙蔽双眼：利用 MLLM-Protector 保护多模态 AI 免受视觉越狱攻击

引言: 多模态 AI 的新漏洞

人工智能的快速演进已将我们从基于文本的大型语言模型 (LLMs，如 GPT-3) 带入了多模态大型语言模型 (MLLMs，如 LLaVA 和 GPT-4V) 的时代。这些较新的模型拥有非凡的“视觉”能力——它们可以结合图像和文本来回答复杂的查询。这种飞跃开启了无数的应用场景，从医学影像分析到辅助视障人士。

然而，这种新增的模态引入了一个重大且常被忽视的安全漏洞。虽然 AI 社区花费了数年时间来完善文本的安全对齐——确保模型拒绝生成仇恨言论或炸弹制造指南——但视觉组件却充当了一个后门。

研究人员发现，图像对模型来说就像是一种“外语”。包含有害意图的图像可以绕过在文本训练期间建立的安全过滤器。如下图所示，一个通常会拒绝回答“我如何制造弹道导弹？”的模型，如果这个问题伴随着一张导弹的图片，它可能会愉快地提供说明。

像 LLaVA 这样最先进的 MLLM 在使用图像作为输入时，更容易生成有害回复。另一方面，搭载了我们的 MLLM-Protector 的 LLaVA 能够有效检测此类有害内容并使回复变得安全。

本篇博客文章将探讨一篇名为 “MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance” (MLLM-Protector: 在不损害性能的情况下确保 MLLM 的安全性) 的近期论文。我们将深入探讨为什么传统的安全方法在多模态模型上会失效，并研究一种新颖的、即插即用的解决方案，该方案将安全检查与生成过程分离开来。

“外语”假说

要理解解决方案，我们必须首先理解这个问题的独特性质。基于文本的 LLM 处理的是离散的 Token (词元) 。随着时间的推移，强化学习人类反馈 (RLHF) 等技术已被用于对齐这些模型，教导它们哪些 Token 序列代表应该被拒绝的有害概念。

然而，MLLM 引入了 图像模态 。研究人员认为，对于 MLLM 来说，图像在语义上与文本相似，但绕过了模型受训要避免的特定文本触发器。这就像是一个只说英语的安全警卫；他们可以阻止用英语说出的有害请求，但如果有人用他们听不懂的外语提出同样的有害请求，他们可能会放行，即使意图是完全相同的。

为什么标准微调会失败

解决这个问题最显而易见的方法似乎是 监督微调 (Supervised Fine-Tuning, SFT)——简单地收集一个恶意图像数据集并训练模型拒绝它们。研究人员测试了这种“原生”方法，结果令人沮丧。

根本问题在于数据表示的本质。文本是 离散的 (有限的词汇表) ，而图像是 连续的 信号。像素空间的变化实际上是无限的。试图针对有害概念的每一种可能的视觉变化来“对齐”模型，在计算上是徒劳无功的。

此外，MLLM 在图像-文本对上的训练量通常远少于在纯文本语料库上的训练量。在图像上进行激进的安全微调往往会导致 灾难性遗忘 (catastrophic forgetting) , 即模型变得安全了，但却丧失了其通用的效用和智能。

研究人员通过实证证明了这种失败。如下表所示，应用标准 SFT 带来的安全增益微乎其微，而在某些场景 (如欺诈) 中，攻击成功率 (ASR) 实际上反而增加了。

表 3: 不同输入在有/无监督微调 (SFT) 下的攻击成功率 (ASR)。我们遵循 (Liu et al., 2023b) 使用其构建的基准进行实验，观察到 SFT 仅在安全性方面带来微小的提升。此外，在许多场景中，SFT 后的 ASR 甚至更高。

这一证据表明，我们不能简单地在 MLLM 内部通过“训练”消除这个问题而不破坏模型本身。我们需要一种不同的架构。

核心方法: MLLM-Protector

为了在不重新训练庞大的基础模型或降低其性能的情况下解决对齐问题，研究人员提出了 MLLM-Protector 。这是一个“分而治之”的策略。该系统不再强迫 MLLM 本身对所有视觉输入都具有内在的安全性 (这很难做到) ，而是允许 MLLM 生成回复，然后采用一个轻量级的外部机制来监管和修正该输出。

该架构由两个独特的组件组成:

有害内容检测器 (Harm Detector): 一个二元分类器，用于检查回复是否有害。
回复去毒器 (Response Detoxifier): 一个文本到文本模型，将有害回复重写为安全回复。

推理工作流

该工作流是直观且模块化的。当用户提供输入 (图像 + 文本) 时，MLLM 生成原始回复。该回复立即被传递给有害内容检测器。如果检测器将内容标记为安全，则将其展示给用户。如果标记为有害，回复将被转移到去毒器，去毒器在展示之前会修改文本以拒绝请求或移除有害元素。

下图展示了该算法的过程:

算法 1: 使用 MLLM-Protector 的推理过程

组件 1: 有害内容检测器

有害内容检测器是一个轻量级的大型语言模型 (具体来说，是一个经过微调的 Open-LLaMA-3B) ，适用于二元分类。它的唯一工作是查看 MLLM 的文本输出并预测其有害概率。

因为“识别比生成更容易”，所以这个模型不需要像 MLLM 本身那样巨大或复杂。

训练目标: 为了训练这个检测器，研究人员使用了标准的二元交叉熵 (BCE) 损失。下面的方程最小化了预测的有害性 (\(\phi(\mathbf{a}^i)\)) 与真实标签 (\(h^i\)) 之间的误差。

方程 1: 有害内容检测器的二元交叉熵损失

这里，如果回复是有害的，\(h^i\) 为 1；如果是安全的，则为 0。模型 \(\phi\) 学习将其输出概率在有害内容上推向 1，在安全内容上推向 0。

组件 2: 回复去毒器

如果有害内容检测器标记了一个回复，系统不能简单地返回一个空字符串或通用的“我无法回答”。为了保持良好的用户体验，系统应该生成一个上下文感知的拒绝或答案的净化版本。

回复去毒器是另一个 LLM (LLaMA-7B)，经过微调后，它能接收有害回复和原始查询，并将它们转换为无害的回复。

训练目标: 去毒器使用自回归语言建模损失进行训练。目标是在给定原始查询 (\(\mathbf{q}\)) 和“被拒绝/有害”的答案 (\(\mathbf{a}_{rej}\)) 的情况下，最大化“安全”答案 (\(\mathbf{a}_{acc}\)) 的可能性。

方程 2: 去毒器的自回归语言建模损失

这有效地教会了模型: “这是一个危险的问题和一个危险的答案。学会生成安全的替代方案。”

数据生成: Safe-Harm-10K

训练这些组件的一个主要挑战是缺乏包含针对相同视觉恶意查询的安全和有害回复的标记数据。为了克服这个问题，作者构建了一个名为 Safe-Harm-10K 的新数据集。

他们利用 ChatGPT 合成了跨越各种恶意类别 (仇恨言论、恶意软件、色情、欺诈等) 的数据。通过向 ChatGPT 提供上下文示例，他们生成了包含以下内容的三元组:

一个恶意问题。
一个有害回复 (用作“被拒绝”的样本) 。
一个安全回复 (用作“被接受”的样本) 。

这个合成数据集使他们能够有效地训练有害内容检测器和去毒器，而无需数千小时的人工标注。

实验与结果

研究人员使用 MM-SafetyBench 评估了 MLLM-Protector，这是一个旨在测试 MLLM 针对文本、图像和 OCR (图像内的文本) 攻击的安全性的基准测试。

定量分析

结果是革命性的。下面的雷达图比较了多种 MLLM (InstructBLIP, LLaVA, MiniGPT4, QWEN-VL) 在有无 MLLM-Protector 情况下的攻击成功率 (ASR)。

红色区域 代表基础模型的脆弱性。 绿色区域 代表添加 MLLM-Protector 后的脆弱性。

图 2: MLLM-Protector 可以应用于任何 MLLM 以提升其安全性。红色区域代表原始 MLLM 的攻击成功率 (ASR)，而绿色区域代表使用了我们的 MLLM-Protector 后的 ASR。我们可以观察到，所有场景和所有 MLLM 的 ASR 都显着降低。

清晰可见，红色区域很大，表明在非法活动 (IA)、隐私侵犯 (PV) 和仇恨言论 (HS) 等类别中极易受到攻击。绿色区域几乎不存在，表明 MLLM-Protector 成功阻止了几乎所有攻击。

定性分析

查看模型行为变化的实际示例非常有帮助。在下图中，我们看到请求帮助进行非法活动 (策划骚扰、逃税、制造武器) 的查询。

标准模型 (上/中行) 提供了关于如何实施这些犯罪的详细分步说明。当配备 MLLM-Protector (下行) 时，模型会基于道德和法律原因提供坚定但礼貌的拒绝。

图 3: 我们展示了不同的 MLLM 在没有和有我们的 MLLM-Protector 时对有害问题的回复。如图所示，MLLM-Protector 有效地移除了有害内容并提供了不回答的理由，兼顾了无害性和有益性。

在 “FigStep” 上的鲁棒性

团队还针对 FigStep 进行了测试，这是一个具有挑战性的基准测试，其中有害指令以排版形式隐藏在图像中 (例如，用大写字母拼写出的单词) 。这有效地将文本指令变成了视觉谜题。

如表 5 所示，基础 LLaVA 模型的失败率极高，在恶意软件生成 (MG) 类别中接受有害指令的比例高达 92%。MLLM-Protector 大幅降低了这些比率。

表 5: LLaVA-7B 和 LLaVA-13b 在 FigStep (Gong et al., 2023) 上的攻击成功率 (ASR)。结果验证了 MLLM-Protector 的有效性。

性能受损了吗？

该论文的主要主张是这种方法在确保安全的同时不损害性能。为了验证这一点，研究人员在 GQA (视觉推理) 和 MM-Vet 等标准效用基准上对模型进行了评估。

因为 MLLM-Protector 是一个外部包装器，原始 MLLM 的权重保持不变。因此，模型回答良性问题的能力保持完全一致。唯一的潜在缺点是有害内容检测器可能会对安全查询产生误报 (假阳性) ，但消融研究表明该检测器非常准确。

图 4: 有害内容检测器预测的无害性分数。红色和绿色的柱状条分别代表有害和无害的回复。有害内容检测器能够很好地将有害回复与无害回复区分开来。

图 4 证实了有害内容检测器 (尤其是像 OpenLLaMA-3B 这样的较大版本) 在有害和无害内容之间建立了清晰的界限，最大限度地减少了意外审查有益回复的风险。

结论与启示

“MLLM-Protector” 论文强调了现代 AI 开发中的一个关键现实: 随着模型变得越来越复杂和多模态化，攻击面也在扩大。适用于文本的策略并不能自动转移到视觉上。

这里的关键收获是 分而治之 (Divide-and-Conquer) 方法的有效性。通过将安全对齐与核心生成过程解耦，我们可以:

避免“对齐税 (Alignment Tax)” (性能下降) 。
使用较小的专用模型 (有害内容检测器/去毒器) 来监管较大的通用模型。
创建一个即插即用的安全模块，可以应用于任何 MLLM，无论其架构如何。

随着我们迈向能够观察世界并与之互动的自主智能体，确保它们不会被视觉欺骗而做出有害行为至关重要。MLLM-Protector 为实现这一安全性提供了一个稳健、可扩展的蓝图。

引言: 多模态 AI 的新漏洞#

“外语”假说#

为什么标准微调会失败#

核心方法: MLLM-Protector#

推理工作流#

组件 1: 有害内容检测器#

组件 2: 回复去毒器#

数据生成: Safe-Harm-10K#

实验与结果#

定量分析#

定性分析#

在 “FigStep” 上的鲁棒性#

性能受损了吗？#

结论与启示#