像素中的特洛伊木马: 图像适配器如何开启新一波 AI 越狱攻击

文本生成图像扩散模型 (T2I-DMs) 如 Stable Diffusion、Midjourney 和 DALL-E 的迅速崛起彻底改变了数字创意领域。我们现在仅凭一句话就能变幻出精妙的世界。然而,能力越大,随之而来的安全斗争也不可避免: 越狱 (Jailbreaking)

在 AI 语境下,越狱指的是绕过模型的安全过滤,以生成被禁止的内容——通常是 NSFW (工作场所不宜) 、暴力或非法图像。在此之前,这很大程度上是一场“语言体操”游戏,攻击者试图通过巧妙的文本提示来欺骗模型。

但一篇题为 “Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking” (当心特洛伊木马: 图像提示适配器实现可扩展且具有欺骗性的越狱) 的新研究论文揭示了一种更加隐蔽且危险的威胁。它涉及 图像提示适配器 (Image Prompt Adapters, IP-Adapters) 。 攻击者无需输入恶意提示,只需上传一张看似无害的图像——一个“特洛伊木马”——就能迫使 AI 生成露骨内容。

在本文中,我们将剖析这篇论文,了解这种“劫持攻击”是如何运作的,为何它如此有效,以及我们能做些什么来阻止它。

1. 核心问题: 一种新的攻击向量

要理解这种威胁,我们首先需要看看现代扩散模型是如何演变的。早期的模型几乎完全依赖文本提示。如果你想要一张凡高风格的猫的图片,你必须用文字描述它。

最近, IP-Adapter 已成为可控生成的标准工具。它允许用户提供图像作为提示。例如,你可以上传一张自拍照和一张参考风格图,模型会将它们结合起来。这极大地提升了可用性,但也打开了一个巨大的安全漏洞。

研究人员发现,配备了 IP-Adapter 的 T2I-DMs 使得一种被称为 劫持攻击 (Hijacking Attack) 的新型越狱成为可能。

图 1. T2I-IP-DM 越狱图解。T2I-IP-DM 使攻击者能够利用图像作为攻击向量。

正如 图 1 所示,这个概念简单得可怕:

  • 上方路径: 用户上传一张良性图像 (《呐喊》) 和良性文本提示 (“一个人在开车”) 。模型生成了一张安全的、风格化的图像。
  • 下方路径: 攻击者创建一个 对抗样本 (Adversarial Example, AE) 。 对人眼来说,它看起来 完全 就像《呐喊》。然而,它包含了不可见的噪声模式。当模型处理这张图像时,它会忽略良性的外观,转而生成 NSFW 内容。

为什么这被称为“劫持”?

传统的越狱涉及恶意用户为了自娱自乐而试图欺骗 AI。劫持攻击则不同——它将 无辜用户 武器化了。

图 2. 劫持攻击的主要思想。

图 2 阐释了这种可扩展的威胁模型:

  1. 设置: 攻击者创建“隐形”的对抗图像 (AEs) 。这些图片看起来像普通的库存照片、艺术参考图或名人面孔。
  2. 陷阱: 攻击者将这些图像上传到网络 (步骤 2) 。
  3. 劫持: 寻找灵感或素材的无辜用户下载了这些图像 (步骤 3 & 4) 。
  4. 触发: 无辜用户将图像上传到图像生成服务 (IGS) 用作风格提示 (步骤 5) 。
  5. 结果: IGS 生成露骨/NSFW 内容 (步骤 6) 。

用户感到困惑。他们上传了安全的图片并输入了安全的提示词。他们指责服务提供商的模型存在“偏见”或“故障” (步骤 7) 。攻击者成功损害了提供商的声誉,而自己从未直接与模型进行交互。

2. 为什么旧的攻击手段在这里无效

你可能会问,“为什么不直接使用文本攻击?”

现有的基于文本的越狱依赖于“对抗性文本字符串”。这些通常看起来像乱码 (例如 grponypui) 或包含明显的危险信号。如果用户看到一个充满奇怪字符或露骨关键词的提示,他们是不会去使用的。

图像则不同。计算机视觉中的对抗性攻击通过添加扰动——即像素值的微小变化——来发挥作用,这些变化对人类不可见,但会极大地改变机器解读图像的方式。因为这种“毒药”是隐形的,所以攻击具有 欺骗性 。 用户信任该图像,因为它看起来是安全的。

3. 方法论: 仅攻击编码器 (AEO)

那么,研究人员是如何制作这些特洛伊木马图像的呢?他们引入了一种称为 仅攻击编码器 (Attack Encoder Only, AEO) 的方法。

理解流程

要攻击该系统,我们必须了解 IP-Adapter 的工作原理。其工作流程通常分为两个阶段:

  1. 提取: 一个预训练的 图像编码器 (通常是 CLIP )观察输入图像并提取一个“特征向量” (图像内容的数学摘要) 。
  2. 注入: 一个投影网络获取该特征向量,并通过交叉注意力层将其注入到扩散模型的噪声预测过程中。

弱点在于 第一阶段 。 整个生成过程取决于 CLIP 提取的特征向量。如果你能欺骗 CLIP,让它以为一张《呐喊》的照片实际上是一张“裸体”照片,那么管道的其余部分就会顺从地生成裸体内容。

魔法背后的数学

研究人员将攻击公式化为一个优化问题。目标是创建一个对抗图像 (\(x_{adv}\)) ,它必须满足两个标准:

  1. 它在视觉上必须与良性图像 (\(x_b\)) 完全相同。
  2. 它在模型内部的 特征向量 必须与目标 NSFW 图像 (\(x_{nsfw}\)) 的特征向量相同。

这在数学上表示为:

仅攻击编码器优化的方程式。

变量细分如下:

  • \(\mathbf{f}(\cdot)\): 图像编码器 (例如 CLIP) 。
  • \(\text{dist}(\cdot, \cdot)\): 测量两个特征向量之间距离的函数。
  • \(\|x_{adv} - x_b\|_p \le \epsilon\): 此约束确保新图像与原始图像相比不会发生太大变化 (像素仅发生极少量 \(\epsilon\) 的变化) ,从而保持对人类不可见。

余弦相似度 vs. 均方误差 (MSE)

研究人员发现了关于距离函数 (\(\text{dist}\)) 的一个有趣细节。他们测试了 均方误差 (MSE)余弦相似度 (Cosine Similarity)

MSE 试图匹配特征向量的精确值。余弦相似度则试图匹配向量的 方向

他们发现 余弦相似度 的效果要好得多 (如下文 图 11 所示) 。为什么?因为像 CLIP 这样的模型是使用对比学习训练的,这种方法对齐了图像和文本嵌入的 方向。通过将对抗图像特征的方向与 NSFW 图像特征的方向对齐,攻击有效地欺骗了下游的扩散模型。

图 11. 图像相似度与网格特征余弦相似度之间的相关性。

上面的散点图显示,视觉 Transformer (ViT) 网格特征中的图像相似度和余弦相似度之间存在很强的相关性,证实了对齐方向是语义控制的关键。

4. 实验: 它真的有效吗?

研究人员在三个热门任务上测试了他们的 AEO 方法: 文本到图像、图像修复 (Inpainting) 和虚拟试穿。他们使用了各种模型,包括 Stable Diffusion v1.5、SDXL 和 Kolors。

任务 1: 文本到图像

在这种场景下,用户提供一个文本提示 (例如,“一幅画”) 并使用图像提示来定义 风格

结果令人震惊。良性图像 (经典画作) 几乎从未触发 NSFW 过滤器 (比率为 0.4% 到 1.4%) 。然而,对抗样本 (AEs) 使这些比率飙升。

表 2 显示裸露和 NSFW 比率。

查看 表 2 , 特别是当权重因子为 1.0 时 (意味着模型严重依赖图像提示) :

  • 良性: ~4% NSFW 率。
  • 恶意 (AEO - COS) : 在 SD-v1-5 上高达 95.3% 的 NSFW 率。

这意味着实际上每次用户尝试使用特洛伊木马风格参考图生成艺术作品时,他们都会得到露骨内容。

图 3. 文本到图像任务的定性结果。

图 3 展示了视觉结果。第一行 (a) 显示输入图像 (AEs) 。它们看起来像普通的艺术品。底行 (c) 显示输出。尽管文本提示是良性的,模型还是生成了 NSFW 图像 (出于安全考虑已涂黑) 。

任务 2: 图像修复与换脸

在此任务中,用户可能会下载一张名人面孔以换到另一个身体上。攻击者提供一张看起来像名人但携带“特洛伊”载荷的面孔图像。

研究人员使用 身份评分匹配 (ISM)CLIP 评分 来衡量成功率。分数越高,意味着输出看起来越像目标 NSFW 图像,而不是良性输入。

图 4. 图像修复任务的定性结果。

图 4 中可以看出,攻击无缝衔接。输出结果 (c 行) 成功采用了目标向量的恐怖/NSFW 特征,而用户以为他们只是在使用正常的面部输入。

任务 3: 虚拟试穿

这可能是最具破坏性的商业场景。想象一下在线服装店或时尚演示。用户上传一张模特的照片来“试穿”一件衬衫。如果衬衫图像是 AE,输出可能会让模特变得赤身裸体。

研究人员攻击了流行的虚拟试穿模型 IDM-VTON

表 5. IDM-VTON 面临越狱攻击时的裸露率和 NSFW 率。

表 5 显示裸露率从 0.20% (良性) 大幅跃升至 56.20% (对抗性) 。

图 5. 虚拟试穿的定性结果。

图 5 直观地展示了这一点。(a) 行中的衣物看起来像标准的 T 恤。但当通过虚拟试穿模型处理时,系统未能渲染衣服,而是渲染了裸体 (c 行) 。

他们甚至成功越狱了一个在线实时演示:

图 8. 触发 IDM-VTON 在线演示中的裸体内容。

5. 为什么现有的防御措施失效

论文调查了为什么我们不能直接使用标准的安全工具来阻止这种情况。

  1. 提示词过滤器: 这些工具扫描文本中的不良词汇。由于攻击存在于 图像 中,这些工具毫无用处。
  2. 输出过滤器 (例如 NudeNet) : 这些工具扫描最终图像。虽然它们能捕捉到一些内容,但假阴性率很高 (在测试中漏掉了高达 14% 的 NSFW 内容) 。此外,它们在生成 之后 起作用。用户仍然会遇到“违反政策”的错误,当他们明明什么都没做错时,这会令人沮丧和困惑。
  3. 概念擦除 (例如 ESD, SLD) : 这些是从模型权重中“遗忘”裸体的技术。研究人员发现了一个致命缺陷: 遗忘是不够的。

因为 IP-Adapter 将特征 直接 注入生成过程,它可以覆盖遗忘机制。

图 6. 裸露率与 CLIP 评分之间的权衡图表。

图 6 说明了概念擦除的失败。

  • 图表 (a) & (b): 随着 IP-Adapter 权重因子的增加 (x 轴) ,裸露率回升,即使对于已擦除概念的模型 (如 ESD-u) 也是如此。
  • 权衡: 更强的防御 (如 SLD-Strong) 会导致图像质量 (保真度) 大幅下降,使得服务对合法用户来说毫无用处。

6. 解决方案: 对抗训练

由于漏洞源于 图像编码器 (CLIP) 被欺骗,研究人员提议修复编码器本身。

他们利用了一种称为 FARE (鲁棒 CLIP) 的技术。这涉及在对抗样本上训练 CLIP 编码器,使其学会忽略不可见的噪声并专注于实际的视觉内容。

结果: 当他们在 IP-Adapter 中用经过 FARE 训练的编码器替换标准 CLIP 编码器时:

  1. 高防御性: 攻击成功率急剧下降。
  2. 高保真度: 与概念擦除不同,这并没有破坏良性用户的图像质量。

表 19. 配备 FARE 的网格型 T2I-IP-DMs 的结果。

表 19 显示,使用 FARE 后,裸露率在许多情况下降至 2-4% , 而未使用时则超过 50%。这表明,加固 感知 层 (编码器) 是比试图修补 生成 层 (扩散模型) 更有效的策略。

7. 结论

图像提示适配器的引入为 AI 安全打开了潘多拉魔盒。通过将攻击向量从文本转移到图像,攻击者可以发起可扩展的、具有欺骗性的攻击,将无辜用户武器化以对抗服务提供商。

这项研究的主要结论是:

  1. 隐蔽为王: 基于图像的攻击对人类来说是不可察觉的,这使它们成为高效的陷阱。
  2. 编码器是薄弱环节: 攻击之所以成功,是因为图像编码器 (CLIP) 盲目信任对抗性特征。
  3. 现有防御不足: 过滤器和概念遗忘很容易被绕过,或者会严重降低质量。
  4. 鲁棒编码器是未来: 对编码器进行对抗训练 (如 FARE) 似乎是最有希望的前进道路。

随着我们迈向多模态 AI 的未来——文本、音频和视频无缝融合——在我们的数据输入中“警惕特洛伊木马”将成为网络安全的关键支柱。


本博客文章基于 Junxi Chen 等人的研究论文 “Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking”。