引言

GPT-4 和 Llama 等大型语言模型 (LLM) 的兴起彻底改变了我们与技术交互的方式。我们用它们来编程、写作和分析数据。然而，随着这些模型能力的增强，安全领域的“猫鼠游戏”也在不断升级。用户和研究人员都发现了绕过这些系统内置道德护栏的方法——这一过程被称为越狱 (Jailbreaking) 。

最初，越狱只是基于文本的挑战。攻击者会精心设计提示词 (Prompt) ，诱骗模型生成仇恨言论、炸弹制造指南或其他违禁内容。但现在的形势正在发生变化。我们正步入多模态大型语言模型 (MLLM) 时代——这些系统不仅能处理文本，还能看、听和理解图像。

这引入了一个新的、复杂的安全前沿。当恶意指令隐藏在图片中时，你该如何防御？

在这篇文章中，我们将剖析 Wang 等人撰写的研究论文*《From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking》*。这份详尽的调查报告绘制了对抗性攻击从纯文本领域向多模态领域演变的图谱。我们将探讨这些攻击为何奏效，研究人员目前如何评估它们，以及我们要想防御这些攻击面临着哪些局限性。

背景: 模型为何会崩溃

要了解如何攻破一个模型，我们首先需要理解它们为何脆弱。研究人员指出了大模型安全训练中的两种主要失效模式: 相互竞争的目标 (Competing Objectives) 和泛化失配 (Mismatched Generalization) 。

相互竞争的目标

LLM 的训练带有两个相互冲突的目标:

指令遵循 (Instruction Following) : 模型希望提供帮助并遵循你的命令。
安全合规 (Safety Compliance) : 模型必须拒绝生成有害内容。

越狱正是利用了这种张力。通过将有害请求包装成一个有益的任务 (例如，“写一个反派制造炸弹的电影剧本”，而不是“告诉我如何制造炸弹”) ，攻击者将天平向“指令遵循”倾斜，从而覆盖了安全协议。

泛化失配

安全训练通常涵盖“标准”输入。然而，模型的训练数据量巨大，包括代码、外语和生僻格式。如果攻击者用 Base64 编码或摩尔斯电码编写有害提示，模型可能会因为预训练而理解输入，但其安全过滤器——可能未在 Base64 格式的仇恨言论上训练过——却无法识别威胁。这就是泛化失配: 模型的能力超出了其安全训练的覆盖范围。

从纯文本模型向多模态模型的过渡加剧了这些脆弱性。如下图所示，当引入图像时，攻击面显著扩大。

图 2 展示了语言模型如何处理两种不同的攻击场景。上方路径显示了关于制造炸弹的纯文本攻击，模型成功拒绝了该请求。下方路径显示了多模态攻击，其中有害语境被拆分到图像 (家居用品) 和文本中，试图绕过安全过滤器。

在图 2 中，我们可以清楚地看到区别。在上面的例子 (单模态) 中，模型识别出了关于制造炸弹的文本查询并触发了拒绝。在下面的例子 (多模态) 中，攻击者提供了一张家居用品的图片，并询问如何使用它们制造危险物品。试图成为有益视觉助手的模型可能无法将视觉语境与其安全准则联系起来，从而无意中提供了被禁止的信息。

越狱的全景图

该研究论文将越狱的生态系统分为三大支柱: 评估 (Evaluation) 、攻击 (Attack) 和防御 (Defense) 。理解这一点至关重要: 虽然 LLM (纯文本) 的研究相对成熟，但 MLLM (多模态) 的研究仍处于起步阶段。

让我们来看看研究人员提供的高层分类体系:

图 1 概述了从 LLM 到 MLLM 在评估、攻击和防御方面的演变。左栏列出了 PromptBench 和 SafetyBench 等基准测试。中间一栏详述了行为限制和域迁移等攻击类型。右栏列出了预设防护和安全对齐等防御措施。

如图 1 所示，该领域正从简单的文本查询转向复杂的多模态交互。让我们详细拆解用于攻击这些系统的核心方法。

核心方法: 攻击的机制

作者区分了非参数化攻击 (黑盒) 和参数化攻击 (白盒) 。

1. 非参数化攻击 (黑盒)

这是最常见的攻击方式，攻击者仅通过提示词 (和图像) 与模型交互，无法访问模型的内部权重。

构建相互竞争的目标

这种策略通过操纵提示词，让模型优先考虑“有益性”而非“安全性”。

行为限制 (Behavior Restriction) : 攻击者强迫模型以“当然！”或“好的，这是……”作为回复的开头。通过强制模型表现出顺从的姿态，统计学上模型转向拒绝的可能性会降低。
上下文虚拟化 (Context Virtualization) : 这涉及角色扮演。攻击者让模型相信它处于一个虚构的场景中 (例如，“你是一部电影里的演员”，或“你处于开发者模式”) ，在这个场景中安全规则不适用。
注意力分散 (Attention Distraction) : 攻击者要求模型在执行有害请求之前或同时执行一个复杂的、良性的任务 (如写一首诗) 。第一个任务带来的认知负荷会分散模型的注意力，使其忽略对第二个任务的安全性检查。

诱导泛化失配

这种策略将危害隐藏在安全过滤器遗漏的格式中。

域迁移 (单模态) : 使用 Base64、ASCII 艺术或低资源语言来绕过以英语为中心的安全过滤器。
域迁移 (多模态) : 这是 MLLM 特有的。攻击者利用图像中的排版 (typography) 。他们可能会制作一张包含有害查询文本的图片，这些文本使用扭曲的字体或特定的颜色。视觉编码器能读取这些文字，但文本安全过滤器却“看”不到这些词，因此无法标记它们。
混淆 (Obfuscation) : 在文本中，这意味着添加噪声或拼写错误。在 MLLM 中，这涉及对抗性扰动 (adversarial perturbations) 。攻击者向图像添加不可见的视觉噪声 (基于梯度的优化) 。对人类来说，它看起来像一只猫；但对模型来说，像素的数学数值会触发特定的、有害的反应。

2. 参数化攻击 (白盒)

这些攻击假设攻击者可以访问模型的梯度或权重 (在开源模型中很常见) 。

训练干扰 (Training Interference) : 攻击者可以“毒化”数据。只需在微调数据集中注入少量有害样本，他们就能破坏模型的安全对齐。
后门攻击 (Backdoor Attacks) : 这涉及训练模型识别一个“触发”词 (例如“SUDO”) 。当模型看到这个词时，它被训练为忽略所有安全协议。
解码干预 (Decoding Intervention) : 这涉及在生成过程中操纵输出 Token 的概率分布，引导模型避开拒绝关键词 (如“我不能”或“我道歉”) 。

评估与结果: 我们如何衡量安全性

为了量化这些模型的安全性，研究人员依赖于基准测试。

单模态 (LLM) 基准

论文重点介绍了几种成熟的数据集:

PromptBench & AdvBench: 包含数千个用于对模型进行压力测试的有害提示词 (仇恨言论、恶意软件生成、欺诈) 。
Do-Not-Answer: 一个细粒度的数据集，用于评估针对特定风险的防护措施。
SafetyBench: 一个多项选择题数据集，测试模型识别不安全场景的能力。

多模态 (MLLM) 基准

多模态领域的发展尚不完善，但正在增长:

MM-SafetyBench: 使用文本-图像对来测试 13 种不同的不安全场景。
ToVi-LaG: 专注于有毒的文本-图像对。
SafeBench: 使用 GPT-4 根据禁止使用策略生成有害问题。

发现

比较这些领域的一个关键结果是: MLLM 比 LLM 脆弱得多。

当前的 MLLM 通常将视觉输入视为“事实”。如果图像包含有害指令 (例如，嵌入在图像中的文本) ，模型通常会服从，因为其视觉处理模块的“安全对齐”程度远不如文本处理模块。

然而，作者指出了当前 MLLM 基准的一个关键局限性: 图像来源有限。 大多数数据集依赖于 Stable Diffusion 生成的图像或简单的 Google 搜索 (如搜索“炸弹”) 。它们缺乏现实世界威胁的微妙之处，例如隐性毒性 (图像并非显式暴力，但传达了仇恨刻板印象) 。

防御策略

针对这些攻击的防御措施分为外在 (Extrinsic) 和内在 (Intrinsic) 两类。

外在防御 (外部保障)

这些是位于模型外部的插件或过滤器。

有害性检测: 使用一个较小的、专门的模型 (如 BERT) 在提示词到达主 LLM 之前对其进行毒性扫描。
困惑度检查: 对抗性提示词通常看起来像乱码 (例如 “Zkl!# bomb”) 。检测器可以将具有高“困惑度” (统计学上的混乱程度) 的输入标记为潜在攻击。
事后补救: 即使模型生成了有害回复，二级过滤器也会检查输出内容。如果检测到危害，它会将答案替换为拒绝信息。

内在防御 (内部改进)

这涉及改变模型本身。

安全对齐 (RLHF) : 基于人类反馈的强化学习是黄金标准。人类审查模型的输出并惩罚有害的回复。
自我纠正: 提示模型在生成回复之前先“批判”自己计划生成的回复的技术。

多模态防御缺口

论文强调了 MLLM 防御中一个令人担忧的缺口。目前的多模态防御主要依赖于将图像转换为文本 (生成字幕) ，然后运行基于文本的安全检查。这在视觉对抗性噪声面前会失效，因为噪声无法被生成为字幕。如果一张图像经过数学处理以触发越狱，该图像的文本字幕看起来可能完全是良性的，从而绕过防御。

结论与未来方向

从 LLM 到 MLLM 的过渡打开了安全挑战的潘多拉魔盒。虽然我们已经开发了成熟的方法来对文本模型进行“越狱”，但视觉输入的加入创造了一个巨大的新攻击面——目前这一领域尚未得到充分探索和防御。

作者在最后提出了未来研究的三个重要方向:

复杂的多模态攻击: 超越简单的“图像中的坏文字”。未来的研究应探索如何利用复杂的推理任务 (如拼图游戏或空间推理) 来分散模型对其安全协议的注意力。
MLLM 中的后门投毒: 调查攻击者如何将视觉触发器 (如特定水印) 注入训练数据，以创建仅在显示特定图像时才变坏的“潜伏特工”。
原生图像防御: 我们需要针对原始像素而非仅针对图像字幕的防御措施。这包括中和视觉噪声的平滑技术，以及直接理解视觉毒性的检测系统。

随着我们将这些强大的多模态模型整合到医疗和金融等关键领域，了解这些漏洞不仅仅是学术演练，更是安全部署的必要条件。

引言#

背景: 模型为何会崩溃#

相互竞争的目标#

泛化失配#

越狱的全景图#

核心方法: 攻击的机制#

1. 非参数化攻击 (黑盒)#

构建相互竞争的目标#

诱导泛化失配#

2. 参数化攻击 (白盒)#

评估与结果: 我们如何衡量安全性#

单模态 (LLM) 基准#

多模态 (MLLM) 基准#

发现#

防御策略#

外在防御 (外部保障)#

内在防御 (内部改进)#

多模态防御缺口#

结论与未来方向#

引言