引言
大规模文本到图像扩散 (T2ID) 模型 (如 Stable Diffusion) 的兴起彻底改变了数字创意领域。用户只需输入一段简单的文本提示词,就能生成照片级逼真的图像、艺术作品和设计图。然而,这种能力也伴随着巨大的风险。由于是在从开放互联网上抓取的海量数据集上训练的,这些模型往往会无意中记忆并生成不当内容——从 NSFW (不适合工作场所) 材料和受版权保护的艺术风格,到被禁止的物体。
为了解决这个问题, 概念消除 (Concept Erasure) 领域应运而生。其目标很简单: 修改模型,使其拒绝生成特定的“违禁”概念 (如裸露内容或特定艺术家的风格) 。早期的方法显示出了一定的潜力,但研究人员很快发现了一个明显的安全漏洞。即使一个概念被“消除”了,聪明的攻击者也能将其带回来。通过使用“越狱”提示词或注入特定的数学嵌入 (embeddings) ,攻击者可以绕过消除机制,重现开发者试图隐藏的内容。
这这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就这就 warning Output error
](https://deep-paper.org/en/paper/2408.16807/images/cover.png)