生成式 AI 的崛起可谓惊人而迅猛。像 Stable Diffusion、Midjourney 和 DALL·E 这样的模型,可以根据简单的文本提示生成令人叹为观止的图像,以前所未有的方式将艺术创作大众化。但这场革命背后也有争议: 这些强大的模型通常是在未经原创艺术家明确同意的情况下,使用从互联网上收集的海量数据集进行训练的。这种做法引发了关于版权、所有权以及创造本质的激烈辩论。

一幅由 AI 生成、且带有在世艺术家风格的图像,其所有权属于谁?这是灵感,还是模仿?

当前的争论建立在一个关键假设之上: 要学习一种艺术风格,模型必须在海量的现有艺术作品上进行训练。但如果这个假设是错的呢?

来自麻省理工学院、东北大学和上海科技大学的研究人员用一个看似简单的问题挑战了这一前提:** 一个生成模型能否在从未见过任何画作的情况下,学会像艺术家一样绘画?**

他们的答案是肯定的——通过一个名为 空白画布扩散 (Blank Canvas Diffusion) 的系统实现,该模型完全在照片上训练,再配合一个轻量级的 艺术风格适配器 (Art Style Adapter) ,就能仅凭少量“选择性加入”的样本学习艺术风格。

这项工作不仅带来技术突破,也重新定义了围绕道德 AI 的讨论。它为基于同意的系统指明了方向,同时也揭示了要真正防止风格模仿有多困难。下面让我们深入了解。

一张示意图,展示了空白画布扩散模型的概念。一个从未接受画作训练的模型 (“空白画布”) 可以与一个仅在少量样本上训练的选择性加入艺术适配器相结合,从而生成具有该特定风格的新图像。

数据饥渴世界的问题

现代的文生图模型——尤其是去噪扩散模型——本质上是数据驱动的。它们通过在数十亿图像-文本对中检测模式来学习。像 LAION-5B 这样的大规模数据集是公共互联网的快照,混合了照片和无数受版权保护的艺术作品。

这带来了严峻的法律和伦理挑战。艺术家反对在未经许可的情况下使用他们的作品进行训练,这导致了诉讼和监管呼声。由于这些模型能够以惊人的逼真度复制风格,灵感与模仿之间的界限变得模糊。

一些缓解思路应运而生:

  • 概念擦除 (Concept Erasure) —— 在模型训练后,移除特定概念 (包括艺术风格) 。
  • 选择退出系统 (Opt-Out Systems) —— 工具允许艺术家将其作品从未来数据集中排除。
  • 精选数据 (Curated Data) —— 使用完全授权或公共领域的数据集,例如仅在知识共享许可 (Creative Commons) 图像上训练的 CommonCanvas。

虽然这些方法各有价值,但它们通常仍建立在已经包含大量艺术知识的模型之上。“选择性加入的艺术”项目将数据精选推向了极致: 构建一个完全与艺术无关的模型——一个由相机捕捉信息构成的空白底板,对绘画、素描或插图没有任何视觉知识。

从零开始构建: 空白画布扩散模型

这项工作始于打造一个完全不含非摄影艺术品的模型,这既需要经过精心筛选的数据集,也需要慎重的架构设计。

空白画布数据集

研究团队首先选用了 SA-1B 数据集——一个用于目标分割的大型相机拍摄图像集合。尽管它以摄影为主,但艺术元素仍渗透在日常照片中: 博物馆内部、壁画、产品标志、精美的建筑等。

为了剔除这些影响,团队设计了两阶段过滤流程:

  1. 基于文本的过滤 —— 扫描图像标题,移除任何包含与艺术相关的关键词,如“绘画”、“素描”、“插图”、“立体主义”、“标志”等。仅此一步就移除了 4.7% 的数据。
  2. 基于图像的过滤 —— 使用 CLIP 测量与艺术概念的视觉相似度。通过人工检查不同相似度得分的样本,团队设定了一个阈值,进一步剔除类似艺术的图像,又移除了 16.7%。

被移除图像 (左) 和保留图像 (右) 的示例。过滤移除了绘画、素描和美术作品,但保留了真实世界摄影——即便带有一些装饰性特征。

过滤后,空白画布数据集包含 910 万余对纯摄影图像-文本对。人工抽查结果证实了其有效性: 在一个包含 10000 张图像的样本中,艺术内容数量从 315 例降至仅 71 例,其中大多数为雕塑或建筑,研究团队选择予以保留。

表格显示了过滤后艺术作品数量的显著下降。绘画、素描和插图几乎降至零。

一个与艺术无关的架构

数据集精选只是解决方案的一半。研究者还通过预训练组件的选择防止艺术知识泄露:

  • VAE 和 U-Net —— 在空白画布数据集上从零开始训练。
  • 文本编码器 —— 用仅在文本上训练的 BERT 替换了在图文混合数据上训练的 CLIP。BERT 知道“绘画”等概念的含义,但没有任何视觉联想。

这样构建的基础模型是真正的“艺术小白”。当要求其重现《蒙娜丽莎》或《星夜》等著名作品时,它要么输出抽象的噪点,要么给出摄影化的诠释,丝毫没有风格回忆。

Stable Diffusion 1.4 可以根据提示重现著名艺术品,但空白画布扩散模型会生成抽象或无风格特征的结果,证明其未接触过艺术作品。

教空白画布学画: 艺术风格适配器

接下来是关键——如何让一个对艺术一无所知的模型掌握绘画风格?

艺术风格适配器是一个轻量化模块,仅需在艺术家提供的少量“选择性加入”作品上进行训练 (实验中数量从 9 幅到约 50 幅不等) 。这些适配器基于 LoRA (Low-Rank Adaptation) 技术,可高效微调大型模型。

训练步骤如下:

  1. 收集风格数据 —— 少量绘画作品,并为其内容添加标题。在提示中加入特殊触发词,例如“…in the style of V* art”。
  2. 使用双损失函数微调 —— 风格损失与内容损失确保了风格的准确呈现,同时不破坏其生成照片的能力。

艺术适配器的训练流程示意图。风格样本引导模型同时匹配目标风格的内容与视觉特征。

风格损失 (Style Loss) 确保在使用风格标签提示时,生成的图像符合目标风格:

\[ \mathcal{L}_{\mathbf{S}}(\theta') = \|\epsilon_{\theta \cup \theta'}(X_t, C^*, t) - \epsilon\|^2 \]

内容损失 (Content Loss) 确保在不使用风格标签时,依然保留核心内容的忠实度:

\[ \mathcal{L}_{\mathbf{C}}(\theta') = \|\epsilon_{\theta \cup \theta'}(X_t, C, t) - \epsilon_{\theta}(X_t, C, t)\|^2 \]

最终组合为:

\[ L = L_S + w \cdot L_C \]

这意味着模型只有在明确触发时才会应用所学风格,否则将保持其自然图像生成能力。

实验与结果

基础模型性能

即便没有经过任何艺术训练,空白画布扩散模型也能生成高质量照片。在 COCO 等通用基准上,表现略低于在数亿图像上训练的模型,但在其训练领域内依然具有很强的竞争力。

性能对比: 空白画布模型与其他模型。尽管由于领域不匹配,它在 COCO 上略逊一筹,但在其擅长的领域内表现依然强劲。

艺术风格生成

在 WikiArt 上选取 17 位艺术家的作品训练适配器后,模型既可以进行基于文本提示的艺术创作,也可以对图像进行风格化处理

例如,在安德烈·德兰 (André Derain) 的野兽派风格下,空白画布模型与适配器能够生成生动且色彩鲜明的构图,与 Stable Diffusion 1.4 不相上下——尽管它此前从未见过任何一幅画。

上排: 空白画布扩散模型 + 艺术适配器;下排: Stable Diffusion 1.4 生成结果。

在文森特·梵高 (Vincent van Gogh) 的风格化实验中,该方法在平衡风格与内容方面与专用基线相当甚至更优。

梵高风格化在多个基线间的比较,包括 StyleAligned、Plug-and-Play、InstructPix2Pix 和 CycleGAN。

人类偏好测试

在 Mechanical Turk 平台进行的大规模测试中,参与者会看到三张参考风格图片,并在两个结果中选择更匹配的一个。

结果显示:

  • 在艺术生成任务中,76.2% 的参与者更偏好空白画布模型 + 适配器,相比 Stable Diffusion 1.4 (文本提示) 。
  • 当二者都基于空白画布骨干时,对比 StyleAligned,该方法获选比例为 67%。
  • 在“艺术小白”设定下,始终优于无需训练的风格迁移方法。

用户研究条形图 (左) 显示偏好比例;散点图 (右) 显示空白画布模型 + 适配器在风格与内容之间的良好平衡性。

这些结果验证了论文的核心观点:** 无需在艺术作品上进行预训练,也能实现出色的风格学习**。

数据归因洞察

模型的创作素材从何而来?

分析表明,风格线索来源于小量的艺术数据集,而内容线索则源自空白画布数据集中的照片。

例如,在毕加索风格的自助餐场景中,立体派形式来自选择性加入的艺术样本;物体的轮廓和餐桌布局则来自照片训练。

毕加索、马蒂斯和利希滕斯坦生成作品的归因示例: 艺术数据集提供风格;照片数据集提供真实世界的内容。

在马蒂斯风格的海滩酒吧中,模型复用了竹棚等自然场景的摄影素材,并依据马蒂斯的风格调整了色彩与形态。它通过学习到的艺术规则,对现实世界进行了“再绘”。

结论: 一把双刃的画笔

选择性加入的艺术框架表明,高质量的艺术图像无需大规模艺术预训练即可实现——只需一个空白画布模型和少量选择性加入的作品。

一方面,这为伦理驱动的 AI 提供了可能: 艺术家可以许可风格适配器的使用,从而确保同意权。另一方面,也带来了保护上的困难——风格能够从少量公开样本中习得,使得“选择退出”不再充分。

政策讨论需要超越训练数据收录与否,扩展到适配、归因以及合理使用等方面。否则,即便是负责任的基础模型,也可能被用极少素材微调以复制特定风格。

这项研究既是技术蓝图,也是伦理警示。它勾勒了一个生成式 AI 尊重创作同意权的未来,同时也敦促我们重新思考如何守护创造者的身份。

画布或许从空白开始——但我们选择填充的内容,将决定未来的风景。