引言
在日新月异的生成式 AI 世界中,我们已经习惯了单一的流向: 文本到图像 (Text-to-Image, T2I) 。 你输入“一座水晶构成的未来城市”,像 Stable Diffusion 这样的扩散模型就会为你绘制出来。这些模型非常强大,因为它们摄取了海量数据集,有效地编码了大量的“世界知识”。它们知道城市是什么样子的,知道水晶是什么样子的,并且知道如何将它们结合起来。
但是,如果我们反转这个流程会发生什么?
想象一下,向 AI 展示一张复杂场景的单张照片——比如,一个放在黑色碗里的陶瓷小雕像。AI 能否看着这张图像,不仅仅是复制它,而是真正理解它?它能否识别出里面有一个“小雕像”和一个“碗”?它能否更进一步,识别出小雕像是“青铜”制成的,而碗是“陶瓷”的?它能否将对象的概念与其形状、颜色或材质区分开来?
这就是内在概念提取 (Intrinsic Concept Extraction) 的挑战,这是一个众所周知的难题。虽然模型可以生成图像,但逆转该过程以从单张图像中学习结构化概念充满了歧义。大多数现有方法都难以将物体与背景分离,或将物体的形状与其纹理纠缠分开。
ICE 应运而生,这是研究人员提出的一个新颖框架,全称为 Intrinsic Concept Extraction (内在概念提取) 。

如上图所示,ICE 做了一件了不起的事情: 它利用预训练的 T2I 模型系统地发现、定位和分解单张图像中的概念,而无需人工监督。它不仅能看到像素;它还能看到实例、形状、材质和颜色的层次结构。
在这篇文章中,我们将深入探讨 ICE 框架。我们将探索它如何自动化发现对象,以及它如何使用巧妙的“分而治之”策略来自我学习物体是什么与物体由什么构成之间的区别。
背景: 视觉概念的歧义性
要理解 ICE 为何是一项如此重要的贡献,我们首先需要了解以前方法的局限性。
扩散模型通过迭代去除噪声来生成图像。在数学上,它们被训练来预测添加到图像 \(x\) 中的噪声 \(\epsilon\)。标准的训练目标如下所示:

在这里,模型 \(\epsilon_\theta\) 在文本提示词 \(p\) 的指导下尝试对图像 \(x_t\) 进行去噪。
研究人员很快意识到这个过程可以反转。像 Textual Inversion (文本反转) 和 DreamBooth 这样的技术允许用户通过基于少量图像优化新的词嵌入来“教”模型一个新概念 (如特定的狗或独特的玩具) 。
然而,这些方法有很大的局限性:
- 数据要求: 它们通常需要同一对象的图像才能有效学习。
- 人工输入: 它们通常依赖用户提供的掩膜 (Mask) 或标题来知道该关注什么。
- 纠缠: 它们将概念作为一个整体的“团块”来学习。如果你教模型一辆“红色汽车”,它通常很难将“红色”与“汽车”分开。它创造了一个形状、颜色和纹理融合在一起的单一概念。
这种融合产生了歧义 。 如果模型看到一个绿色的外星人玩具,它学到的新 Token 代表的是“外星人”、“绿色”、“塑料”还是“玩具”?如果没有结构化的方法,模型就像一个死记硬背答案却不理解底层逻辑的学生。
ICE 框架: 一种结构化方法
ICE 背后的研究人员提出了一种从非结构化记忆向结构化概念学习的转变。他们的目标是获取单张图像并将其分解为一个层次结构。

图 2 可视化了这个层次结构。输入 (Target) 不仅仅是一样东西。它是一个对象级概念 (Object-level concept) (外星人形状) ,由内在概念 (Intrinsic concepts) (洋娃娃形状、皮革纹理、绿色皮肤、半透明材质) 组成。
为了自动实现这一点,ICE 分两个明显的阶段运行:
- 第一阶段: 自动概念定位。 模型观察图像,找出不同的物体在哪里以及它们可能叫什么,并自动生成掩膜。
- 第二阶段: 结构化概念学习。 模型获取这些掩蔽区域并为其学习特定的 Token,严格地将“物体”与其“属性” (材质/颜色) 分开。

让我们分解这些阶段。
第一阶段: 自动概念定位
无监督学习的第一个障碍是弄清楚物体在哪里。如果我们没有人类在“碗”或“生物”周围画框,AI 必须自己找到它们。
ICE 通过利用隐藏在文本到图像模型中的“世界知识”来解决这个问题。它结合了 CLIP (一种连接文本和图像的模型) 和扩散模型本身的注意力机制。

第 1 步: 基于文本的概念检索
给定一张未标记的图像 \(\mathbf{x}\),系统首先问: “这张图片里有什么?” 它使用一个由 CLIP 驱动的图像到文本检索器 (Image-to-Text Retriever, \(\mathcal{T}\)) 从模型的词汇表中找到最相关的词。

例如,如果图像包含一个奇怪的生物,CLIP 可能会返回“creature (生物) ”或“toy (玩具) ”作为最主要的概念 \(c_i\)。
第 2 步: 掩膜生成
一旦模型有了“creature”这个词,它就会问扩散模型: “这个生物在哪里?” 它使用一个零样本分割器 (Zero-Shot Segmentor, \(\mathcal{S}\)) 。 该组件查看扩散模型内部的交叉注意力图 (Cross-attention maps) ——基本上,是查看当模型想到“creature”这个词时“关注”哪些像素。这无需任何额外训练即可生成分割掩膜 \(\mathbf{m}_i\)。

第 3 步: 迭代循环
这是巧妙的部分。一旦“生物”被识别并被掩盖,ICE 实际上会从图像中“擦除”它 (在数学上将其掩盖掉) 。然后它会对剩余的像素重复该过程。
- 迭代 1: 发现“生物”。掩盖它。
- 迭代 2: 查看背景。发现“碗”。掩盖它。
- 迭代 3: 查看剩下的部分。发现“桌子”。掩盖它。
这个循环持续进行,直到图像为空。结果是场景中每个对象的一组掩膜和文本标签,完全自动获得。
第二阶段: 结构化概念学习
现在 ICE 知道了物体在哪里 (掩膜) 以及大概是什么 (文本标签) ,它需要深入学习它们。仅仅知道它是一个“生物”是不够的;ICE 想要学习这个生物特定的视觉特征,并将其分解为原子部分。
这一阶段分为两个步骤。

第一步: 学习对象级概念
在这个阶段,目标是区分一般类别和特定实例 。 对于第一阶段发现的每个对象,ICE 创建两个新的可学习 Token (嵌入) :
- 概念特定 Token (Concept-specific token, \(c_i^{\text{conspec}}\)) : 代表一般类别 (例如,“雕像”) 。
- 实例特定 Token (Instance-specific token, \(c_i^{\text{inspec}}\)) : 代表这个独特的对象 (例如,“这个特定的奇怪外星人雕像”) 。
为了学习这些,作者使用了三元组损失 (Triplet Loss) 。
三元组损失背后的直觉
想象你试图描述一个“青苹果”。
- 锚点 (Anchor) : 单词“苹果”。
- 正样本 (Positive) : “水果”或“苹果属性”的一般概念。
- 负样本 (Negative) : 特定的“青色”或这个特定苹果上独特的凹痕。
我们希望概念特定 Token 非常接近一般的单词锚点 (例如“雕像”) ,而我们希望实例特定 Token 捕捉其他所有内容 (使其独特的细节) 。
数学公式强制文本编码器 \(\mathcal{E}\) 将概念特定 Token 拉近锚点词,同时将实例特定 Token 推得更远。

这确保了 \(c_i^{\text{conspec}}\) 忠实于一般类别,有效地迫使另一个 Token \(c_i^{\text{inspec}}\) 吸收独特的视觉细节。
第二步: 学习内在概念
现在进行更细粒度的分解。我们有了对象,但它的材质和颜色呢?
ICE 引入了内在 Token (Intrinsic Tokens, \(c_j^{\text{intrinsic}}\)) 。 模型使用特定的提示词模板 (锚点) ,如 “a [material] concept (一个[材质]概念) ” 或 “a [colour] concept (一个[颜色]概念) ”。
它使用了另一个三元组损失,但这次的目标是将不同的内在属性彼此分离开来。

在这里,损失函数确保“颜色”的 Token 接近颜色的概念,而远离“材质”的 Token。这可以防止模型混淆物体的金色纹理 (材质) 与其黄色色调 (颜色) ,或混淆其金属属性与物体形状。
总训练目标
最终的训练涉及平衡三件事:
- 重建损失 (\(\mathcal{L}_{\text{recon}}\)) : 模型还能正确生成图像吗?
- 注意力损失 (\(\mathcal{L}_{\text{att}}\)) : 模型是否关注该概念对应的正确掩膜区域?
- 三元组损失 (\(\mathcal{L}_{\text{triplet}}\)) : 概念和属性在嵌入空间中是否正确分离?

注意力损失专门使用 Wasserstein 距离来将模型的内部注意力图 (\(\mathbf{A}_i\)) 与第一阶段生成的掩膜 (\(\mathbf{m}_i\)) 对齐。

实验与结果
理论听起来很完善,但实际表现如何?作者使用无监督概念提取 (UCE) 基准,将 ICE 与 ConceptExpress 和 Break-A-Scene 等最先进的方法进行了比较。
定性结果: ICE 看到了什么?
视觉结果可能是该框架最有力的论据。

看看上面图 6 中的各行。
- 第 1 行 (半身像) : ICE 识别出“Bust (半身像) ” (雕塑) 。然后对其进行分解。它看到了类别 (雕塑) 、材质 (青铜/金属) 和颜色 (蓝色/铜绿) 。
- 第 3 行 (甲壳虫汽车) : 它看到一辆粉红色的车。它提取出“Beetle (甲壳虫) ” (实例) 、“Car (汽车) ” (类别) 、“Plastic/Toy (塑料/玩具) ” (材质) 和“Pink (粉色) ” (颜色) 。
至关重要的是,请看第二列中的掩膜 。 这些是自动生成的。ICE 成功地将汽车从盒子中分离出来,将半身像从背景中分离出来。
定量比较
研究人员使用诸如 SIM (相似度) ——学习到的概念与原始图像的匹配程度——和 ACC (准确度) ——提取出的概念被分类的准确程度——等指标来衡量性能。

如表 2 所示,ICE 在各项指标上都优于以前的方法。
- SIM\(^I\) (身份相似度) : 0.738 vs ConceptExpress 的 0.689。这意味着 ICE 在捕捉对象真实身份方面要好得多。
- SIM\(^C\) (组合相似度) : 0.822 vs 0.784。这意味着 ICE 更擅长正确地组合场景。
更好的分割
ICE 的一个显著特点是,其第一阶段 (自动概念定位) 实际上是比竞争对手所用方法更好的分割器。

在图 7 中,看看“Concept Express”一列。它经常产生空的黑框 (“n.a.”) ,因为它未能定位对象。ICE (标记为“Ours”) 始终能找到女人、狗、佛像和小雕像。
定量数据也支持了这一点。在表 5 (下表) 中,ICE 达到了 0.635 的平均交并比 (mIoU) ,而 ConceptExpress 仅为 0.483 。 这是分割精度上的巨大飞跃。

应用: 组合生成
为什么这很重要?除了“理解”之外,ICE 还提供了强大的编辑能力。因为 ICE 将形状与材质和颜色分离开来,用户可以混合和匹配这些属性。

在图 C 中,注意第一行。ICE 提取了小雕像的概念 (对象 A) 。
- 它可以生成“A 的对象 + A 的材质 + 黑色” (仅改变颜色) 。
- 它可以生成“一个杯子 + A 的颜色” (将颜色转移到新物体上) 。
- 在最后一行,它取一个深色马克杯 (对象 B) 并生成“一个杯子 + B 的材质 + B 的颜色”,有效地将原始马克杯的纹理和风格转移到一个通用的杯子形状上。
这种程度的解纠缠——能够从物体上剥离“纹理”并将其绘制到其他物体上——是概念学习的圣杯。
结论
ICE 框架代表了无监督计算机视觉向前迈出的重要一步。通过利用扩散模型固有的“世界知识”,它超越了简单的图像生成,迈向了真正的图像理解。
其两阶段方法为解决歧义问题提供了一个强大的方案:
- 第一阶段自动化了寻找和掩盖物体的繁琐任务。
- 第二阶段迫使模型结构化其理解,通过三元组损失严格分离材质和颜色等不同属性。
对于学生和研究人员来说,ICE 证明了扩散模型不仅仅是“艺术生成器”。它们是视觉概念的密集存储库。有了正确的框架,我们就可以解锁该存储库,将这些模型转化为强大的工具,从我们周围混乱的世界中提取和组织视觉信息。
随着我们的前进,像 ICE 这样的技术可能会成为高级照片编辑、3D 资产创建和语义场景理解的基础,弥合像素排列方式与其具体含义之间的鸿沟。
](https://deep-paper.org/en/paper/2503.19902/images/cover.png)