引言
“书籍是人类进步的阶梯。”
当你读到这句话时,你不会想象一个由精装小说堆砌而成的木梯靠在墙上。你会想象出提升、进步的概念,或者是一个人站在书堆上伸手去够灯泡。你的大脑可以毫不费力地处理这个隐喻 。 你理解“书籍” (本体) 与“阶梯” (喻体) 有着共同的特质: 它们都能让你登得更高。
然而,如果你把同样的句子输入到像 Stable Diffusion 或 DALL-E 这样最先进的文本生成图像模型中,你很可能会得到一个怪诞的、超现实主义的噩梦——由纸张做成的真正的梯子。
这种现象被称为过度字面化 (Over-literalization) 。 虽然大型语言模型 (LLM) 和扩散模型在生成逼真图像方面取得了巨大进步,但在面对修辞语言时,它们却步履维艰。它们看得到单词,却抓不住含义。它们画出了提到的物体,却无法捕捉它们之间的关系。
今天,我们将深入探讨一篇引人入胜的研究论文,题为 “Grounding-based Metaphor Binding With Conceptual Elaboration For Figurative Language Illustration” (基于 Grounding 的隐喻绑定与概念阐述用于修辞语言插图) 。研究人员提出了一个新的框架,名为 GOME (GrOunding-based MEtaphor Binding,基于 Grounding 的隐喻绑定) 。这种方法教 AI 少一点像相机那样思考,多一点像诗人那样思考,确保当我们要求画一幅“银装素裹的街道 (a blanket of snow,直译为雪的毯子) ”时,我们得到的是一条积雪的街道,而不是一条铺在路上的床上用品。

如上图 1 所示,差异是显著的。在左侧,标准模型听到“blanket of snow (雪的毯子) ”,就真的在街上放了一条毯子。在右侧,GOME 方法理解了 Grounding (基础/喻意) ——即“覆盖”或“弥漫”的共同属性——并渲染了一条厚厚积雪的街道。
核心问题: 为什么隐喻会让 AI 崩溃
要理解解决方案,我们首先需要剖析问题。一个隐喻通常由三部分组成:
- Tenor (本体) : 被描述的主体 (例如,“雪”) 。
- Vehicle (喻体) : 用于比喻的物体 (例如,“毯子”) 。
- Grounding (喻意/基础) : 两者之间共有的潜在特质 (例如,“弥漫”、“包围”或“温暖”) 。
目前的图像生成流程通常涉及用户输入提示词,编码器将文本转换为数字 (向量) ,然后扩散模型根据这些数字将噪声转换为图像。
问题在于标准模型是基于字面描述进行训练的。如果训练数据包含“鲨鱼”这个词,它几乎总是与一条长着锋利牙齿的鱼有关。如果你说“我的律师是条鲨鱼 (My lawyer is a shark) ”,模型的统计概率会创造出一条穿西装的鱼。它无法提取喻意——即律师是咄咄逼人或凶猛的——而是将喻体 (动物) 的视觉属性绑定到了图像上。
这导致了两个主要的技术故障:
- 过度字面化 (Over-literalization) : 对喻体进行了过度的细节描绘 (画了一条真正的鲨鱼) 。
- 属性绑定失败 (Failed Attribute Binding) : 模型难以将抽象属性 (咄咄逼人) 附加到正确的对象 (律师) 上。
介绍 GOME: 两步走的变革
GOME 背后的研究人员提出了一种解决方案,该方案干预了生成过程的两个不同阶段: 阐述阶段 (使用 LLM 重写提示词) 和可视化阶段 (在图像生成过程中使用一种称为“隐喻绑定”的数学技巧) 。

图 3 展示了宏观路线图。首先,隐喻通过 LLM 被扩展为描述性提示词。其次,对该提示词进行句法分析。最后,扩散模型生成图像,并由特殊的“绑定”损失函数引导,使视觉注意力与语言含义保持一致。
让我们一步步来拆解。
第一步: 基于思维链的视觉阐述
你不能简单地要求扩散模型“画一个隐喻”。你需要将隐喻转化为视觉场景,表达隐喻的感觉,而不必画出字面上的物体。
作者使用了 GPT-4 并采用了特定的思维链 (Chain-of-Thought, CoT) 提示策略。他们将 LLM 视为修辞专家。系统角色被指令识别本体、喻体和 Grounding (喻意) ,然后生成“视觉阐述”。

看看图 2 中的例子。
- 输入: “My lawyer is a shark.” (我的律师是条鲨鱼。)
- 分析:
- 需包含的本体: 律师。
- 需排除的喻体: 鲨鱼。
- Grounding (喻意) : 咄咄逼人且凶猛。
- 视觉阐述: “A stern lawyer, documents scattered fiercely, arguing intensely in a courtroom.” (一位严厉的律师,文件被猛烈地散落,在法庭上激烈地辩论。)
注意到发生了什么吗?“鲨鱼”这个词消失了。它被转化为“猛烈地”和“严厉”。这有效地避免了扩散模型画出一条鱼的风险。LLM 充当了翻译器,将抽象的修辞语言转化为扩散模型实际可以处理的具体、字面的场景描述。
第二步: 跨域语言绑定
第二步才是真正的创新所在。即使有了好的描述,扩散模型有时也会搞混属性。如果提示词是“一位严厉的律师伴随着散落的文件”,模型可能会让文件看起来严厉,或者让律师看起来散落。这就是绑定问题 。
在隐喻中,这更加困难,因为属性来自不同的领域 (“鲨鱼”的源域) ,并且需要应用到目标域 (“律师”) 。
为了解决这个问题,研究人员开发了推理时隐喻绑定 (Inference-Time Metaphor Binding) 。 他们利用了扩散模型的交叉注意力图 (Cross-Attention maps) 。
什么是注意力图?
在扩散模型 (特别是 U-Net 架构) 内部,有一些层负责观察文本提示词。对于图像中的每个像素 (或潜在块) ,模型都会问: “我现在应该多关注‘律师’这个词?多关注‘凶猛’这个词?”这为每个单词创建了一个二维地图。
如果模型工作正常,“凶猛”的注意力图应该与“律师”的注意力图高度重叠。
句法解析器
首先,GOME 分析增强后的提示词,找到物体及其属性的配对。

如公式 1 所示,系统使用依赖解析器创建一个集合 \(S_{MB}\),其中包含物体 (\(o\)) 和属性 (\(a\)) 的配对。例如: (lawyer, fierce)。
损失函数
现在,研究人员引入了一种方法,强制模型在图像生成过程中尊重这些配对。他们定义了一个“损失函数”——一种用数学方式告诉模型“你做错了,改过来”的方法。
他们使用了两种类型的损失:
1. 正向损失 (吸引) : 我们要让物体 (\(A_o\)) 和属性 (\(A_a\)) 的注意力图看起来一样。

上面的公式计算了两张图之间的距离 (\(M_{dis}\)) 。如果两张图不同,损失就很高。为了计算这个“距离”,他们使用了 Kullback-Leibler (KL) 散度 , 这是衡量两个概率分布差异的标准方法。

简单来说: 这些公式强制模型在关注“凶猛”这个词时,所关注的空间区域与关注“律师”时完全一致。
2. 负向损失 (排斥) : 我们还要确保不相关的词不会重叠。如果提示词中还提到了“桌子”,我们不希望“凶猛”这种特质渗透到桌子上。

这个负向损失将物体-属性对的注意力图从不相关词汇 (\(U_v\)) 的注意力图中推开。
3. 总损失: 最终的目标函数结合了这两者,平衡了绑定正确属性和分离错误属性的需求。

可视化绑定过程
这个数学过程真的能改变图像生成吗?是的。我们可以看到它在注意力图中随时间发生的变化。

在图 4 中,看看 “With Binding” (有绑定,左侧) 与 “Without Binding” (无绑定,右侧) 两栏。
- 左侧 (GOME) : 随着步骤的进行 (Step=T) ,“空荡的街道”、“昏暗的灯光”和“弥漫的雪”的注意力图变得清晰且集中。绿色对勾表示绑定成功。
- 右侧 (标准) : 注意力图杂乱无章。模型不太确定哪些像素对应“弥漫”,导致生成的图像较弱。
通过在生成步骤 (推理时间) 期间优化这些注意力图,GOME 引导噪声生成语言上准确的图像。
实验与结果
理论听起来很扎实,但效果如何?研究人员将 GOME 与标准 Stable Diffusion (SD)、DALL-E 2 以及其他视觉隐喻系统 (如 HAIVM) 进行了对比测试。
定性比较: “棉花糖”测试
最有力的证据是视觉上的。让我们看看图 6 中的比较。
隐喻: “After 10 minutes your head becomes like spinning cotton candy.” (10分钟后,你的脑袋变得像旋转的棉花糖。)
- 含义: 困惑,不知所措。
- Stable Diffusion: 画了一个长着蓝色和粉色棉花糖头发的女人。 (过度字面化) 。
- DALL-E 2: 画了一个戴假发的女孩。
- HAIVM: 画了一个带有思想气泡的卡通人物。
- GOME (Ours): 画了一个人抱着头,周围文件满天飞,表现出沮丧。

GOME 是唯一捕捉到 Grounding (困惑) 而不是 Vehicle (糖) 的模型。同样,对于“他在战场上是一头狮子”,GOME 画了一个勇敢作战的士兵,而 Stable Diffusion 在大草原上画了一头真正的狮子。
定量评估
研究人员还进行了严格的数据评估。
1. 理解能力 (Fig-QA): 他们使用 Fig-QA 数据集评估了模型对修辞语言的“理解”程度。

图 5 显示,GOME (粉色虚线) 在社交、文化和视觉隐喻方面始终优于其他模型。它明显优于 GPT-2,并与专用模型具有竞争力。

表 1 证实了这一数值优势。GOME 在零样本和监督设置下的准确率均高于基线。
2. 检索任务: 他们还进行了“检索”测试。他们使用 GOME 生成图像,然后使用视觉语言模型 (BLIP) 看它是否能将图像匹配回原始隐喻。

表 2 揭示了一个有趣的细微差别。GOME 在图像到隐喻检索 (IR) 方面优于 GPT-3.5 和其他基线。有趣的是,人类专家在反向任务 (从图像中寻找隐喻) 上仍然略胜一筹,这可能是因为人类对视觉细节极其挑剔。然而,GOME 在 Grounding Retrieval (喻意检索) 方面占据主导地位,这意味着它生成的图像在传达隐喻的潜在含义方面比任何其他自动化方法都要好得多。
结论与意义
GOME 论文代表了多模态 AI 向前迈出的重要一步。它强调了当前生成模型的一个关键局限性: 它们擅长处理名词,但拙于处理细微差别。
通过将问题分解为概念阐述 (使用 LLM 提取意义) 和语言绑定 (使用数学强制注意力) ,GOME 有效地教会了模型忽略单词的字面定义,转而关注其隐喻意图。
这不仅限于制作漂亮的诗歌配图,其影响广泛涉及:
- 广告: 为产品生成创造性的视觉隐喻。
- 教育: 为学生可视化抽象概念。
- AI 对齐: 确保 AI 以我们预期的文化和修辞深度来解释人类语言,而不是机器人的、字面的表面解读。
下次当你说你“drowning in work (淹没在工作中) ”时,希望未来的 AI 不会把你画在游泳池里,而是借助像 GOME 这样的技术,可视化出你任务的巨大压力。
](https://deep-paper.org/en/paper/file-3127/images/cover.png)