引言

想象一下,你登录了一个电影流媒体平台。你非常喜欢冒险电影——那种肾上腺素飙升的感觉、广阔的风景和英雄的旅程。而你的朋友则喜欢动画片——鲜艳的色彩、异想天开的角色和夸张的表情。

现在,想象一下你们俩都看到了同一部新电影的推荐。在传统系统中,你们看到的会是完全相同的海报。但是,如果海报能根据的具体口味发生变化呢?你看到的是一张强调动作场面的坚毅、高对比度海报;而你的朋友看到的是一张强调角色设计的生动、风格化版本。

这就是个性化生成 (Personalized Generation) 的承诺。虽然推荐系统在发现你可能喜欢哪些项目方面表现出色,但它们通常以静态的、“一刀切”的形式展示这些项目。

在这篇文章中,我们将深入探讨一个名为 I-AM-G (兴趣增强多模态生成器,Interest Augmented Multimodal Generator) 的新框架。这项研究提出了一种弥合用户历史记录与生成式 AI 之间鸿沟的新方法,能够创建在数学和视觉上都与用户独特兴趣相一致的项目表示 (如海报或服装设计) 。

图 1: I-AM-G 的示例说明。

如上图的概念所示,系统接收一个目标项目 (如电影《风中奇缘》) ,并根据用户兴趣标签 (如“角色”或“冒险”) 对其视觉表现形式进行变形,从而产生截然不同的视觉输出。

问题所在: 偏好模糊性与语义鸿沟

为什么我们还没有解决这个问题?我们拥有像 Stable Diffusion 这样强大的图像生成器,也有强大的推荐算法。为什么不能直接把它们结合起来?

研究人员指出了两个主要障碍:

  1. 偏好模糊性 (Preference Ambiguity) : 用户通常不善于描述他们想要什么。你可能知道自己喜欢电影《速度与激情》,但你能准确表达出究竟是哪些视觉元素 (调色、构图、光照) 吸引了你吗?大概不能。这使得给生成器一个简单的文本提示词变得很困难。
  2. 语义相关性缺失 (Semantic Correlation Ignorance) : 即使我们知道用户喜欢“可爱”的东西,“可爱”这个词在恐怖电影海报和夏日连衣裙的语境中意味着完全不同的东西。标准的生成器并不能天生理解如何将用户的过去互动历史映射到项目的视觉语义上。

解决方案: I-AM-G 框架

为了解决这个问题,作者提出了一个不仅仅关注当前项目,而是回顾用户历史以“重写”生成过程的管道。

该框架建立在一个名为 重写与检索 (Rewrite and Retrieve) 的范式之上。

图 2: I-AM-G 的完整流程。

如上图所示,该架构分为三个主要阶段:

  1. 兴趣重写 (Interest Rewrite) : 使用大型语言模型 (LLM) 提取用户兴趣并将其总结为文本标签。
  2. 兴趣检索注意力 (IRA) : 搜索数据库中视觉上与这些兴趣匹配的项目,并将它们融合到生成过程中。
  3. 生成 (Generation) : 使用扩散模型创建最终图像。

让我们一步步来拆解这些步骤。

第一步: 兴趣重写

由于用户并不总是能清晰表达他们的偏好,模型需要推断这些偏好。系统会查看用户过去与之互动的项目 (历史交互) 。

它使用 视觉语言模型 (VLM) 来观察过去项目的图片,并使用 LLM 来阅读它们的描述。这两个模型都会生成“标签”。

标签提取公式

这里,\(p_{I,\phi}\) 和 \(p_{T,\phi}\) 是给 AI 的提示词,用于提取相关的关键词 (如“复古”、“霓虹”、“极简主义”) 。

然后,系统将这些标签结合起来,为历史记录中的每个项目创建一个综合档案:

标签联合公式

对于目标项目 (我们想要生成的那个) ,系统会查看用户最近的 \(k\) 次交互。它会统计历史记录中出现频率最高的标签,以确定用户的主要兴趣。

标签计数公式

一旦确定了热门标签,系统就会重写新项目的文本提示词。原本只是“一张《风中奇缘》的电影海报”,现在变成了类似这样:

“这张电影海报关于《风中奇缘》,可能与冒险、风景和鲜艳色彩有关。”

这种“兴趣重写”弥合了项目的固有属性与用户特定口味之间的差距。

第二步: 兴趣检索注意力 (IRA)

文本提示词虽然强大,但会丢失很多细微差别。“快乐”这个词很模糊,但一个“快乐”场景的图片却很具体。为了给生成器提供更好的指导,I-AM-G 使用了一种检索机制。

首先,系统使用 CLIP (一种连接文本和图像的模型) 将所有项目的文本和图像编码到潜在空间中:

CLIP 嵌入公式

然后它在项目池中进行搜索。

  1. 文本检索: 找到描述与我们在第一步中创建的重写后提示词相似的现有项目。
  2. 图像检索: 找到视觉上与目标项目相似的现有图像。

相似度通过余弦相似度计算:

余弦相似度公式

基于此数学计算,系统检索出前 \(K\) 个最相关的文本和图像嵌入 (\(\Phi_i\) 和 \(\Psi_i\)) :

文本检索公式 图像检索公式

注意力机制

现在系统拥有了一组代表用户喜好的“参考”嵌入。它使用注意力机制将这些参考融合到生成过程中。

对于文本,它利用检索到的文本嵌入来优化重写后的提示词:

文本注意力公式

对于图像,它以跨模态的方式融合检索到的视觉特征:

图像注意力公式

这一步实际上是在告诉模型: “看看这些符合用户氛围的其他海报/服装。以它们的风格作为参考。”

第三步: 生成器

生成的核心是一个配备了 IP-AdapterStable Diffusion 模型。IP-Adapter 至关重要,因为它允许扩散模型在接受文本提示词的同时接受图像提示词 (即检索到的视觉特征) 。

生成器接收三个输入:

  1. 重写后的文本标签 (\(T^*\)) 。
  2. 原始项目的图像前景 (以保持主体一致) 。
  3. 来自 IRA 模块的融合兴趣嵌入 (\(\tilde{z}\)) 。

噪声预测过程 (扩散模型学习绘图的核心) 由这些输入指导:

噪声预测公式

在神经网络内部 (具体是在 U-Net 中) ,注意力层被修改以权衡这些输入。模型会平衡文本重写的重要性 (\(\lambda_1\)) 和视觉兴趣检索的重要性 (\(\lambda_2\)) :

U-Net 注意力公式

最后,模型使用标准的均方误差 (MSE) 损失进行训练,比较生成的噪声与实际噪声,确保图像解析为高质量且相关的内容。

损失函数公式

实验与结果

研究人员在三个不同的数据集上测试了 I-AM-G:

  • MovieLens: 生成电影海报。
  • MIND: 生成新闻缩略图。
  • POG: 生成时尚/服装图像。

他们将自己的模型与 OpenjourneyDreamBooth 等标准基线进行了比较。

视觉表现

视觉效果令人印象深刻。以下是不同数据集上的生成结果集锦。

服装、电影海报和新闻的个性化生成示例。

看看 电影海报 (上图中的表 4) 。

  • 第 1 行 (大象) : 原图是一张标准照片。“卡通”版本将其变成了充满活力的动画风格。“恐怖”版本则压暗了灯光,增添了不祥的氛围。
  • 第 2 行 (潜艇) : “冒险”版本使其看起来像一部公海史诗,而“恐怖”版本则强调了深海的幽闭恐惧感。

表 3 (服装) 中,注意同一件基础单品 (如绿色卫衣) 是如何变形的。“酷”版本添加了前卫的图形,而“简约”版本则简化了设计。

定量评估

但是人们真的更喜欢这些吗?研究人员进行了人类研究,参与者对图像进行了排名。

表 1: 人类评估结果的平均得分。

在上表中, 分数越低越好 (排名第一比排名第四好) 。I-AM-G 在所有三个数据集上均取得了一致的最佳 (最低) 分数,优于 Openjourney 和 DreamBooth。

他们还使用 GPT-4o 作为评判者,向其提供用户历史记录并要求其对结果进行排名。

表 2: ChatGPT 4o 评估的平均排名。

AI 的评估与人类偏好高度一致,进一步验证了该方法。

与基线的比较

为什么 I-AM-G 会胜出?让我们看一个直接的比较。

表 9: 不同模型生成结果的比较。

在上图 (第 1 行) 中,观察那只大象:

  • Openjourney 创建了一个非常风格化、几乎抽象的图像,失去了原始电影的语义。
  • DreamBooth 经常使图像太暗或引入伪影 (奇怪的文字叠加) 。
  • I-AM-G 保持了主体 (大象和背景) ,但成功地转变了风格以匹配“冒险”偏好,且没有破坏图像。

消融与分析

研究人员还测试了“关闭”系统的不同部分,看看什么最重要。

表 7: I-AM-G 核心组件的消融研究。

  • w/o Interest Rewrite (无兴趣重写) : 移除标签重写导致质量下降最大。这证实了在文本提示词中明确说明用户兴趣至关重要。
  • w/o IRA (无 IRA) : 移除检索机制也会损害性能,证明仅仅拥有文本是不够的——模型需要来自项目池的视觉参考才能生成高保真度的结果。

控制个性化

I-AM-G 的一个有趣方面是能够使用超参数 \(\lambda_1\) (文本重写强度) 和 \(\lambda_2\) (视觉检索强度) 来调整个性化的“强度”。

表 8: lambda 参数的案例研究

第 1 行 中,随着 \(\lambda_2\) (视觉检索) 的增加,连衣裙从简单的黑色连衣裙转变为具有高对比度白色装饰的连衣裙,匹配了用户对“酷”风格的兴趣。然而,如果将参数调得太高 (例如 0.5 或 1.0) ,图像可能会变得扭曲或偏离原始项目太远。

这种平衡在使用的标签数量 (\(H\)) 中也可以看到。

图 3: 最大使用标签数 H 与 SSIM 之间的关系。

上图显示存在一个“最佳点” (大约 5 到 8 个标签) 。标签太少,个性化太弱。标签太多,提示词会变得嘈杂,混淆生成器并降低与原始项目的结构相似性 (SSIM) 。

结论

I-AM-G 框架代表了个性化媒体向前迈出的重要一步。通过结合大型语言模型的语义理解与扩散模型的视觉创造力,它提供了一种摆脱当前推荐系统“千篇一律”世界的方法。

关键要点:

  • 重写 (Rewrite) : 明确提取用户兴趣标签有助于模型理解要生成什么
  • 检索 (Retrieve) : 查找相似项目提供了文本无法传达的视觉“氛围”。
  • 结果 (Result) : 一个能够将普通电影海报或服装根据你的特定审美偏好进行量身定制的系统。

尽管该系统仍面临挑战——例如检索的计算成本以及生成细节中偶尔出现的“幻觉” (如海报上的文字) ——但它为电子商务和娱乐的未来开辟了令人兴奋的可能性。很快,互联网对每个人来说可能都会看起来有点不同,因为它将根据我们的身份和喜好进行独特的定制。