简介

想象一下,你走进一家商店买了一个无线鼠标。几分钟后,你又拿了一个太阳能键盘。对于人类观察者来说,这其中的联系显而易见: 你很可能正在搭建一个环保且整洁的家庭办公环境。

然而,对于电子商务中传统的人工智能系统来说,建立这种联系却出奇地困难。现现有的大多数系统仅依赖文本——即产品标题和描述。当一个基于文本的模型看到“轨迹球鼠标”和“无线太阳能键盘”时,它可能会正确地将它们归类为“电子产品”,但它往往会忽略购买背后的细微意图。它无法“看”出这两件商品都是白色的、符合人体工程学的,并且是专为特定类型的用户设计的。

理解购买背后的原因——即购物意图——是电子商务的圣杯。它能带来更好的推荐 (“你买了帐篷,需要睡袋吗?”) 和更智能的搜索结果。

在这篇文章中,我们将探讨一个名为 MIND (多模态购物意图蒸馏) 的新框架。这项研究通过引入大型视觉语言模型 (LVLMs) , 超越了仅基于文本的分析。通过让 AI 能够同时“看”产品图片和“读”描述,研究人员创建了一个像人类一样理解购物行为的系统。

LLM 与 LVLM 在解读客户共购记录时的对比。

如图 1 所示,虽然标准的大型语言模型 (LLM) 可能会产生幻觉细节或给出通用的答案,但多模态模型 (LVLM) 正确地识别出鼠标和键盘都是“符合人体工程学”和“环保”的,从而推导出高质量的意图。

纯文本购物的问题

在深入探讨解决方案之前,我们需要了解现有最先进技术的局限性。

传统上,获取大规模的用户意图数据一直是一个瓶颈。意图是隐含的心理状态;顾客很少会在搜索栏中写下“我买这个是为了整理我的车库”。研究人员此前曾尝试使用基于文本的大型语言模型 (LLM) 来“蒸馏”这些意图。虽然在一定程度上有效,但这些方法主要存在两个问题:

  1. 以产品为中心的偏差: 文本模型往往过分关注产品规格 (元数据) 而非用户需求。它们生成的意图往往是“购买两个索尼产品”,而不是“搭建家庭影院”。
  2. 视觉盲区: 大量信息是通过产品图片传达的——风格、颜色搭配、材质和使用场景。文本模型完全错过了这些信息。
  3. 高成本: 为了保证质量,以前的方法严重依赖人工标注员来验证 AI 的输出,这使得大规模扩展变得昂贵。

MIND 幕后的研究人员通过提出这样一个问题来解决这些问题: 我们能否利用会“看”的 AI 来自动化发现购物意图?

MIND 框架

这篇论文的核心贡献是 MIND 框架 。 这是一个旨在从共购记录 (两件物品一起购买的记录) 中提取高质量、以人为本的购物意图的流水线。

该框架分三个不同阶段运行: 产品特征提取意图生成以人为本的角色感知过滤

MIND 框架概览,展示了提取、生成和过滤这三个步骤。

第一步: 产品特征提取

零售商提供的产品标题和描述可能很杂乱、含噪,或者纯粹是为了促销。它们通常遗漏了实际驱动购买决策的视觉细节。

为了解决这个问题,MIND 首先使用一个 LVLM (具体来说是 LLaVa) 来查看产品图片并读取标题。模型被提示去提取隐含特征,重点关注:

  • 属性: (例如,“防水”、“无线”)
  • 设计: (例如,“人体工程学”、“复古风格”)
  • 质量: (例如,“耐用”、“优质”)

这一步弥合了零售商的内容与顾客到的内容之间的差距。

第二步: 共购意图生成

一旦系统拥有了两件共购产品的丰富视觉和文本特征,它就需要找出它们之间的关系。

研究人员利用 ConceptNet 关系 (如“用于 (UsedFor) ”、“导致 (Causes) ”、“相关于 (RelatedTo) ”) 来引导 AI。LVLM 接收两件产品的图片和提取的特征,并被指令: “扮演顾客,推断这种购买背后的潜在意图。”

通过指示模型采用顾客角色,生成的意图从对物品的事实性描述转变为对用户心理状态的解释。

第三步: 以人为本的角色感知过滤

这可以说是该框架中最具创新性的部分。过去,研究人员必须雇佣人工来检查 AI 生成的意图是否有意义。MIND 使用角色感知过滤器 (Role-Aware Filter) 自动化了这一过程。

工作原理如下:

  1. 系统获取第二步生成的意图。
  2. 它将该意图连同产品图片反馈给 LVLM。
  3. 它给 AI 一个特定的提示: “想象你是一个消费者……这个意图会促使你一起购买这些产品吗?”
  4. AI 必须回答“是”或“否”,并提供理由。

这模仿了心智理论 (Theory-of-Mind) 方法,即 AI 模拟人类的决策过程。如果 AI“顾客”同意该意图对产品来说是合理的,则保留数据。否则,将其丢弃。这创建了一个无需人工标注的高质量过滤器。

创建知识库

研究人员将 MIND 应用于亚马逊评论数据集,特别关注“电子产品”和“服装、鞋类及珠宝”领域。

结果是一个包含 1,264,441 个意图的庞大多模态意图知识库

为了理解这个数据集的范围,我们可以看看它涵盖的概念的多样性。

圆形树状图显示了 MIND 数据集中上义词的分布。

图 3 展示了生成意图的语义多样性。同心圆代表概念的层级 (上义词) 。我们可以看到像“人”、“事件”、“场合”和“活动”这样的主要类别,分支成具体的细微差别,如“生日”、“徒步旅行”、“婚礼”或“学校活动”。这证明了 MIND 不仅仅是生成重复的技术数据;它捕捉到了驱动购物的人类生活事件的丰富织体。

实验验证

我们如何知道 MIND 框架真的有效?研究人员进行了广泛的评估,既邀请了人类专家,也在其他 AI 模型上测试了数据。

人工评估

研究人员聘请了人工标注员对 AI 生成的意图进行评分,指标包括合理性 (Plausibility) (是否有意义?) 和典型性 (Typicality) (这是否是购买这些物品的常见原因?) 。

  • 合理性: 94%
  • 典型性: 90%

这些分数非常高,表明 MIND 生成的意图几乎与人类写出的意图无法区分。此外, 角色感知过滤器被发现非常准确,与人类判断相比,其正确接受或拒绝意图的比例高达 82%。

与先前方法的比较

研究人员将 MIND 与 FolkScope 进行了比较,后者是先前最先进的仅依赖文本生成的方法。

堆叠条形图比较了 FolkScope 和 MIND 之间的典型性得分。

如图 5 所示,与 FolkScope (深蓝色) 相比,MIND (青色) 在几乎所有语义关系中都能持续产生具有更高典型性得分的意图。这证实了添加视觉信息并使用角色感知过滤器能产生更高质量的数据。

下游任务: IntentionQA

为了证明这些数据对训练其他 AI 模型有用,研究人员使用了 IntentionQA 基准测试。该基准测试测试 AI 的以下能力:

  1. 理解意图: 给定两件产品,猜测意图。
  2. 利用意图: 给定一件产品和一个意图,预测用户还会购买什么。

他们使用 MIND 数据微调了开源模型 (如 LLaMA 和 Mistral) 。

结果: 在 MIND 数据上训练的模型显示出显著的改进。例如,在 MIND 数据上微调的 Mistral-7B 模型在某些任务上变得与 GPT-4 具有竞争力,尽管它是一个小得多的模型。

消融研究: 每个部分都很重要吗?

团队还测试了他们框架的“精简版”,看看哪些组件在起主要作用。

  1. 多模态 vs. 单模态: 他们移除了图像,仅使用文本运行框架。性能下降了,证实了视觉线索对于理解电子商务产品至关重要。
  2. 过滤器效力: 他们比较了有无“角色感知过滤器”的模型性能。

折线图比较了 IntentionQA 上有无过滤器的准确率。

图 4 清楚地显示了过滤器的影响。在简单、中等和困难任务中,实黑线 (有过滤器) 始终优于虚红线 (无过滤器) 。这表明过滤步骤有效地去除了那些会在训练过程中混淆模型的嘈杂或低质量数据。

定性分析

查看具体示例有助于看到 MIND 带来的差异。

考虑一个案例,顾客买了一双女士短靴和一个流浪单肩包

  • 以前的方法 (FolkScope) : 可能会生成类似*“它们都是女鞋和女式手提包的一种形式”这样的意图。这在事实上是正确的,但这只是分类。这不是意图*。
  • MIND: 生成*“消费者正在为他们的日常活动寻找时尚实用的组合。”*

在另一个涉及海盗假发靴套的例子中:

  • 以前的方法: “它们属于成人服装类别。”
  • MIND: “这个人想要制作一套完整且逼真的海盗服装。”

展示不同关系下生成的意图的示例表格。

图 6 提供了更多关于 MIND 如何生成各种关系 (如“象征 (SymbolOf) ”、“用于 (UsedFor) ”和“是一种 (IsA) ”) 下的意图的示例。无论是识别出鞋子和玩具都“满足幼儿的需求”,还是服装配件“象征海盗主题”,模型都捕捉到了购买背后的功能性情感性原因。

结论与启示

MIND 框架代表了机器理解人类购物行为方式的重大进步。通过整合视觉感知语言理解 , MIND 摆脱了枯燥、以产品为中心的元数据,转向对我们要买什么以及为什么要买的丰富、以人为本的理解。

这项研究的主要收获包括:

  1. 视觉至关重要: 不看产品就无法完全理解购买行为。图片包含了文本描述所遗漏的关于风格、用途和兼容性的线索。
  2. AI 智能体作为质量控制: “角色感知过滤器”表明我们可以使用 LLM 来评估其他 LLM,从而显著降低构建大型数据集所需的成本和时间。
  3. 更好的电商体验: MIND 生成的数据可用于训练更智能的搜索引擎和推荐系统。与其只是向你展示“其他电子产品”,一个基于此数据训练的系统可能会理解你正在“搭建直播设备”,并向你推荐麦克风和环形灯。

随着 AI 的不断发展,像 MIND 这样能够弥合不同模态 (视觉和文本) 并模拟人类推理 (心智理论) 的框架,对于创建真正理解我们的数字服务将至关重要。