你是否曾在线搜索过“露营炉”,将其加入购物车,然后就被铺天盖地的推荐淹没——而且全是……更多的露营炉?
虽然现代电商推荐系统非常强大,但它们往往在根本上误解了用户购物的原因。它们擅长识别产品相似性 (“你喜欢这个炉子,这是另一个炉子”) 或连带购买模式 (“买了这炉子的人也买了这罐燃料”) 。然而,它们难以捕捉更广泛的用户意图 (User Intent) 。
如果用户买了一个露营炉,他们的意图不一定是“我想收集炉子”。他们的意图很可能是“我要去冬日露营”。如果系统能理解这种高层意图,它就不会只推荐燃料,而可能会推荐一件保暖夹克、一种特定类型的睡袋或脱水食品。
这正是研究论文 《A Usage-centric Take on Intent Understanding in E-Commerce》 (电商意图理解的以用途为中心视角) 所解决的核心问题。研究人员认为,为了真正服务客户,我们需要从以产品为中心的模型转向以用途为中心 (usage-centric) 的模型。在这篇文章中,我们将剖析他们的新颖框架,分析他们在当前最先进系统中发现的弱点,并探索他们用于衡量意图理解的新基准。
当前意图理解存在的问题
在电商领域,“意图”的定义往往很模糊。在许多现有研究中,意图与产品属性 (如“红色”、“便宜”) 混为一谈,或者仅仅指代相似的商品。这种捷径虽然有助于基本的推荐,但当用户有一个需要多种不同产品才能实现的特定目标时,它就失效了。
作者提出了一个更严格、更有用的定义: 谓语性用户意图 (Predicative User Intents) 。
这种观点将意图视为描述一项活动或需要解决的情况的自然语言短语。
- 弱定义: 意图 = “鞋子” (这只是一个类别) 。
- 以用途为中心的定义: 意图 = “跑马拉松”或“参加正式婚礼”。
当我们这样构建意图框架时,AI 系统的目标就变了。它不再是产品 ID 之间的模式匹配任务,而是变成了一个自然语言推理任务 :
“用户拥有意图 I”蕴含“产品种类 P 对用户有用”。
以用途为中心的范式
为了解决这个问题,研究人员引入了一种新范式。这里的关键创新不仅在于定义意图,还在于定义意图的目标 。 他们建议将意图与 “产品种类 (Kinds of Products) ” 联系起来。
“产品种类”被定义为特定的类别 (Category) 与定义性属性 (Property) 的组合。
为什么要这种粒度?
- 太宽泛: 仅仅说“刷子”对“烧烤”有用是很模糊的。软毛画笔对烤架毫无用处;你需要的是硬毛刷。
- 太具体: 指向特定的 SKU (库存单位) 或单个商品列表噪音太大。用户最初并不关心特定的品牌 ID;他们关心的是物品的类型。

如图 1 所示,该模型通过将意图 (左列) 映射到产品种类 (中间列) 来工作。
- 意图: 户外烧烤 (Outdoor Barbeque) 。
- 产品种类: 硬毛刷 (类别: 刷子 + 属性: 硬毛) 。
- 产品: 实际商品列表 (右列) 。
请注意,“冬日露营 (Winter Camping) ”如何同时映射到“便携式炉灶”和“保暖夹克”。这捕捉到了现实世界购物的跨类别特性。
分析现状: FolkScope
为了理解为什么需要新范式,作者分析了 FolkScope , 这是目前电商意图领域最先进 (SOTA) 的知识图谱 (KG) 。FolkScope 利用大型语言模型和连带购买数据将产品与意图连接起来。
然而,通过按照这种新的“以用途为中心”的视角重构 FolkScope,研究人员发现了两个关键的拓扑结构弱点。
弱点 1: 属性模糊性 (Property-Ambiguity)
第一个弱点是,现有系统在理解任务所需的特定属性方面表现糟糕。它们可能知道“刷子”是“烧烤”所需的,但它们无法有力地区分“软毛刷”和“硬毛刷”。
研究人员测量了针对某一意图所需产品的特定分布与该类别产品的一般分布之间的 Jensen-Shannon 散度 (JSD) 。
如果系统很智能,“烧烤”的分布应该与一般的“刷子”分布截然不同 (它应该严重偏向硬毛) 。如果系统很笨,这两个分布看起来就是一样的 (JSD 接近 0) 。

图 2 展示了这种失败。直方图显示了服装 (Clothing) 和电子产品 (Electronics) 的 JSD 值。注意这些值是如何聚集在 0 附近的。
这表明了属性模糊性 。 与一般基线相比,特定的意图几乎没有提供任何关于偏好哪种属性的新信息。系统知道类别,但在针对使用场景所需的具体特征方面表现得像是在随机猜测。
弱点 2: 类别僵化性 (Category-Rigidity)
第二个弱点是无法在商店的不同过道之间进行推荐。如果你去“滑雪”,你需要夹克、裤子、护目镜,也许还需要暖手宝。
研究人员测量了与特定意图相关联的产品类别的熵 (Entropy) 。 高熵意味着一个意图会触发多种多样的产品类别。低熵意味着一个意图仅局限于一两个类别。

图 3 证实了这个问题。熵值集中在两个狭窄的范围内:
- 0.0: 意图仅与 1 个类别相关联。
- 0.7: 意图仅与 2 个类别相关联。
这就是类别僵化性 。 FolkScope 图谱中超过 80% 的意图被锁定在一两个产品类型中。它未能捕捉到复杂用户活动的多样化需求。
产品恢复基准 (The Product Recovery Benchmark)
识别弱点很重要,但我们如何衡量进步?作者引入了产品恢复基准 。
这是一个建立在亚马逊评论数据集 (ARD) 之上的评估框架。任务很简单:
- 输入: 一个预测的用户意图。
- 任务: 从整个目录中恢复有用的“产品种类” (类别 + 属性) 。
这比标准的推荐更难,因为系统必须仅仅依赖意图,而不能使用价格、评级或品牌忠诚度作为拐杖。
指标: MRR
为了给表现打分,他们使用了平均倒数排名 (Mean Reciprocal Rank, MRR) 。 由于单个意图可能映射到多个有效的产品种类,他们计算了正确答案的最大倒数排名。
单个商品列表 \(l\) 的倒数排名公式为:

这里,\(C_{gold}\) 代表该商品列表的正确聚类 (产品种类) 。分数由排名的倒数 (1/Rank) 决定。如果正确的项目排在第 1 位,分数为 1。如果排在第 5 位,分数为 0.2。
最终的 MRR 是所有商品列表的平均值:

实验与结果
研究人员在这个新基准上测试了重构后的 FolkScope 知识图谱。他们还引入了“损坏的”基线来证明他们关于属性模糊性的假设。
证明属性模糊性
他们创建了一个名为 FolkScope – 属性 的基线。在这个版本中,他们采用了 FolkScope 的预测,但用同类别中的热门属性替换了特定属性。
如果 FolkScope 真的擅长理解特定属性 (例如,针对特定任务的特定输入) ,移除这些信息应该会破坏性能。

如表 1 所示,性能的下降令人惊讶地小 (例如,在服装类中,仅从 0.192 降至 0.116) 。这种有限的差距证实了原始系统一开始就没有有效地利用特定的属性信息。它正遭受属性模糊性的困扰。
证明类别僵化性
为了测试僵化性,他们运行了一个“连带购买产品恢复”任务。他们要求系统预测在其他类别中通常因为相同意图而被一起购买的产品。
结果很差:
- 服装: MRR 为 0.077
- 电子产品: MRR 为 0.033
系统基本上未能跨越类别边界,验证了类别僵化性这一弱点。
LLM 能解决这个问题吗?
我们通常假设像 GPT-3.5 或 GPT-4 这样的大型语言模型 (LLM) 可以解决这些推理问题。作者尝试使用 GPT-3.5 对 FolkScope 做出的预测进行重排序 (re-rank) 。
令人惊讶的是,LLM 重排序并没有显著提高性能 (见上文表 1 中的“FolkScope + GPT”一行) 。
为什么?研究人员深入研究了排名分布。

表 2 揭示了问题所在。大多数正确答案要么已经排在第 1 位 (Hit@1) ,要么完全在前 10 名之外 (Hit > 10) 。
留给 LLM 发挥的“中间地带”非常少。如果正确答案不在前 10 名中,重新排列前 10 名并没有帮助。这表明在重排序生效之前,检索步骤本身需要改进。
- (注: 作者提醒,高“Hit@1”率可能是数据集的人为产物,这意味着简单的模式匹配可能夸大了基线得分。) *
结论: 未来在于评论
这项研究为电商领域的 AI 提供了一个至关重要的现实检验。虽然我们拥有庞大的知识图谱和强大的 LLM,但我们仍然难以回答一个基本问题: “用户实际上想要做什么?”
论文总结道,现有的结构 (如 FolkScope) 过于僵化和模糊。它们的缺陷在于:
- 类别僵化性: 未能将单一活动所需的多种商品捆绑在一起。
- 属性模糊性: 未能理解特定任务需要产品的哪个版本。
那么,解决方案是什么?
作者指出用户评论是未来研究的金矿。
当用户写评论时,他们自然地架起了意图与属性之间的桥梁。他们会写这样的句子: “这把刷子刷毛很硬 , 非常适合清洗我的烤架 。 ”
通过直接从评论中挖掘这些“以用途为中心”的描述,而不是依赖连带购买统计数据或通用的产品属性,我们可以构建下一代意图理解系统。这些系统不仅会卖给我们另一个炉子;它们会确保我们在冬日露营之旅中温暖、吃饱并做好充分准备。
](https://deep-paper.org/en/paper/2402.14901/images/cover.png)