你是否注意过,你在流媒体服务或购物应用上使用得越多,它似乎越倾向于推荐那几样流行的东西?你看了一部大片,突然间你的整个信息流就被“Top 10”榜单占据,将那些小众的独立电影或独特的商品推向了被遗忘的角落。
这种现象被称为马太效应 (Matthew Effect) , 源自一句圣经谚语: “凡有的,还要加给他,叫他有余;没有的,连他所有的也要夺过来。” 在人工智能的语境下,这意味着流行的物品会获得更多的曝光,而不流行的物品 (长尾物品) 则会被埋没。
虽然这是静态推荐列表中的一个已知问题,但在对话式推荐系统 (Conversational Recommender Systems, CRSs) 中,它变得更加危险。在 CRS 中,你在与机器人聊天。如果机器人只谈论流行的东西,而你只回复机器人说的话,你们就进入了一个动态反馈循环,迅速缩小你的视野。这创造了难以打破的“回声室”和“过滤气泡”。
在这篇文章中,我们将深入探讨一篇名为 “缓解马太效应: 面向对话推荐的多超图增强多兴趣自监督学习” (Mitigating Matthew Effect: Multi-Hypergraph Boosted Multi-Interest Self-Supervised Learning for Conversational Recommendation) 的新研究论文。研究人员提出了一个名为 HiCore 的新颖框架。虽然名字听起来很复杂,但背后的想法非常精彩: 使用多层超图来理解用户微妙、多面的兴趣,确保即使在对话深入时,推荐依然保持多样性和公平性。
问题所在: 动态反馈循环
现有的对抗马太效应的方法通常只关注静态数据。它们分析数据集,发现物品 X 太流行了,于是试图在数学上对其进行惩罚。
然而,对话式推荐系统不是静态的。它是一个随时间演变的过程:
- 用户要求看电影。
- 系统建议一部热门大片。
- 用户接受 (因为这是呈现的唯一选项) 。
- 系统将此互动记录为该热门物品的“正反馈”。
- 系统变得更有可能向这类人推荐该物品。
要打破这个循环,我们需要一个能够理解多层次用户兴趣 (Multi-Level User Interests) 的系统。用户不仅仅是“喜欢动作片的人”。他们是一个复杂的个体,可能喜欢动作片,同时也喜欢由特定演员主演、包含特定关键词、并且与特定朋友圈有共同观看模式的电影。
HiCore 登场: 高层概览
提出的解决方案 HiCore , 全称为多超图增强多兴趣自监督学习 (Multi-Hypergraph Boosted Multi-Interest Self-Supervised Learning) 。 这名字很拗口,所以我们在深入数学原理之前,先从视觉上拆解一下这个架构。

如上图 1 所示,该框架主要分为两个阶段:
- 多超图增强多兴趣自监督学习 (左侧) : 这是操作的“大脑”。它从历史数据中构建复杂的图,以学习物品、实体和词汇的深层表示。
- 兴趣增强型 CRS (右侧) : 这是系统的“嘴”和“手”。它利用学到的兴趣与用户进行实际聊天 (对话模块) 并挑选要展示的物品 (推荐模块) 。
这里的核心创新在于从标准的图 (Graphs) 转向了超图 (Hypergraphs) , 并使用了三通道 (Triple-Channel) 设置。
什么是超图?
在标准图中,一条边连接两个节点 (例如,用户 A ——连接—— 电影 B) 。这是一种成对关系。 而在超图中,一条“超边”可以同时连接任意数量的节点。这使得系统能够建模高阶关系,例如三个用户都看了同一组电影,或者一个用户、一个实体和一个关键词同时出现。
HiCore 构建了三种特定类型的超图来捕捉不同的语义细微差别:
- 面向物品 (Item-oriented) : 专注于产品/电影本身。
- 面向实体 (Entity-oriented) : 专注于来自 DBpedia 的知识图谱实体 (演员、导演、流派) 。
- 面向词汇 (Word-oriented) : 专注于对话中实际说出的词汇,源自 ConceptNet。
核心方法: 三角形与通道
为了有效地构建这些超图,作者使用了网络模体 (Network Motifs) 。 模体是描述节点如何交互的小型、重复的子图或模式。可以把它们看作是社交互动的“乐高积木”。
研究人员将这些互动归类为三个特定的通道 (Channels) :
- 群组通道 (Group Channel, g) : 捕捉社交关系和群体间的共同偏好。
- 联合通道 (Joint Channel, j) : 捕捉共同行为,比如朋友购买了相同的物品。
- 购买通道 (Purchase Channel, p) : 捕捉用户与物品之间的直接交易或互动。
让我们看看用于构建这些通道的模体:

在图 2 中,你可以看到复杂性在增加:
- 群组模体 (Group Motifs, M1-M7) : 这些三角形代表各种社交动态,其中用户 (圆圈) 彼此连接或连接到一个锚点用户 (条纹圆圈) 。
- 联合模体 (Joint Motifs, M8-M9) : 这些代表“联合”行动,即用户不仅彼此互动,还与物品 (绿色圆圈) 互动。
- 购买模体 (Purchase Motif, M10) : 用户与物品之间的直接链接。
构建面向物品的超图
这些超图的构建在数学上是严谨的。对于群组通道 , 系统根据上图所示的七种群组模体计算邻接矩阵。
群组通道的超图定义为:

这里,\(\mathcal{V}\) 代表物品,\(\mathcal{N}\) 代表从模体推导出的超边。但我们如何将这些三角形图片转化为数学公式呢?我们计算每种模体类型的邻接矩阵。
例如,前七种模体 (群组互动) 的矩阵是使用双向 (\(J\)) 和单向 (\(I\)) 关系矩阵计算的:

一旦计算出这些矩阵 (\(H\)) ,它们就被组合起来形成群组超图的最终邻接矩阵。如果两个节点出现在特定的三角形结构中 (如 \(M_1\) 或 \(M_3\)) ,矩阵就会捕捉到这种连接:

这个数学过程本质上是将社会结构数字化了。如果用户 A 和用户 B 是朋友,并且都关注了用户 C,那就是模型现在可以理解的一种特定的互动“形状”。
联合通道与购买通道
系统并不止步于社会分组。它还关注联合行为——即社会关系与物品消费重叠的地方。这有助于区分“只是聊天的朋友”和“实际上购买相似东西的朋友”。

最后, 购买通道观察那些可能不是朋友但购买相同物品的用户之间隐含的高阶关系 (这是经典的“买过 X 的人也买过 Y”的逻辑,但经过了超图的增强) 。

面向实体与面向词汇
为了解决“稀疏性”问题 (即我们没有关于特定用户的足够数据) ,HiCore 将视野扩展到了物品之外。
它使用外部知识库 (DBpedia) 构建面向实体的超图 。 如果你提到“星际穿越”,系统会引入“马修·麦康纳”或“科幻”等实体。

它还使用 ConceptNet 构建面向词汇的超图 , 以理解对话历史的语义含义。

通过群组、联合和购买通道处理物品、实体和词汇,HiCore 创建了一个关于用户意图的宏大、多维度的视图。
学习多层次兴趣
超图构建完成后,系统如何从中学习?它使用了超图卷积网络 (Hypergraph Convolutional Networks) 。
卷积操作通过超边传播信息。如果你连接到一个“群组”超边,你会吸收该群组其他成员的信息。

这种传播发生在每个通道上。然后,系统聚合学到的特征。它通过对群组、联合和购买兴趣 (\(X_g\), \(X_j\), \(X_p\)) 进行特定的求和,来分离“噪音”与信号:

特征融合与自监督
在这个阶段,我们拥有了关于物品、实体和词汇的独特兴趣表示。为了做出最终预测,我们需要融合它们。研究人员使用注意力网络 (Attention Network) 来权衡在当前语境下哪种兴趣最重要。

这里,\(X_m\) 是最终的多兴趣 (Multi-Interest) 表示。
为了确保这些表示是高质量的,模型使用了基于 InfoNCE 损失的自监督学习 (SSL) 。 这是一种技术,模型试图最大化其学习到的表示与源自数据本身的“基本真值”之间的一致性,而无需人工标签。

兴趣增强型 CRS 模块
现在 HiCore 对用户兴趣 (\(X_m\)) 有了深刻的理解,它将这些知识应用于对话式推荐系统的两个主要任务。
1. 推荐模块
该模块预测用户实际想要的物品。它获取多兴趣向量 \(X_m\),并将其与所有候选物品 (\(V_{cand}\)) 进行比较。目标是使用标准的交叉熵损失来最小化预测与用户实际选择之间的差异。

通过使用丰富的 \(X_m\) 向量 (包含社交、联合和购买信号) ,推荐结果不太可能简单地默认为“最流行”的物品,从而缓解马太效应。
2. 对话模块
该模块生成文本回复 (例如,“试试看《盗梦空间》怎么样?”) 。它使用基于 Transformer 的架构。
下面的公式展示了系统如何使用多头注意力 (MHA) 将当前对话上下文 (\(X_{cur}\)) 和历史上下文 (\(X_{his}\)) 与学到的多兴趣 (\(X_m\)) 相结合。

生成的回复经过训练,看起来像自然的人类对话:

实验与结果
这个复杂的架构真的有效吗?研究人员在四个主要数据集上将 HiCore 与最先进的基准模型 (如 KGSF, BART, GPT-3, 和 UniCRS) 进行了对比测试: REDIAL, TG-REDIAL, OpenDialKG, 和 DuRecDial 。
推荐性能
首先,让我们看看它推荐物品的效果如何。使用的指标是召回率 (Recall) (它找到正确的物品了吗?) 和 NDCG (正确的物品排名靠前吗?) 。

如表 1 所示,HiCore (最后一行) 始终优于所有基准模型。在 REDIAL 数据集中,它的 Recall@10 达到了 0.2192 , 显著高于 KGSF (0.1785) 或标准 BERT (0.1608)。这证明了多超图方法比标准图或基于文本的方法能更好地捕捉用户意图。
这种优势在其他数据集上也同样存在,如下表所示,涵盖了 OpenDialKG 和 DuRecDial:

马太效应分析
这是研究中最关键的部分。高准确率固然好,但如果我们只是向每个人推荐同样的 5 部电影,我们就没有解决马太效应。
为了衡量这一点,作者使用了覆盖率@k (Coverage@k) (推荐的物品占总可用物品的百分比是多少?) 。更高的覆盖率意味着系统正在探索“长尾”中的小众物品。

图 3 是最有力的证据。
- 红线 (Ours/HiCore) : 显示出的覆盖率显著高于所有其他方法。
- 蓝线 (KBRD) : 显示出非常低的覆盖率,表明它深受流行度偏差的影响。
研究人员还测量了平均流行度 (A@K) 和长尾比例 (L@K) 。
- 平均流行度越低越好 (意味着我们不只是在推荐热门大片) 。
- 长尾比例越高越好 (意味着我们在推荐小众物品) 。

在表 4 中,HiCore 实现了最低的平均流行度得分,同时保持了较高的长尾比例。这证实了 HiCore 不仅准确,而且更加公平和多样化 。
超参数与消融研究
最后,作者检查了所有这些复杂的组件是否都是必要的。
超参数重要吗? 是的。在图 4 中,我们可以看到维度大小 (\(d\)) 和层数 (\(N\)) 显著影响召回率。具体来说,2 层网络似乎是平衡复杂性和性能的最佳点。

我们需要所有的超图吗? 作者进行了消融实验,移除了特定组件 (如群组通道或面向词汇的超图) ,以观察会发生什么。

表 5 显示,移除任何单一组件都会导致性能下降。移除面向物品的购买通道 (\(G_p^{(i)}\)) 导致的下降最大,这是合理的,因为购买历史是一个强信号。然而,群组和联合通道也贡献显著,证明了社交动态在推荐中的重要性。
结论
马太效应是一个“富者愈富”的问题,困扰着推荐系统,将它们变成了扼杀探索的回声室。随着 AI 变得更加对话化,这种循环也变得更加紧密,使用户更难发现新的、小众的兴趣。
HiCore 提供了一个强有力的解决方案,它承认用户的兴趣不是一维的。通过在物品、实体和词汇之间建立多重超图 , 并通过群组、联合和购买通道进行分析,HiCore 创建了一张丰富、多纹理的用户偏好地图。
结果显而易见: HiCore 不仅比当前最先进的模型 (如 GPT-3 或基于 BART 的系统) 更能预测你想要什么,而且它挖掘得更深,能够呈现那些被隐藏的宝藏,打破流行度的死循环。对于 AI 领域的学生和研究人员来说,HiCore 展示了超越简单的用户-物品对,拥抱定义我们如何与世界互动的复杂高阶关系的力量。
](https://deep-paper.org/en/paper/file-3382/images/cover.png)