引言
在自然语言处理 (NLP) 领域,我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec,再到像 BERT 这样的 Transformer 模型。通常的假设是,较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义,为什么还要用 TFIDF 来统计词频呢?
然而,当涉及到短文本聚类 (Short Text Clustering) ——例如在没有标签的情况下对推文、新闻标题或问答题目进行分组——BERT 有一个盲点。虽然它擅长理解通用语言,但它往往会忽略罕见的、特定领域的关键词的重要性。相反,“过时”的 TFIDF 方法擅长发现这些关键词,但无法理解上下文。
本篇博客文章将探讨一篇引人入胜的研究论文: “Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training” (利用 BERT 和 TFIDF 特征通过促进对齐的协同训练进行短文本聚类) , 该论文提出,前进的最佳路径不是二选一,而是迫使它们互相学习。
研究人员提出了 COTC (Co-Training Clustering,协同训练聚类) 框架,将 BERT 和 TFIDF 视为数据的两个不同“视图”。通过使用协同训练策略,BERT 的深层语义理解与 TFIDF 的关键词精度相对齐,从而实现了显著优于当前最先进方法的聚类性能。
问题所在: 深度学习何时会抓不住重点
短文本聚类之所以出了名的难,是因为可用的信号非常少。一个简短的句子提供的上下文十分稀疏。
标准方法通常分为两大阵营:
- 基于 TFIDF: 这些方法依赖于词语重叠。如果两个句子都包含单词“Python”,它们就会被分到一组。但当句子意思相同却使用不同词汇时 (例如“coding”与“programming”) ,这种方法就会失效。
- 基于 BERT: 这些方法将句子编码为稠密向量。这能很好地捕捉含义,但可能会淹没特定的、高价值的关键词,特别是在模型预训练时未大量接触过的技术领域。
为了直观地展示这一局限性,请看下面来自 StackOverflow 数据集的 t-SNE 图。

在 图 1 中,请注意那颗黑色星星。它代表一个关于“Qt Creator”的问题。三颗绿色星星是它基于 TFIDF 的最近邻居——它们显然是相关的主题。然而,在 BERT 特征空间中,这些点分散得很远。BERT 没有意识到特定的关键词“Qt”是这个聚类的决定性特征。它优先考虑的是通用的句子结构,而不是那个关键的名词。
这一观察结果是 COTC 框架的基础: 我们需要 BERT 的大脑,但也需要 TFIDF 关注细节的眼睛。
解决方案: COTC 框架
作者提出了一个 协同训练聚类 (COTC) 框架。他们没有简单地将 BERT 向量和 TFIDF 向量拼接在一起 (实验表明这样做效果不佳) ,而是构建了两个独立的训练模块来进行通信。
- BERT 模块: 使用对比学习来学习稠密表示。
- TFIDF 模块: 使用变分自编码器 (VAE) 从稀疏数据中学习。
神奇之处在于对齐 (Alignment) 。 TFIDF 模块的输出指导 BERT 模块的学习,反之亦然。

如 图 2 所示,该架构是双向的。让我们分解每个模块的工作原理以及它们如何对齐。
1. BERT 模块 (\(\mathcal{F}_B\))
该模块的目标是微调 BERT,以生成既尊重语义意义又尊重关键词相似性的表示 (\(h^b\)) 和聚类分配 (\(p^b\)) 。
带点新意的对比学习
标准的对比学习会创建图像或文本的两个增强版本,并强制模型将它们映射到空间中的同一点。COTC 更进一步。它使用 TFIDF 信号来寻找“邻居”。
如果在 TFIDF 空间中“文本 A”和“文本 B”非常相似 (意味着它们共享重要的关键词) ,BERT 模块就会将它们视为“正样本对”,即使 BERT 最初认为它们是不同的。
研究人员使用 TFIDF 表示构建了一个相似度图。然后,他们应用了一个对比损失函数:

这里,损失 \(\mathcal{L}_{Contr}\) 鼓励模型将文本的表示拉近其增强版本及其由 TFIDF 识别出的邻居。
聚类与伪标签
为了执行实际的聚类,BERT 特征通过一个多层感知机 (MLP) 传递,输出在 \(K\) 个聚类上的概率分布。

该模型使用伪标签 (pseudo-labels) 进行训练。模型没有人工标签,而是生成自己的“猜测”标签 (使用一种称为最优传输的技术来确保聚类平衡) ,并训练自己去预测这些标签。

这使得 BERT 模型能够迭代地优化其自身的边界。
2. TFIDF 模块 (\(\mathcal{F}_T\))
当 BERT 使用对比学习时,TFIDF 模块使用 变分深度嵌入 (Variational Deep Embedding) 方法。由于 TFIDF 向量是高维且稀疏的,研究人员使用变分自编码器 (VAE) 来对数据生成过程进行建模。
生成过程定义为:

简单来说,这个方程表示文本的 TFIDF 特征 (\(t_i\)) 是由潜在变量 (\(h_i^t\)) 生成的,而该潜在变量又是由特定的聚类分配 (\(c_i\)) 生成的。
模型试图最小化 证据下界 (ELBO) , 这是 VAE 的标准损失函数:

至关重要的是,TFIDF 模块并非孤立训练。它尝试重构源自 BERT 表示的相似度图。这与前一个模块相反: TFIDF 被迫尊重 BERT 认为重要的关系。
3. 相互对齐 (协同训练)
这篇论文最关键的贡献是对齐机制 。
对于每个文本样本,我们有两个概率分布:
- \(p_i^b\): BERT 预测的聚类概率。
- \(p_i^t\): 从 TFIDF 推断的聚类概率。
逻辑上讲,如果模型工作正常,这两个应该是一致的。研究人员通过最小化两个分布之间的 Kullback-Leibler (KL) 散度 来强制执行这一点。

这种对齐损失迫使两个“视图”达成一致。如果 BERT 认为一段文本属于聚类 1,但 TFIDF 认为它属于聚类 5,这个损失就会很高,从而迫使网络调整参数,直到它们收敛达成共识。
4. 统一的训练目标
最后,研究人员在数学上将这些分离的损失统一为一个联合训练目标。这使得梯度能够在整个框架中高效流动。

在这个方程中:
- \(\mathcal{L}_{Contr}\): 确保 BERT 表示在局部是一致的。
- \(\mathcal{L}_{Cluster}\): 确保 BERT 学习到独特的聚类。
- \(\mathcal{L}'_{ELBO}\): 确保 TFIDF 特征被正确建模并与 BERT 的预测对齐。
这种优雅的统一意味着 BERT 模块本质上为 TFIDF 的生成过程提供了“先验”,从而建立了一个紧密的反馈循环。
实验结果
理论听起来很扎实,但效果如何呢?作者在八个基准短文本数据集上测试了 COTC,包括 AgNews、SearchSnippets 和 StackOverflow。
他们将自己的方法与强大的基线进行了比较:
- TFIDF-K-Means: 基于关键词特征的简单聚类。
- BERT-K-Means: 基于 BERT 嵌入的简单聚类。
- SCCL & RSTC: 仅使用 BERT 的最先进深度聚类方法。
- Concat Methods (拼接方法) : 简单地组合 BERT 和 TFIDF 向量。
结果展示在 表 1 中,令人信服。

从结果中得出的关键结论:
- 统治力: COTC (最后一行) 在几乎每个数据集上都取得了最佳的准确率 (ACC) 和归一化互信息 (NMI) 。
- 显著的幅度: 在 Biomedical 数据集上,COTC 的准确率比之前的最佳方法 (RSTC) 提高了近 5%。在 GoogleNews 上,提升同样令人印象深刻。
- 朴素融合的失败: 看一下
RSTC_BERT-TFIDF-Concat所在的行。简单地将两组特征粘合在一起,其结果往往比只使用 BERT 还要差。这证明了协同训练对齐策略对于有效结合这些模态是必要的。
可视化提升效果
为了看看这在实践中是什么样子的,让我们检查 StackOverflow 数据集上的特征可视化。

在 图 7 中,“Original” (左) 图展示了初始数据分布。它很混乱,类别重叠严重。“Trained” (右) 图展示了 COTC 框架的输出。聚类明显分离且清晰。
此外,我们可以查看与这些聚类相关的关键词,以验证它们在语义上是否有意义。

表 8 证实了聚类具有高度的连贯性。聚类 #1 显然是关于 Excel/VBA 的,聚类 #15 严格关于 Qt 开发,而聚类 #19 将 Oracle/SQL 数据库问题归为一组。BERT 和 TFIDF 的结合成功地将语义相关的概念归类,同时保留了技术关键词的精确性。
敏感性分析
研究人员调查的一个有趣方面是“邻居”参数 (\(L\)) 的敏感性。回想一下,BERT 模块使用 TFIDF 邻居来指导其对比学习。它应该看多少个邻居?

图 3 显示性能 (ACC/NMI) 相对稳定,但通常在 \(L=10\) 左右达到峰值。如果 \(L\) 太大 (例如 250) ,模型开始引入不相关的邻居,带来噪声并降低精度。这证实了关键词信号在局部且具体时最有价值。
结论与启示
论文 “Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training” 为现代机器学习提供了至关重要的一课: 新的并不总是足够的。
虽然像 BERT 这样的预训练语言模型捕捉到了深层的语义,但它们并非无所不能。它们在处理稀疏、充满术语的短文本数据时可能会遇到困难。通过重新审视 TFIDF——一种常被视为“老派”而被弃用的技术——并通过一个复杂的协同训练框架将其整合,研究人员实现了最先进的性能。
给学生的关键启示:
- 互补优势: BERT 提供“上下文”,TFIDF 提供“锚点词”。
- 协同训练: 训练两个模型使其达成一致,往往比训练一个巨大的模型或拼接输入更强大。
- 对齐是关键: 多视图学习的成功依赖于你如何强制视图对齐 (例如,使用 KL 散度) 。
这项研究为其他领域的类似“混合”方法打开了大门,可能会将深度学习与其他传统统计特征结合起来,以解决复杂的数据问题。
](https://deep-paper.org/en/paper/file-3305/images/cover.png)