引言

在自然语言处理 (NLP) 领域，我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec，再到像 BERT 这样的 Transformer 模型。通常的假设是，较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义，为什么还要用 TFIDF 来统计词频呢？

然而，当涉及到短文本聚类 (Short Text Clustering) ——例如在没有标签的情况下对推文、新闻标题或问答题目进行分组——BERT 有一个盲点。虽然它擅长理解通用语言，但它往往会忽略罕见的、特定领域的关键词的重要性。相反，“过时”的 TFIDF 方法擅长发现这些关键词，但无法理解上下文。

本篇博客文章将探讨一篇引人入胜的研究论文: “Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training” (利用 BERT 和 TFIDF 特征通过促进对齐的协同训练进行短文本聚类) , 该论文提出，前进的最佳路径不是二选一，而是迫使它们互相学习。

研究人员提出了 COTC (Co-Training Clustering，协同训练聚类) 框架，将 BERT 和 TFIDF 视为数据的两个不同“视图”。通过使用协同训练策略，BERT 的深层语义理解与 TFIDF 的关键词精度相对齐，从而实现了显著优于当前最先进方法的聚类性能。

问题所在: 深度学习何时会抓不住重点

短文本聚类之所以出了名的难，是因为可用的信号非常少。一个简短的句子提供的上下文十分稀疏。

标准方法通常分为两大阵营:

基于 TFIDF: 这些方法依赖于词语重叠。如果两个句子都包含单词“Python”，它们就会被分到一组。但当句子意思相同却使用不同词汇时 (例如“coding”与“programming”) ，这种方法就会失效。
基于 BERT: 这些方法将句子编码为稠密向量。这能很好地捕捉含义，但可能会淹没特定的、高价值的关键词，特别是在模型预训练时未大量接触过的技术领域。

为了直观地展示这一局限性，请看下面来自 StackOverflow 数据集的 t-SNE 图。

BERT 特征的 T-SNE 图，显示特定领域的关键词是如何分散的。

在 图 1 中，请注意那颗黑色星星。它代表一个关于“Qt Creator”的问题。三颗绿色星星是它基于 TFIDF 的最近邻居——它们显然是相关的主题。然而，在 BERT 特征空间中，这些点分散得很远。BERT 没有意识到特定的关键词“Qt”是这个聚类的决定性特征。它优先考虑的是通用的句子结构，而不是那个关键的名词。

这一观察结果是 COTC 框架的基础: 我们需要 BERT 的大脑，但也需要 TFIDF 关注细节的眼睛。

解决方案: COTC 框架

作者提出了一个 协同训练聚类 (COTC) 框架。他们没有简单地将 BERT 向量和 TFIDF 向量拼接在一起 (实验表明这样做效果不佳) ，而是构建了两个独立的训练模块来进行通信。

BERT 模块: 使用对比学习来学习稠密表示。
TFIDF 模块: 使用变分自编码器 (VAE) 从稀疏数据中学习。

神奇之处在于对齐 (Alignment) 。 TFIDF 模块的输出指导 BERT 模块的学习，反之亦然。

COTC 协同训练聚类框架的整体架构。

如 图 2 所示，该架构是双向的。让我们分解每个模块的工作原理以及它们如何对齐。

1. BERT 模块 (\(\mathcal{F}_B\))

该模块的目标是微调 BERT，以生成既尊重语义意义又尊重关键词相似性的表示 (\(h^b\)) 和聚类分配 (\(p^b\)) 。

带点新意的对比学习

标准的对比学习会创建图像或文本的两个增强版本，并强制模型将它们映射到空间中的同一点。COTC 更进一步。它使用 TFIDF 信号来寻找“邻居”。

如果在 TFIDF 空间中“文本 A”和“文本 B”非常相似 (意味着它们共享重要的关键词) ，BERT 模块就会将它们视为“正样本对”，即使 BERT 最初认为它们是不同的。

研究人员使用 TFIDF 表示构建了一个相似度图。然后，他们应用了一个对比损失函数:

对比损失方程

这里，损失 \(\mathcal{L}_{Contr}\) 鼓励模型将文本的表示拉近其增强版本及其由 TFIDF 识别出的邻居。

聚类与伪标签

为了执行实际的聚类，BERT 特征通过一个多层感知机 (MLP) 传递，输出在 \(K\) 个聚类上的概率分布。

聚类概率方程

该模型使用伪标签 (pseudo-labels) 进行训练。模型没有人工标签，而是生成自己的“猜测”标签 (使用一种称为最优传输的技术来确保聚类平衡) ，并训练自己去预测这些标签。

交叉熵损失方程

这使得 BERT 模型能够迭代地优化其自身的边界。

2. TFIDF 模块 (\(\mathcal{F}_T\))

当 BERT 使用对比学习时，TFIDF 模块使用 变分深度嵌入 (Variational Deep Embedding) 方法。由于 TFIDF 向量是高维且稀疏的，研究人员使用变分自编码器 (VAE) 来对数据生成过程进行建模。

生成过程定义为:

生成模型方程

简单来说，这个方程表示文本的 TFIDF 特征 (\(t_i\)) 是由潜在变量 (\(h_i^t\)) 生成的，而该潜在变量又是由特定的聚类分配 (\(c_i\)) 生成的。

模型试图最小化 证据下界 (ELBO) , 这是 VAE 的标准损失函数:

ELBO 方程

至关重要的是，TFIDF 模块并非孤立训练。它尝试重构源自 BERT 表示的相似度图。这与前一个模块相反: TFIDF 被迫尊重 BERT 认为重要的关系。

3. 相互对齐 (协同训练)

这篇论文最关键的贡献是对齐机制 。

对于每个文本样本，我们有两个概率分布:

\(p_i^b\): BERT 预测的聚类概率。
\(p_i^t\): 从 TFIDF 推断的聚类概率。

逻辑上讲，如果模型工作正常，这两个应该是一致的。研究人员通过最小化两个分布之间的 Kullback-Leibler (KL) 散度 来强制执行这一点。

对齐损失方程

这种对齐损失迫使两个“视图”达成一致。如果 BERT 认为一段文本属于聚类 1，但 TFIDF 认为它属于聚类 5，这个损失就会很高，从而迫使网络调整参数，直到它们收敛达成共识。

4. 统一的训练目标

最后，研究人员在数学上将这些分离的损失统一为一个联合训练目标。这使得梯度能够在整个框架中高效流动。

联合损失方程

在这个方程中:

\(\mathcal{L}_{Contr}\): 确保 BERT 表示在局部是一致的。
\(\mathcal{L}_{Cluster}\): 确保 BERT 学习到独特的聚类。
\(\mathcal{L}'_{ELBO}\): 确保 TFIDF 特征被正确建模并与 BERT 的预测对齐。

这种优雅的统一意味着 BERT 模块本质上为 TFIDF 的生成过程提供了“先验”，从而建立了一个紧密的反馈循环。

实验结果

理论听起来很扎实，但效果如何呢？作者在八个基准短文本数据集上测试了 COTC，包括 AgNews、SearchSnippets 和 StackOverflow。

他们将自己的方法与强大的基线进行了比较:

TFIDF-K-Means: 基于关键词特征的简单聚类。
BERT-K-Means: 基于 BERT 嵌入的简单聚类。
SCCL & RSTC: 仅使用 BERT 的最先进深度聚类方法。
Concat Methods (拼接方法) : 简单地组合 BERT 和 TFIDF 向量。

结果展示在 表 1 中，令人信服。

聚类性能比较表

从结果中得出的关键结论:

统治力: COTC (最后一行) 在几乎每个数据集上都取得了最佳的准确率 (ACC) 和归一化互信息 (NMI) 。
显著的幅度: 在 Biomedical 数据集上，COTC 的准确率比之前的最佳方法 (RSTC) 提高了近 5%。在 GoogleNews 上，提升同样令人印象深刻。
朴素融合的失败: 看一下 RSTC_BERT-TFIDF-Concat 所在的行。简单地将两组特征粘合在一起，其结果往往比只使用 BERT 还要差。这证明了协同训练对齐策略对于有效结合这些模态是必要的。

可视化提升效果

为了看看这在实践中是什么样子的，让我们检查 StackOverflow 数据集上的特征可视化。

StackOverflow 上聚类的可视化

在 图 7 中，“Original” (左) 图展示了初始数据分布。它很混乱，类别重叠严重。“Trained” (右) 图展示了 COTC 框架的输出。聚类明显分离且清晰。

此外，我们可以查看与这些聚类相关的关键词，以验证它们在语义上是否有意义。

StackOverflow 聚类的关键词表

表 8 证实了聚类具有高度的连贯性。聚类 #1 显然是关于 Excel/VBA 的，聚类 #15 严格关于 Qt 开发，而聚类 #19 将 Oracle/SQL 数据库问题归为一组。BERT 和 TFIDF 的结合成功地将语义相关的概念归类，同时保留了技术关键词的精确性。

敏感性分析

研究人员调查的一个有趣方面是“邻居”参数 (\(L\)) 的敏感性。回想一下，BERT 模块使用 TFIDF 邻居来指导其对比学习。它应该看多少个邻居？

参数 L 的敏感性分析

图 3 显示性能 (ACC/NMI) 相对稳定，但通常在 \(L=10\) 左右达到峰值。如果 \(L\) 太大 (例如 250) ，模型开始引入不相关的邻居，带来噪声并降低精度。这证实了关键词信号在局部且具体时最有价值。

结论与启示

论文 “Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training” 为现代机器学习提供了至关重要的一课: 新的并不总是足够的。

虽然像 BERT 这样的预训练语言模型捕捉到了深层的语义，但它们并非无所不能。它们在处理稀疏、充满术语的短文本数据时可能会遇到困难。通过重新审视 TFIDF——一种常被视为“老派”而被弃用的技术——并通过一个复杂的协同训练框架将其整合，研究人员实现了最先进的性能。

给学生的关键启示:

互补优势: BERT 提供“上下文”，TFIDF 提供“锚点词”。
协同训练: 训练两个模型使其达成一致，往往比训练一个巨大的模型或拼接输入更强大。
对齐是关键: 多视图学习的成功依赖于你如何强制视图对齐 (例如，使用 KL 散度) 。

这项研究为其他领域的类似“混合”方法打开了大门，可能会将深度学习与其他传统统计特征结合起来，以解决复杂的数据问题。

引言#

问题所在: 深度学习何时会抓不住重点#

解决方案: COTC 框架#

1. BERT 模块 (\(\mathcal{F}_B\))#

带点新意的对比学习#

聚类与伪标签#

2. TFIDF 模块 (\(\mathcal{F}_T\))#

3. 相互对齐 (协同训练)#

4. 统一的训练目标#

实验结果#

可视化提升效果#

敏感性分析#

结论与启示#

引言