引言: 意义的挑战
想象一下,你正在构建一个搜索引擎或聊天机器人。用户输入了这样一句话: *“The bird is bathing in the sink.” (那只鸟正在水槽里洗澡。) *
过了一会儿,另一位用户输入: *“Birdie is washing itself in the water basin.” (小鸟正在水盆里清洗自己。) *
对人类来说,这两句话的意思几乎完全相同。但对计算机而言,它们是截然不同的字符序列。机器理解这两句话传达相同语义信息的能力,被称为语义文本相似度 (Semantic Textual Similarity, STS) 。
过去十年里,自然语言处理 (NLP) 在这方面已经变得极其出色——前提是你讲英语。但是,当我们走出英语、法语或西班牙语这些“高资源”语言的舒适区,试图衡量僧伽罗语 (Sinhala)、泰米尔语 (Tamil) 或低资源阿拉伯语变体的相似度时,会发生什么呢?
这正是研究论文 “MUSTS: MUltilingual Semantic Textual Similarity Benchmark” (MUSTS: 多语言语义文本相似度基准) 所解决的核心问题。研究人员发现了评估 AI 模型方式中的一个关键缺口: 目前的基准测试偏向于富裕语言,通常依赖劣质的机器翻译,并且经常混淆“相似度”与“相关性”。
在这篇文章中,我们将剖析这个全新的 MUSTS 基准,探索现代架构 (从 Transformer 到大型语言模型) 如何处理句子相似度,并揭示一个令人惊讶的发现: 在涉及低资源语言时,最大、最智能的 LLM 并不总是完成任务的最佳工具。
背景: 相似度 vs. 相关性
在深入架构之前,我们必须定义我们到底在衡量什么。在急于构建海量数据集的过程中,NLP 社区经常混淆两个截然不同的概念: 相似度 (Similarity) 和 相关性 (Relatedness) 。
- 相似度 意味着等价。例如,“车很快”和“汽车跑得快”是相似的。
- 相关性 意味着主题上的联系。例如,“车很快”和“司机使用汽油”是相关的,但它们的意思并不相同。
许多现有的基准测试,如海量文本嵌入基准 (MTEB),包含了针对相关性而非严格相似度进行评分的数据集。当试图训练模型执行释义检测或语义搜索等任务时,这会把水搅浑。
MUSTS 严格遵守 STS 标注指南。要理解其精细程度,可以看看该基准中使用的评分标准:

如上表所示,评分范围从 0 (完全不相似) 到 5 (完全等价) 。这种细微差别至关重要。3 分意味着“大致等价,但重要细节不同”。模型必须足够敏感,能够捕捉到那些缺失的细节,而不仅仅是识别出两个句子都是关于“鸟”的。
当前基准测试的缺陷
当前的多语言基准测试通常在三个方面存在不足:
- 语言覆盖范围: 它们关注“赢家”语言 (高资源) ,而忽略“弱者” (低资源) 。
- 标注质量: 它们经常依赖机器翻译的数据。如果你用谷歌翻译将英语数据集翻译成俄语,然后用它来测试模型,你测试的是模型匹配翻译错误的能力,而不是它对自然俄语的理解能力。
- 任务混淆: 如前所述,混淆了相关性和相似度。
MUSTS 通过整理跨越 13 种语言 的数据集来解决这个问题,涵盖了不同的语系和资源水平。

正如上表所示,MUSTS 包含了像 僧伽罗语 (Sinhala) 和 泰米尔语 (Tamil) 这样的语言,这些语言经常被 MTEB 等主要基准测试排除在外。它确保所包含的每一个数据集都经过了严格的审查,以保证真实的语义相似度。
核心方法: 机器如何计算意义
研究人员在这个新基准上评估了超过 25 种解决 STS 问题的方法。这些方法通常分为两类: 无监督 (使用现有的嵌入,无需针对这些数据集进行特定训练) 和 有监督 (专门为该任务训练模型) 。
让我们拆解一下所使用的复杂架构。
1. 无监督方法
无监督方法非常有吸引力,因为它们不需要为每种新语言提供昂贵的标注训练数据。
向量平均与 SIF
比较句子最简单的方法是将每个单词转换为向量 (代表意义的一串数字) 并求平均值。然而,这种方法噪音很大。像 “the” 和 “and” 这样的词出现频率很高,但承载的语义权重很小。
研究人员使用了一种称为 平滑逆词频 (Smooth Inverse Frequency, SIF) 的技术。SIF 通过以下方式改进了简单的平均法:
- 加权: 给予高频词较低的权重 (类似于 TF-IDF) 。
- 公共分量去除: 通过数学方法去除所有句子向量共享的“公共方向”。这消除了语言的“背景噪音”,只留下了句子独特的语义内容。
LLM 提示工程 (Prompting)
随着像 Llama-3 和 Mistral 这样的大型语言模型 (LLM) 的兴起,出现了一种新的无监督方法: 直接询问模型。
研究人员测试了几种提示策略:
- 零样本 (Zero-shot, ZS): 仅给出指令。
- 少样本 (Few-shot, FS): 给模型提供 5 个示例。
- 思维链 (Chain of Thought, CoT): 要求模型在给出评分之前解释其推理过程。
使用的具体提示对于复现性至关重要。研究人员使用了以下模板:

LLM 编码器 (LLM-Encoders)
这些是经过专门调整以输出高质量文本嵌入 (向量表示) 的 LLM,例如 NV-Embed-v2 或 gte-Qwen2。
2. 有监督方法
如果你有训练数据 (MUSTS 提供了这些数据) ,你可以训练模型成为专家。
交叉编码器 (Transformers)
这通常被认为是准确度的“黄金标准”,但在计算上非常昂贵。在这个架构中,你将 两个 句子同时输入到模型中。

如图 1 所示,Transformer 同时处理句子 1 和句子 2。这使得 自注意力 (Self-Attention) 机制能够逐层查看句子 1 中的单词,并直接将其与句子 2 中的单词进行比较。然后,模型输出一个最终表示 (通常来自 [CLS] token) ,该表示被输入到回归器中以预测相似度得分 (0-5)。
为什么这很强大? 因为模型在做出决定 之前 就能看到单词之间的相互作用。它知道句子 1 中的 “bank” 指的是河岸,因为它在句子 2 中看到了 “water”。
双编码器 (Sentence Transformers)
交叉编码器准确但速度慢。你无法预先计算嵌入;每次有新的一对句子时,你都必须运行模型。
替代方案是 双编码器 (Bi-Encoder) (或孪生网络) 架构。

在这种设置中 (图 2) ,句子 1 和句子 2 独立地通过 Transformer。我们获取输出 (通常通过平均池化 Mean Pooling) 来为每个句子创建一个固定的嵌入向量 (\(U\) 和 \(V\)) 。然后我们计算这两个向量之间的 余弦相似度 (Cosine Similarity) 。
为什么这很有用? 你可以预先计算句子 1 的向量并存储起来。当句子 2 到来时,比较是瞬间完成的。研究人员利用这种架构微调了较小的 LLM (如 gte-Qwen2-1.5B) 。
实验与结果
研究人员在所有 13 种语言上运行了这些模型。使用的性能指标是 斯皮尔曼相关系数 (Spearman Correlation) , 它衡量模型对相似度的排名与人类排名的匹配程度。1.0 分表示完美;0.0 分表示随机。
这是详细的结果表。请花点时间查看低资源语言 (如僧伽罗语 - Si) 与高资源语言 (如英语 - En) 的列。

关键发现 1: 低资源差距
查看表格中的 LLM Prompting (LLM 提示) 部分。对于英语 (En),Llama-3.1-8B 获得了 0.801 的分数。这非常出色。
现在看看僧伽罗语 (Si)。同一个模型的得分仅为 0.396 。
这是巨大的性能退化。虽然 LLM 被誉为通用推理器,但它们在未经过大量训练的语言中确定语义相似度的能力很差。
关键发现 2: 老派 vs. 新潮
令人惊讶的是,对于低资源语言,更老、更简单的方法往往获胜。
- LaBSE , 一种几年前发布的基于 BERT 的句子编码器,在僧伽罗语上达到了 0.499 , 显著击败了庞大的 Llama-3 模型。
- 即使是 SIF (平滑逆词频) ,这种简单的数学加权方法,在低资源环境中也与 LLM 旗鼓相当。
这表明对于“弱者”语言,巨大的参数量并不自动转化为更好的语义理解。像 LaBSE 这样专门的多语言编码器仍然占据王座,因为它们是专门为在共享向量空间中对齐语言而设计的。
关键发现 3: 有监督训练至高无上
表格的底部部分 (“Training Transformers”) 显示了模型在 MUSTS 数据上进行实际训练后的结果。分数大幅跃升。 InfoXLM Large 取得了 0.88 的平均分,碾压了所有无监督方法。这证实了虽然“零样本”LLM 的能力值得炒作,但在生产环境中,微调 Transformer 仍然是获得业界领先结果的最佳方式。
数据分布一瞥
为什么这项任务对某些语言来说如此困难?部分答案在于数据本身。让我们比较一下高资源语言 (英语) 和低资源语言 (僧伽罗语) 的数据集。
英语数据结构

在英语数据集中 (上排) ,我们看到了健康的句子对分布。“单词共享率 (Word Share)” (两个句子之间重叠单词的数量) 是相似度的一个不错的代理指标。随着相似度得分 (x 轴) 的上升,单词共享率 (y 轴) 通常也会上升。模型可以在一定程度上依赖词汇重叠 (匹配关键词) 来进行猜测。
僧伽罗语数据结构

现在看看僧伽罗语。训练集 (图表 3) 在小提琴图中显示出截然不同的形状。即使在高相似度区间 (3-4 和 4-5) ,“单词共享率”也非常分散。由于该语言复杂的形态和丰富的词汇,两句僧伽罗语可以在语义上完全相同,但共享的单词却很少。
这使得模型的任务变得更加困难。它不能依赖简单的关键词匹配;它必须真正“理解”潜在的概念。这种形态上的复杂性解释了为什么简单的向量平均法会失败,以及为什么模型需要特定的训练才能在这里取得成功。
结论与启示
MUSTS 论文为 NLP 社区提供了一次现实检验。虽然我们要经常听到最新的 GPT 或 Llama 模型已经“打破了语言障碍”,但数据表明事实并非如此。
给学生和从业者的主要启示:
- 不要盲目相信排行榜: 在 MTEB (由英语/高资源数据主导) 上排名第一的模型,对于你的特定语言需求来说可能是平庸的。MUSTS 中的排名与 MTEB 存在显著差异。
- LLM 不是魔法: 对于低资源语义相似度,像 LaBSE 这样较小的专用模型或微调过的 XLM-R 往往优于通用的像大型语言模型。
- 数据质量至关重要: MUSTS 的成功证明了严格标注、干净的数据比海量、嘈杂、机器翻译的数据集更有价值。
随着我们的前进,像 MUSTS 这样的基准测试是必不可少的。它们迫使我们超越“赢家”语言,确保 AI 革命包含数十亿讲“弱者”语言的人们。如果你正在构建多语言应用程序,在 MUSTS 上评估你的模型,而不是仅仅翻译英语基准,是通往真正可靠性的必要一步。
](https://deep-paper.org/en/paper/file-2366/images/cover.png)