LLM 是否用一种通用语言思考?解码概念空间对齐

当你要求像 Llama-2 或 BLOOMZ 这样的多语言大语言模型 (LLM) 将一句话从英语翻译成法语,或者用日语推理一个概念时,其内部究竟发生了什么?

模型是为每种语言保留了独立的“大脑”,还是它已经进化出了一个共享的、通用的“概念空间”,在这个空间里,“狗”这个概念无论被称为“dog”、“chien”还是“inu”,都存储在相同的数学位置上?

这是自然语言处理 (NLP) 中的一个根本性问题。我们知道这些模型行之有效,但我们仍在探索它们为什么能在不同语言之间表现出如此好的泛化能力。Qiwei Peng 和 Anders Søgaard 发表的一篇引人入胜的研究论文 “Concept Space Alignment in Multilingual LLMs” (多语言 LLM 中的概念空间对齐) 正是调查了这一现象。

在这篇文章中,我们将剖析他们的研究,以了解 LLM 如何组织概念,我们如何在数学上测量这些语言的“形状”,以及为什么我们向模型发出提示 (Prompt) 的方式实际上可能会破坏其内部的逻辑结构。

核心问题: 隐式对齐

在历史上,为了让计算机理解英语的“cat”和西班牙语的“gato”是相关的,我们需要用平行数据 (在语言之间翻译的句子) 对它们进行显式训练。然而,现代 LLM 通常是在海量的单语文本堆上训练的——先是数 TB 的英语,然后是数 TB 的法语,依此类推。

尽管如此,它们表现出了惊人的跨语言能力。研究人员假设这是隐式向量空间对齐 (implicit vector space alignment) 的结果。简单来说,他们怀疑模型的内部压缩迫使它以几何上相似的方式组织不同语言中的概念。如果英语中“King”减去“Man”的向量等于“Queen”,那么同样的几何关系理想情况下也应该存在于法语中。

如果这个假设成立,我们应该能够提取整个英语概念空间的几何“形状”,并简单地通过旋转它来与法语空间完美匹配 (使用线性变换) 。

设置: 定义“概念”

为了测试这一点,研究人员不仅使用了随机单词,还使用了 WordNet 同义词集 (synsets) 。 同义词集是一组被认为在语义上等价的数据元素。这有助于区分河流的“bank” (岸) 和存钱的“bank” (银行) 。

他们收集了涵盖 7 种不同语言的 4,397 个平行概念:

  • 印欧语系: 英语 (en)、法语 (fr)、罗马尼亚语 (ro)
  • 非印欧语系: 巴斯克语 (eu)、芬兰语 (fi)、日语 (ja)、泰语 (th)

Examples of four parallel WordNet concepts, aligned across 7 languages. 图 1: 四个平行 WordNet 概念的示例,在 7 种语言中对齐。

如图 1 所示,目标是在这些不同的语言中对齐特定的概念,如“failure” (失败) 或“lizard” (蜥蜴) 。请注意,他们并不仅仅挑选简单的语言;包含泰语、日语和巴斯克语 (一种孤立语言) 为模型提供了严格的测试。

数据集被分为训练集 (种子字典) 和测试集,并进一步分类为抽象 (Abstract) 概念 (例如,“happiness”幸福) 和物理 (Physical) 概念 (例如,“lizard”蜥蜴) 。

Table 1: The statistics of the parallel concept dataset. 表 1: 平行概念数据集的统计信息。

方法论: 提取 LLM 的“脑电波”

那么,我们如何测量模型在想什么呢?作者尝试了两种不同的方法从 10 个不同的 LLM (包括 Llama-2、BLOOMZ 和 mT0) 中提取概念嵌入 (Concept Embeddings)

1. 普通词嵌入 (Vanilla Word Embeddings)

这是标准方法。他们将单词 (概念) 输入模型,并提取最后一个 token 的内部表示 (向量) (或取平均值) 。这代表了模型对单词的原始、静态理解。

2. 基于提示的嵌入 (Prompt-Based Embeddings)

由于现代 LLM 经过微调以遵循指令,研究人员尝试了一种更自然的方法。他们将概念包裹在一个提示模板中:

“Summarize concept [text] in one [lang] word:” (用一个 [语言] 单词总结概念 [文本]: )

例如: “Summarize concept ‘animal’ in one Japanese word”。然后,他们提取此过程中模型的隐藏状态向量。这是为了测试遵循指令的行为是否会改变概念的几何形状。

对齐的数学原理: 普洛克路斯忒斯分析 (Procrustes Analysis)

一旦他们获得了英语概念的向量和法语概念的向量,他们就需要看看它们是否能拼合在一起。想象一下你有两张世界地图,但其中一张被旋转并稍微缩小了。为了证明它们是同一张地图,你需要找到一个数学函数来旋转和缩放其中一张以匹配另一张。

研究人员使用了普洛克路斯忒斯分析 , 这是一种用于对齐形状的统计技术。他们寻找一个线性变换矩阵 (\(W^*\)),该矩阵能最小化源语言空间 (\(X\)) 和目标语言空间 (\(Y\)) 之间的距离。

Equation for Procrustes Analysis

在这个方程中:

  • \(X\) 是源语言中的概念向量矩阵。
  • \(Y\) 是英语中的概念向量矩阵。
  • \(W\) 是我们要学习的旋转矩阵。

如果模型具有高质量的隐式对齐,这个线性方程应该足以将法语概念完美地映射到英语概念上。

实验与关键结果

研究人员将其视为一个检索任务。在将法语空间旋转到英语空间后,他们取一个法语概念向量,应用变换,并在英语空间中寻找它的“最近邻居”。

如果对齐是完美的,变换后的“chien”向量的最近邻居应该是“dog”。他们使用 Precision@1 (P@1) 来衡量这一点。

结果 1: 大型模型表现出高线性度

第一个主要发现是,大型多语言模型确实包含高度线性的概念结构。

请看下面的图 2。这张图表信息量很大,我们来拆解一下:

  • 柱状图 (上限) : 蓝色和橙色柱子代表“上限” (Ceiling) 性能。这是如果我们使用监督数据 (使用测试数据来训练对齐) 所能达到的最佳对齐效果。它告诉我们: “线性映射甚至可能吗?”答案是肯定的,尤其是对于橙色柱子 (普通嵌入) 。
  • 折线 (实际性能) : 黑色虚线代表从训练集学习对齐后的实际测试性能。

Performance of different LLMs on concept alignment 图 2: 不同 LLM 的性能 (P@1)。比较了对齐前 (红色) 、对齐后 (黑色) 的性能以及理论上限 (柱状图) 。

高上限表明单语概念空间与英语几乎同构 (形状相同) 。 这表明大规模和压缩迫使模型发现一种通用的概念几何结构,无论语言如何。

结果 2: 提示 (Prompting) 破坏了几何结构

这是最令人惊讶的发现之一。对比图 2 中的橙色柱子 (普通嵌入) 和蓝色柱子 (基于提示的嵌入) 。

在几乎所有情况下 (特别是对于 Llama-2) , 橙色柱子都更高

这意味着普通词嵌入比基于提示的嵌入更具线性。 当你通过提示 (指令) 处理一个单词时,模型会进行复杂的非线性处理,实际上扭曲了纯粹的“概念形状”。虽然提示对于生成文本很有用,但它似乎破坏了原始权重中存在的隐式跨语言对齐。

然而,请注意黑色线条 (对齐后的性能) 。与对齐前相比,基于提示的嵌入在对齐后通常会有巨大的性能飞跃。虽然几何形状不那么完美,但它仍然是高度可对齐的。

结果 3: “语言类型学”差距

模型不是魔法;它们在处理与英语差异很大的语言时会很吃力。

  • 第 1 组 (法语、罗马尼亚语) : 表现极佳。
  • 第 3 组 (日语、泰语) : 表现显著下降。

这证实了 NLP 中一个长期存在的问题: 泛化在语言类型学 (句子结构和语法) 相似的语言中效果最好。

结果 4: 抽象概念悖论

直觉上,你可能会认为物理概念更容易对齐。“蜥蜴”是实体物体,在法国和日本看起来都一样。而像“失败”这样的“抽象”概念则依赖于文化且具有细微差别。

然而,数据显示的情况恰恰相反。

Table 2: Results for abstract and physical concepts 表 2: 抽象概念与物理概念的 Precision@1 结果对比。

如表 2 所示,在几乎所有模型和语言中, 抽象概念的对齐效果都优于物理概念 。 在 Llama2-13B (法语) 中,抽象概念的精确度达到 63.48%,而物理概念仅达到 50.12%。

为什么? 研究人员调查了几种假设,例如词义模糊性 (义项数量) ,但发现相关性最强的是频率 (Frequency)

Table 3: Number of senses and frequency of words 表 3: 数据集的频率分析。

像“爱”、“时间”或“想法”这样的抽象词在训练数据 (维基百科、网络爬虫等) 中出现得非常频繁。像“蜥蜴”或“方向盘”这样的物理词相对较少见。

事实证明, 频率驱动对齐 。 模型在如此多样的上下文中看到抽象概念,以至于它为它们学习了非常稳健、定义明确的向量表示,创造了一个更稳定的几何结构,从而容易跨语言对齐。

跨规模的一致性

研究人员并没有止步于几个模型。他们验证了这些发现在不同规模的模型中都是成立的,参数量从 12 亿到 700 亿不等。

Figure 3: Performance of different LLMs across model sizes 图 3: 跨广泛模型系列和规模的性能。

图 3 强化了这一结论:

  1. 越大越好: 更大的模型 (如 Llama2-70B) 通常显示出更高的上限和更好的对齐。
  2. 一致性: 抽象 > 物理以及印欧语系 > 非印欧语系的趋势无论模型大小如何都成立。

结论与启示

这篇论文提供了令人信服的证据,表明多语言 LLM 不仅仅是在死记硬背翻译。它们正在构建一个共享的、几何的概念空间

以下是给学生和从业者的关键启示:

  1. 隐式通用性: 足够大的模型自然会在不同语言的概念上收敛于相似的“形状”。我们不一定需要海量的平行语料库来实现这一点;它源于参数效率和压缩。
  2. 提示的权衡: 虽然我们喜欢聊天界面的提示功能,但这项研究表明,提示会给概念的语义表示增加“噪音”。如果你将 LLM 用于基于嵌入的检索或聚类, 普通嵌入在结构上可能优于基于提示的嵌入。
  3. 数据频率很重要: 抽象概念比物理概念对齐得更好这一反直觉的发现,严酷地提醒我们: 模型学到什么是由它最常看到什么定义的。 如果我们希望模型更好地理解物理世界,我们需要平衡训练数据中物理概念的频率。

随着我们要迈向更大、更强的模型,理解这种“思想的几何学”对于构建能够跨越所有人类语言鸿沟的真正通用系统至关重要。