引言

大型语言模型 (LLM) 在语言翻译方面已经取得了显著的熟练度。你可以要求模型将一句话从英语翻译成藏语，它通常能做得还算过得去。但语言不仅仅是语法和词汇；它是文化的载体。

AI 研究界目前面临的一个关键问题是: LLM 实际上是“理解”了与其所讲语言相关的文化，还是仅仅在进行词语映射？具体来说，文化知识是如何在语言之间流动的？如果一个 LLM 在通过英文文本训练时了解了韩国的节日，当用韩语提问时，它能自动知道这个节日吗？反之，学习蒙古语这种低资源语言，能用英语教会模型关于蒙古文化的知识吗？

最新的研究表明，这一过程——即跨语言迁移 (cross-lingual transfer) ——并不像我们希望的那样简单。在论文 Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 中，来自北京大学的研究人员揭示了一个有趣的差异。虽然知识在高资源语言 (如英语和中文) 之间可以自由流动，但对于低资源语言来说，这座桥梁却变成了单行道。

图 1: 在非英语语言上进行持续预训练时，LLM 可能会表现出不同的跨语言文化知识迁移模式。对于使用高资源语言的社区，文化知识的迁移往往是双向的，但对于低资源语言，迁移通常保持不对称。

如图 1 所示，迁移模式存在明显差异。对于高资源语言，迁移是对称的。然而，对于低资源语言，虽然模型可以将文化知识从母语迁移到英语，但在反向迁移时却很吃力。

在这篇文章中，我们将解构用于发现这种不对称性的实验框架，解释证明这一现象合理的“频率假设”，并探讨这对多语言 AI 的未来意味着什么。

背景: 黑盒问题

要理解为什么这项研究是必要的，我们首先必须解决 LLM 研究中的一个主要障碍: 不透明性 (opacity) 。

大多数最先进的模型 (如 GPT-4 或 Claude) 都是闭源的。我们不知道它们训练数据的确切构成。如果一个模型正确回答了关于藏族文化的问题，我们无法确定:

它是从英文文档中学到的答案。
它是从藏文文档中学到的答案。
它是将知识从一种语言迁移到了另一种语言。

为了研究迁移机制，研究人员不能依赖现有的巨型模型。他们必须建立一个受控环境 。这涉及到从头开始训练一个模型，且必须对它见过的每一份文档都了如指掌。

持续预训练 (Continual Pretraining, CPT)

这项研究的重点在于一个称为持续预训练的阶段。这是一种常见技术，即在基础模型 (通常是用英语训练的) 之上，针对新的目标语言进行进一步训练。其目的是让模型适应新语言。研究人员想要观察的是，在这个阶段，文化知识是否会跨越语言障碍进行“传送”。

核心方法: 一个可解释的框架

作者设计了一个严谨的框架，以将跨语言迁移的影响与单纯的语言学习隔离开来。该方法论依赖于三大支柱: 透明的数据、解耦的迁移效应以及双语评估。

1. 透明的预训练

研究人员没有使用现成的模型，而是仅使用英文维基百科数据从头开始训练了一个 5 亿参数的模型 (基于 Qwen 架构) 。关键在于，他们过滤掉了所有非拉丁字符。这确保了在实验开始之前，基础模型绝对没有接触过目标语言 (韩语、中文、藏语或蒙古语) 。

2. 解耦迁移效应 (“桥梁”实验)

这是该方法论中最具创新性的部分。要衡量“迁移”，你必须证明模型不仅仅是在新语言中独立学到了该事实。

研究人员为持续预训练阶段设置了两种截然不同的训练设置:

带跨语言桥梁 (With Cross-Lingual Bridges) : 模型在学习新语言的同时，也接触平行句对 (例如，一句英文与其翻译连接在一起) 。这显式地帮助模型对齐两种语言。
无跨语言桥梁 (Without Cross-Lingual Bridges) : 模型看到的是完全相同的数据——相同的英文句子，相同的目标语言句子——但平行句对被打乱并分开 。它们从未出现在同一个上下文窗口中。

图 2: 我们要究跨语言文化知识迁移的框架。我们以英语和藏语 (bo) 之间的迁移为例。

图 2 以英语和藏语为例通过可视化展示了这一设置。

左侧: 基础模型纯粹由英语训练。
中间 (分叉) :
在 “带桥梁 (w/ Bridges) ” 路径中，模型看到对齐的文档。它了解到英语中的 “Yak” 对应特定的藏语词汇。
在 “无桥梁 (w/o Bridges) ” 路径中，这种链接被切断了。
右侧: 我们评估模型。

差距的逻辑: 如果模型在“带桥梁”设置下的表现显著优于“无桥梁”设置，那么这种性能差距就代表了跨语言迁移 。这意味着模型利用“桥梁” (平行数据) 访问了它在一种语言中已有的知识，以此来回答另一种语言的问题。

3. 双语平行评估

为了测试文化知识，研究人员收集了关于四种特定文化的问题。他们确保这些问题在英语和母语中都存在。

英语到目标的迁移 (English-to-Target) : 模型能否利用 (在基础训练期间) 用英语学到的知识来回答用目标语言提出的问题？
目标到英语的迁移 (Target-to-English) : 模型能否利用 (在持续预训练期间) 用目标语言学到的知识来回答用英语提出的问题？

实验与结果

该研究侧重于四个文化社区，旨在代表高资源语言和低资源语言的混合体。

表 2: 本文研究的文化社区及其语言信息。

如表 2 所示，研究人员考察了:

韩国人 (高资源语言) : 数据丰富。
汉族 (高资源语言) : 数据非常丰富。
藏族 (低资源语言) : 数据稀缺；文字独特。
中国蒙古族 (低资源语言) : 数据稀缺；文字独特。

他们为每个群体收集了数百个文化特定的问题 (例如，关于节日、历史和习俗) 。下方的表 3 详细列出了数据集的统计信息，特别指出了为低资源语言收集数据的挑战，因为文字的性质导致问题长度可能会有很大差异。

表 3: 文化探测问题的统计数据。平均长度由 Qwen-2.5-0.5B 的分词器生成的 token 数来衡量。

结果: 关于两种迁移模式的发现

实验结果揭示了论文标题中强调的“不对称现象”。让我们来分析一下性能图表。

图 3: 不同设置下，针对非英语文化问题的准确率随持续预训练 (CT) 步数的变化。绘图时使用了 EMA 平滑，权重设为 0.8。

图 3 展示了准确率随训练步数的变化。蓝线代表“带桥梁”设置 (启用迁移) , 橙线代表“无桥梁”设置 (无迁移) 。两条线之间的差距即为迁移效应。

1. 高资源语言 (第 1 行和第 2 行: 韩语、中文)

看图 1a 和 2a (目标语言评估) 。蓝线和橙线之间存在一致的差距。这意味着英语知识正在成功地帮助模型回答韩语和中文的问题。

再看图 1b 和 2b (英语评估) 。差距甚至更大。随着模型学习中文或韩语，它将新的文化知识反向迁移到了其英语能力中。

结论: 迁移是双向的 。桥梁支持双向通行。

2. 低资源语言 (第 3 行和第 4 行: 藏语、蒙古语)

这才是真正有趣的地方。

目标到英语 (图 3b 和 4b) : 看最下面一行。存在明显的差距。蓝线更高。这意味着当模型阅读藏语或蒙古语文本时，它确实成功地将文化知识迁移到了英语中。它在藏语中学到了藏族习俗，并通过桥梁，能够用英语回答相关问题。
英语到目标 (图 3a 和 4a) : 看第三行。线条几乎重叠，或者差距微不足道/不一致。“桥梁”并没有起到太大作用。
结论: 迁移是不对称的 。知识从低资源语言向外流动，但英语知识并不能流入以帮助解决低资源语言的任务。

频率假设: 为何会出现不对称？

为什么对于藏语和蒙古语，桥梁只在单方向起作用？

研究人员提出了基于频率的假设 (Frequency-Based Hypothesis) : 文化知识只有在源训练数据中出现的频率足够高时，才会发生迁移。

为了证明这一点，他们计算了文化密度 (Cultural Density) ——即文化关键词在不同语言语料库中出现的频率。

表 1: 不同文化在英语和非英语语料库中的文化密度。

表 1 提供了确凿的证据:

高资源案例: 对于韩国和中国文化，英语语料库和母语语料库中的密度大致相当 (在同一数量级) 。英文维基百科谈论中国和韩国的内容非常多。因此，英语中有足够的“源材料”可以迁移到母语中。
低资源案例: 看看藏族和蒙古族的数据。

在英语语料库中: 密度非常低 (~1.5e-7) 。
在母语语料库中: 密度明显更高 (对于藏语大约高出 60 倍) 。

解释: 模型无法迁移它不知道的东西。英语基础模型几乎不知道任何关于藏族文化的知识，因为这些概念很少出现在英文维基百科中。因此，建立从英语到藏语的“桥梁”并不会给藏语一侧带来任何新的文化见解。

然而，反过来却效果极佳。藏语语料库中富含藏族文化。当模型阅读这些内容时，“桥梁”允许它将这些丰富的知识输出到英语的概念空间中。

结论与启示

这篇论文对当前多语言 LLM 的局限性提出了冷静的审视。它挑战了这样一个假设: 仅仅训练一个巨大的英语模型并“教它语言”，就能自动产生一个具有文化智能的系统。

主要收获:

迁移不是必然的: 仅仅因为一个模型懂两种语言，并不意味着它能完美地在两者之间共享知识。
数据稀疏是瓶颈: 对于低资源文化，以英语为中心的模型往往缺乏可供迁移的“源知识”。你无法在虚空之上架桥。
低资源语言的“出口”价值: 有趣的是，在低资源语言上进行训练，对于用英语教模型了解这些文化非常有效。这表明，保存和使用低资源语言数据不仅对这些社区至关重要，对于丰富英语 AI 的全球知识库也至关重要。

这项研究强调了数据透明度和精心设计的课程的重要性。如果我们希望 AI 真正代表全球多样性，就不能仅仅依赖英语数据的巨大引力。我们必须确保我们建造的“桥梁”在河流两岸都有坚实的基础。

引言#

背景: 黑盒问题#

持续预训练 (Continual Pretraining, CPT)#

核心方法: 一个可解释的框架#

1. 透明的预训练#

2. 解耦迁移效应 (“桥梁”实验)#

3. 双语平行评估#

实验与结果#

结果: 关于两种迁移模式的发现#

1. 高资源语言 (第 1 行和第 2 行: 韩语、中文)#

2. 低资源语言 (第 3 行和第 4 行: 藏语、蒙古语)#

频率假设: 为何会出现不对称？#

结论与启示#

引言