引言
大型语言模型 (LLM) 在语言翻译方面已经取得了显著的熟练度。你可以要求模型将一句话从英语翻译成藏语,它通常能做得还算过得去。但语言不仅仅是语法和词汇;它是文化的载体。
AI 研究界目前面临的一个关键问题是: LLM 实际上是“理解”了与其所讲语言相关的文化,还是仅仅在进行词语映射?具体来说,文化知识是如何在语言之间流动的?如果一个 LLM 在通过英文文本训练时了解了韩国的节日,当用韩语提问时,它能自动知道这个节日吗?反之,学习蒙古语这种低资源语言,能用英语教会模型关于蒙古文化的知识吗?
最新的研究表明,这一过程——即跨语言迁移 (cross-lingual transfer) ——并不像我们希望的那样简单。在论文 Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 中,来自北京大学的研究人员揭示了一个有趣的差异。虽然知识在高资源语言 (如英语和中文) 之间可以自由流动,但对于低资源语言来说,这座桥梁却变成了单行道。

如图 1 所示,迁移模式存在明显差异。对于高资源语言,迁移是对称的。然而,对于低资源语言,虽然模型可以将文化知识从母语迁移到英语,但在反向迁移时却很吃力。
在这篇文章中,我们将解构用于发现这种不对称性的实验框架,解释证明这一现象合理的“频率假设”,并探讨这对多语言 AI 的未来意味着什么。
背景: 黑盒问题
要理解为什么这项研究是必要的,我们首先必须解决 LLM 研究中的一个主要障碍: 不透明性 (opacity) 。
大多数最先进的模型 (如 GPT-4 或 Claude) 都是闭源的。我们不知道它们训练数据的确切构成。如果一个模型正确回答了关于藏族文化的问题,我们无法确定:
- 它是从英文文档中学到的答案。
- 它是从藏文文档中学到的答案。
- 它是将知识从一种语言迁移到了另一种语言。
为了研究迁移机制,研究人员不能依赖现有的巨型模型。他们必须建立一个受控环境 。 这涉及到从头开始训练一个模型,且必须对它见过的每一份文档都了如指掌。
持续预训练 (Continual Pretraining, CPT)
这项研究的重点在于一个称为持续预训练的阶段。这是一种常见技术,即在基础模型 (通常是用英语训练的) 之上,针对新的目标语言进行进一步训练。其目的是让模型适应新语言。研究人员想要观察的是,在这个阶段,文化知识是否会跨越语言障碍进行“传送”。
核心方法: 一个可解释的框架
作者设计了一个严谨的框架,以将跨语言迁移的影响与单纯的语言学习隔离开来。该方法论依赖于三大支柱: 透明的数据、解耦的迁移效应以及双语评估。
1. 透明的预训练
研究人员没有使用现成的模型,而是仅使用英文维基百科数据从头开始训练了一个 5 亿参数的模型 (基于 Qwen 架构) 。关键在于,他们过滤掉了所有非拉丁字符。这确保了在实验开始之前,基础模型绝对没有接触过目标语言 (韩语、中文、藏语或蒙古语) 。
2. 解耦迁移效应 (“桥梁”实验)
这是该方法论中最具创新性的部分。要衡量“迁移”,你必须证明模型不仅仅是在新语言中独立学到了该事实。
研究人员为持续预训练阶段设置了两种截然不同的训练设置:
- 带跨语言桥梁 (With Cross-Lingual Bridges) : 模型在学习新语言的同时,也接触平行句对 (例如,一句英文与其翻译连接在一起) 。这显式地帮助模型对齐两种语言。
- 无跨语言桥梁 (Without Cross-Lingual Bridges) : 模型看到的是完全相同的数据——相同的英文句子,相同的目标语言句子——但平行句对被打乱并分开 。 它们从未出现在同一个上下文窗口中。

图 2 以英语和藏语为例通过可视化展示了这一设置。
- 左侧: 基础模型纯粹由英语训练。
- 中间 (分叉) :
- 在 “带桥梁 (w/ Bridges) ” 路径中,模型看到对齐的文档。它了解到英语中的 “Yak” 对应特定的藏语词汇。
- 在 “无桥梁 (w/o Bridges) ” 路径中,这种链接被切断了。
- 右侧: 我们评估模型。
差距的逻辑: 如果模型在“带桥梁”设置下的表现显著优于“无桥梁”设置,那么这种性能差距就代表了跨语言迁移 。 这意味着模型利用“桥梁” (平行数据) 访问了它在一种语言中已有的知识,以此来回答另一种语言的问题。
3. 双语平行评估
为了测试文化知识,研究人员收集了关于四种特定文化的问题。他们确保这些问题在英语和母语中都存在。
- 英语到目标的迁移 (English-to-Target) : 模型能否利用 (在基础训练期间) 用英语学到的知识来回答用目标语言提出的问题?
- 目标到英语的迁移 (Target-to-English) : 模型能否利用 (在持续预训练期间) 用目标语言学到的知识来回答用英语提出的问题?
实验与结果
该研究侧重于四个文化社区,旨在代表高资源语言和低资源语言的混合体。

如表 2 所示,研究人员考察了:
- 韩国人 (高资源语言) : 数据丰富。
- 汉族 (高资源语言) : 数据非常丰富。
- 藏族 (低资源语言) : 数据稀缺;文字独特。
- 中国蒙古族 (低资源语言) : 数据稀缺;文字独特。
他们为每个群体收集了数百个文化特定的问题 (例如,关于节日、历史和习俗) 。下方的表 3 详细列出了数据集的统计信息,特别指出了为低资源语言收集数据的挑战,因为文字的性质导致问题长度可能会有很大差异。

结果: 关于两种迁移模式的发现
实验结果揭示了论文标题中强调的“不对称现象”。让我们来分析一下性能图表。

图 3 展示了准确率随训练步数的变化。 蓝线代表“带桥梁”设置 (启用迁移) , 橙线代表“无桥梁”设置 (无迁移) 。两条线之间的差距即为迁移效应。
1. 高资源语言 (第 1 行和第 2 行: 韩语、中文)
看图 1a 和 2a (目标语言评估) 。蓝线和橙线之间存在一致的差距。这意味着英语知识正在成功地帮助模型回答韩语和中文的问题。
再看图 1b 和 2b (英语评估) 。差距甚至更大。随着模型学习中文或韩语,它将新的文化知识反向迁移到了其英语能力中。
- 结论: 迁移是双向的 。 桥梁支持双向通行。
2. 低资源语言 (第 3 行和第 4 行: 藏语、蒙古语)
这才是真正有趣的地方。
- 目标到英语 (图 3b 和 4b) : 看最下面一行。存在明显的差距。蓝线更高。这意味着当模型阅读藏语或蒙古语文本时,它确实成功地将文化知识迁移到了英语中。它在藏语中学到了藏族习俗,并通过桥梁,能够用英语回答相关问题。
- 英语到目标 (图 3a 和 4a) : 看第三行。线条几乎重叠,或者差距微不足道/不一致。“桥梁”并没有起到太大作用。
- 结论: 迁移是不对称的 。 知识从低资源语言向外流动,但英语知识并不能流入以帮助解决低资源语言的任务。
频率假设: 为何会出现不对称?
为什么对于藏语和蒙古语,桥梁只在单方向起作用?
研究人员提出了基于频率的假设 (Frequency-Based Hypothesis) : 文化知识只有在源训练数据中出现的频率足够高时,才会发生迁移。
为了证明这一点,他们计算了文化密度 (Cultural Density) ——即文化关键词在不同语言语料库中出现的频率。

表 1 提供了确凿的证据:
- 高资源案例: 对于韩国和中国文化,英语语料库和母语语料库中的密度大致相当 (在同一数量级) 。英文维基百科谈论中国和韩国的内容非常多。因此,英语中有足够的“源材料”可以迁移到母语中。
- 低资源案例: 看看藏族和蒙古族的数据。
- 在英语语料库中: 密度非常低 (~1.5e-7) 。
- 在母语语料库中: 密度明显更高 (对于藏语大约高出 60 倍) 。
解释: 模型无法迁移它不知道的东西。英语基础模型几乎不知道任何关于藏族文化的知识,因为这些概念很少出现在英文维基百科中。因此,建立从英语到藏语的“桥梁”并不会给藏语一侧带来任何新的文化见解。
然而,反过来却效果极佳。藏语语料库中富含藏族文化。当模型阅读这些内容时,“桥梁”允许它将这些丰富的知识输出到英语的概念空间中。
结论与启示
这篇论文对当前多语言 LLM 的局限性提出了冷静的审视。它挑战了这样一个假设: 仅仅训练一个巨大的英语模型并“教它语言”,就能自动产生一个具有文化智能的系统。
主要收获:
- 迁移不是必然的: 仅仅因为一个模型懂两种语言,并不意味着它能完美地在两者之间共享知识。
- 数据稀疏是瓶颈: 对于低资源文化,以英语为中心的模型往往缺乏可供迁移的“源知识”。你无法在虚空之上架桥。
- 低资源语言的“出口”价值: 有趣的是,在低资源语言上进行训练,对于用英语教模型了解这些文化非常有效。这表明,保存和使用低资源语言数据不仅对这些社区至关重要,对于丰富英语 AI 的全球知识库也至关重要。
这项研究强调了数据透明度和精心设计的课程的重要性。如果我们希望 AI 真正代表全球多样性,就不能仅仅依赖英语数据的巨大引力。我们必须确保我们建造的“桥梁”在河流两岸都有坚实的基础。
](https://deep-paper.org/en/paper/2506.01675/images/cover.png)