引言

大型语言模型 (LLM) 在语言翻译方面已经取得了显著的熟练度。你可以要求模型将一句话从英语翻译成藏语,它通常能做得还算过得去。但语言不仅仅是语法和词汇;它是文化的载体。

AI 研究界目前面临的一个关键问题是: LLM 实际上是“理解”了与其所讲语言相关的文化,还是仅仅在进行词语映射?具体来说,文化知识是如何在语言之间流动的?如果一个 LLM 在通过英文文本训练时了解了韩国的节日,当用韩语提问时,它能自动知道这个节日吗?反之,学习蒙古语这种低资源语言,能用英语教会模型关于蒙古文化的知识吗?

最新的研究表明,这一过程——即跨语言迁移 (cross-lingual transfer) ——并不像我们希望的那样简单。在论文 Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 中,来自北京大学的研究人员揭示了一个有趣的差异。虽然知识在高资源语言 (如英语和中文) 之间可以自由流动,但对于低资源语言来说,这座桥梁却变成了单行道。

图 1: 在非英语语言上进行持续预训练时,LLM 可能会表现出不同的跨语言文化知识迁移模式。对于使用高资源语言的社区,文化知识的迁移往往是双向的,但对于低资源语言,迁移通常保持不对称。

图 1 所示,迁移模式存在明显差异。对于高资源语言,迁移是对称的。然而,对于低资源语言,虽然模型可以将文化知识母语迁移英语,但在反向迁移时却很吃力。

在这篇文章中,我们将解构用于发现这种不对称性的实验框架,解释证明这一现象合理的“频率假设”,并探讨这对多语言 AI 的未来意味着什么。

背景: 黑盒问题

要理解为什么这项研究是必要的,我们首先必须解决 LLM 研究中的一个主要障碍: 不透明性 (opacity)

大多数最先进的模型 (如 GPT-4 或 Claude) 都是闭源的。我们不知道它们训练数据的确切构成。如果一个模型正确回答了关于藏族文化的问题,我们无法确定:

  1. 它是从英文文档中学到的答案。
  2. 它是从藏文文档中学到的答案。
  3. 它是将知识从一种语言迁移到了另一种语言。

为了研究迁移机制,研究人员不能依赖现有的巨型模型。他们必须建立一个受控环境 。 这涉及到从头开始训练一个模型,且必须对它见过的每一份文档都了如指掌。

持续预训练 (Continual Pretraining, CPT)

这项研究的重点在于一个称为持续预训练的阶段。这是一种常见技术,即在基础模型 (通常是用英语训练的) 之上,针对新的目标语言进行进一步训练。其目的是让模型适应新语言。研究人员想要观察的是,在这个阶段,文化知识是否会跨越语言障碍进行“传送”。

核心方法: 一个可解释的框架

作者设计了一个严谨的框架,以将跨语言迁移的影响与单纯的语言学习隔离开来。该方法论依赖于三大支柱: 透明的数据、解耦的迁移效应以及双语评估。

1. 透明的预训练

研究人员没有使用现成的模型,而是仅使用英文维基百科数据从头开始训练了一个 5 亿参数的模型 (基于 Qwen 架构) 。关键在于,他们过滤掉了所有非拉丁字符。这确保了在实验开始之前,基础模型绝对没有接触过目标语言 (韩语、中文、藏语或蒙古语) 。

2. 解耦迁移效应 (“桥梁”实验)

这是该方法论中最具创新性的部分。要衡量“迁移”,你必须证明模型不仅仅是在新语言中独立学到了该事实。

研究人员为持续预训练阶段设置了两种截然不同的训练设置:

  1. 带跨语言桥梁 (With Cross-Lingual Bridges) : 模型在学习新语言的同时,也接触平行句对 (例如,一句英文与其翻译连接在一起) 。这显式地帮助模型对齐两种语言。
  2. 无跨语言桥梁 (Without Cross-Lingual Bridges) : 模型看到的是完全相同的数据——相同的英文句子,相同的目标语言句子——但平行句对被打乱并分开 。 它们从未出现在同一个上下文窗口中。

图 2: 我们要究跨语言文化知识迁移的框架。我们以英语和藏语 (bo) 之间的迁移为例。

图 2 以英语和藏语为例通过可视化展示了这一设置。

  • 左侧: 基础模型纯粹由英语训练。
  • 中间 (分叉) :
  • “带桥梁 (w/ Bridges) ” 路径中,模型看到对齐的文档。它了解到英语中的 “Yak” 对应特定的藏语词汇。
  • “无桥梁 (w/o Bridges) ” 路径中,这种链接被切断了。
  • 右侧: 我们评估模型。

差距的逻辑: 如果模型在“带桥梁”设置下的表现显著优于“无桥梁”设置,那么这种性能差距就代表了跨语言迁移 。 这意味着模型利用“桥梁” (平行数据) 访问了它在一种语言中已有的知识,以此来回答另一种语言的问题。

3. 双语平行评估

为了测试文化知识,研究人员收集了关于四种特定文化的问题。他们确保这些问题在英语和母语中都存在。

  • 英语到目标的迁移 (English-to-Target) : 模型能否利用 (在基础训练期间) 用英语学到的知识来回答用目标语言提出的问题?
  • 目标到英语的迁移 (Target-to-English) : 模型能否利用 (在持续预训练期间) 用目标语言学到的知识来回答用英语提出的问题?

实验与结果

该研究侧重于四个文化社区,旨在代表高资源语言和低资源语言的混合体。

表 2: 本文研究的文化社区及其语言信息。

表 2 所示,研究人员考察了:

  1. 韩国人 (高资源语言) : 数据丰富。
  2. 汉族 (高资源语言) : 数据非常丰富。
  3. 藏族 (低资源语言) : 数据稀缺;文字独特。
  4. 中国蒙古族 (低资源语言) : 数据稀缺;文字独特。

他们为每个群体收集了数百个文化特定的问题 (例如,关于节日、历史和习俗) 。下方的表 3 详细列出了数据集的统计信息,特别指出了为低资源语言收集数据的挑战,因为文字的性质导致问题长度可能会有很大差异。

表 3: 文化探测问题的统计数据。平均长度由 Qwen-2.5-0.5B 的分词器生成的 token 数来衡量。

结果: 关于两种迁移模式的发现

实验结果揭示了论文标题中强调的“不对称现象”。让我们来分析一下性能图表。

图 3: 不同设置下,针对非英语文化问题的准确率随持续预训练 (CT) 步数的变化。绘图时使用了 EMA 平滑,权重设为 0.8。

图 3 展示了准确率随训练步数的变化。 蓝线代表“带桥梁”设置 (启用迁移) , 橙线代表“无桥梁”设置 (无迁移) 。两条线之间的差距即为迁移效应。

1. 高资源语言 (第 1 行和第 2 行: 韩语、中文)

看图 1a2a (目标语言评估) 。蓝线和橙线之间存在一致的差距。这意味着英语知识正在成功地帮助模型回答韩语和中文的问题。

再看图 1b2b (英语评估) 。差距甚至更大。随着模型学习中文或韩语,它将新的文化知识反向迁移到了其英语能力中。

  • 结论: 迁移是双向的 。 桥梁支持双向通行。

2. 低资源语言 (第 3 行和第 4 行: 藏语、蒙古语)

这才是真正有趣的地方。

  • 目标到英语 (图 3b 和 4b) : 看最下面一行。存在明显的差距。蓝线更高。这意味着当模型阅读藏语或蒙古语文本时,它确实成功地将文化知识迁移到了英语中。它在藏语中学到了藏族习俗,并通过桥梁,能够用英语回答相关问题。
  • 英语到目标 (图 3a 和 4a) : 看第三行。线条几乎重叠,或者差距微不足道/不一致。“桥梁”并没有起到太大作用。
  • 结论: 迁移是不对称的 。 知识从低资源语言向流动,但英语知识并不能流以帮助解决低资源语言的任务。

频率假设: 为何会出现不对称?

为什么对于藏语和蒙古语,桥梁只在单方向起作用?

研究人员提出了基于频率的假设 (Frequency-Based Hypothesis) : 文化知识只有在源训练数据中出现的频率足够高时,才会发生迁移。

为了证明这一点,他们计算了文化密度 (Cultural Density) ——即文化关键词在不同语言语料库中出现的频率。

表 1: 不同文化在英语和非英语语料库中的文化密度。

表 1 提供了确凿的证据:

  1. 高资源案例: 对于韩国和中国文化,英语语料库和母语语料库中的密度大致相当 (在同一数量级) 。英文维基百科谈论中国和韩国的内容非常多。因此,英语中有足够的“源材料”可以迁移到母语中。
  2. 低资源案例: 看看藏族和蒙古族的数据。
  • 在英语语料库中: 密度非常低 (~1.5e-7) 。
  • 在母语语料库中: 密度明显更高 (对于藏语大约高出 60 倍) 。

解释: 模型无法迁移它不知道的东西。英语基础模型几乎不知道任何关于藏族文化的知识,因为这些概念很少出现在英文维基百科中。因此,建立从英语到藏语的“桥梁”并不会给藏语一侧带来任何新的文化见解。

然而,反过来却效果极佳。藏语语料库中富含藏族文化。当模型阅读这些内容时,“桥梁”允许它将这些丰富的知识输出到英语的概念空间中。

结论与启示

这篇论文对当前多语言 LLM 的局限性提出了冷静的审视。它挑战了这样一个假设: 仅仅训练一个巨大的英语模型并“教它语言”,就能自动产生一个具有文化智能的系统。

主要收获:

  1. 迁移不是必然的: 仅仅因为一个模型懂两种语言,并不意味着它能完美地在两者之间共享知识。
  2. 数据稀疏是瓶颈: 对于低资源文化,以英语为中心的模型往往缺乏可供迁移的“源知识”。你无法在虚空之上架桥。
  3. 低资源语言的“出口”价值: 有趣的是,在低资源语言上进行训练,对于用英语教模型了解这些文化非常有效。这表明,保存和使用低资源语言数据不仅对这些社区至关重要,对于丰富英语 AI 的全球知识库也至关重要。

这项研究强调了数据透明度和精心设计的课程的重要性。如果我们希望 AI 真正代表全球多样性,就不能仅仅依赖英语数据的巨大引力。我们必须确保我们建造的“桥梁”在河流两岸都有坚实的基础。