AI 的双语大脑：语言模型能否模拟第二语言习得？

如果你曾尝试在成年后学习第二语言 (L2) ，你应该深知其中的挣扎。你可能掌握了词汇，但却发现自己本能地使用母语 (L1) 的语法规则来排列单词。这种现象被称为母语迁移 (L1 transfer) 。例如，以西班牙语为母语的人可能会说 “the car red” 而不是 “the red car”，因为在西班牙语中形容词通常跟在名词之后。

在自然语言处理 (NLP) 领域，研究人员越来越多地提出这样的问题: 我们能否在机器中模拟这种认知过程？我们能否构建出模仿非母语使用者处理英语方式的“L2 语言模型”？

最近的一篇论文《Modeling Nonnative Sentence Processing with L2 Language Models》 (用 L2 语言模型模拟非母语句子处理) 正是针对这一问题进行了研究。研究人员调查了一个先后在两种语言上进行训练的生成式预训练 Transformer (GPT-2) 是否会表现出与人类第二语言学习者相同的处理“怪癖”。他们的发现不仅揭示了 AI 如何学习，也可能揭示了我们人类是如何学习的。

AI 的认知差距

如今大多数的大型语言模型 (LLM) 都是同时在海量的多语言数据集上进行训练的。虽然它们是令人印象深刻的“多语言通才”，但它们的学习方式并不一定像人类。人类的学习是循序渐进的: 我们先掌握母语 (L1) ，然后在此基础上叠加第二语言 (L2) 。

这篇论文的作者旨在弥合计算语言学和心理语言学之间的差距。他们旨在测试两个主要假设:

语法迁移: 模型的“母语”是否会影响其学习英语语法的效果？ (例如，预训练于西班牙语的模型是否比预训练于日语的模型学英语学得更好？)
处理相似性: 模型的处理难度 (通过“惊奇度”衡量) 是否与具有相同母语背景的人类的阅读时间相匹配？

方法: 冻结“大脑”

为了模拟已经拥有一套语法系统的学习者，研究人员采用了一种称为 TILT (通过语言迁移测试归纳偏置) 的技术。

这种设置是对人类成年后大脑可塑性 (或缺乏可塑性) 的一种有趣近似。以下是他们构建“L2 语言模型” (L2LM) 的方法:

L1 训练 (童年期) : 首先，他们从头开始在六种特定的第一语言 (L1) 上训练 GPT-2 模型: 阿拉伯语、中文、英语、日语、葡萄牙语和西班牙语。
“冻结” (成年期) : 一旦模型学会了它的 L1，研究人员就会冻结内部的 Transformer 层 (解码器模块) 。这些层包含了语言的抽象语法和结构规则。
L2 训练 (第二语言习得) : 然后，他们继续在英语 (L2) 上训练模型。然而，由于中间层被冻结，模型只能更新其嵌入层 (词汇) 和输出层 。

这种设置迫使模型使用其原始语言的“语法回路”来处理英语单词。

图 1: L2LM 的训练设置。首先在给定的 L1 上预训练模型。然后我们冻结除嵌入层和输出层以外的所有层，接着在 L2 (英语) 上继续预训练。

如图 1 所示，“解码器层 (Decoder Layers) ”在 L2 阶段保持冻结状态。这模拟了一个 L2 学习者虽然习得了新词汇 (嵌入) ，但在将句子组合在一起时仍依赖于母语的结构逻辑。

实验: 人类 vs. 机器

为了对这些模型进行基准测试，研究人员需要人类数据。他们使用了 CELER 语料库 , 其中包含 365 名参与者阅读英语句子的眼动追踪数据。关键在于，这些参与者来自与模型相同的六种语言背景 (阿拉伯语、中文、英语、日语、葡萄牙语、西班牙语) 。

比较的依据是一个叫做惊奇理论 (Surprisal Theory) 的概念。在心理语言学中，“惊奇度”衡量的是一个单词在给定上下文中出现的意外程度。该理论认为，大脑对一个单词越感到“惊讶”，处理它所需的时间就越长 (导致注视时长增加) 。

模型将惊奇度 (\(S_{w_i}\)) 计算为当前单词 (\(w_i\)) 在给定前文语境 (\(w_{

惊奇度公式

如果 L2LM 是人类处理过程的一个好模型，它的惊奇度数值应该与人类的阅读时间相关。如果模型对某个词感到“惊讶”，人类也应该如此。

为了量化这一点，研究人员测量了对数似然增量 (Delta Log-Likelihood, \(\Delta LL\)) 。这个指标代表了当我们把模型的惊奇度数据加入到一个基线回归模型 (仅考虑单词长度和位置) 中时，我们预测人类阅读时间的能力提高了多少。

对数似然增量公式

\(\Delta LL\) 越高，意味着 AI 模型越能有效地解释人类阅读速度的变化。

结果: 母语会影响熟练度吗？

首先，研究人员考察了总体熟练度。AI 的“母语”是否会让它在学习英语时表现得更好或更差？

他们测量了困惑度 (Perplexity) (模型对英语文本的困惑程度；越低越好) 和语法准确性 (使用名为 BLiMP 的基准测试) 。

结果证实了一个广泛持有的语言学理论: 语言类型学距离很关键。 在语言学上与英语更接近的语言有助于模型更好地学习英语。

图 2: L2LM 在 L2 验证集上的困惑度。颜色表示图例中所示的 L2LM 的 L1。

在上面的图 2 中，请看图表的右下角 (30M 训练标记量) 。英语预训练模型 (蓝线) 显然表现最好。但请注意其他的排序:

西班牙语和葡萄牙语: 表现相对较好 (困惑度较低) 。
日语: 表现最差 (困惑度最高) 。

这反映了人类的第二语言习得 (SLA) ；由于共享字母表和相似的句子结构，通常以西班牙语为母语的人比以日语为母语的人更容易学习英语。

这一趋势在语法准确性方面也同样成立:

图 3: L2LM 在 BLiMP 上的表现。

图 3 显示了 BLiMP 基准测试的准确率。在 “4B \(\rightarrow\) 30M” 这一组 (完全训练的 L1，大量的 L2 训练) 中，预训练于西班牙语和葡萄牙语的模型得分高于预训练于中文或日语的模型。这证实了冻结的内部层——即“L1 语法”——确实将正向或负向的归纳偏置迁移到了英语学习过程中。

剧情反转: 预测人类阅读时间

这里是研究产生惊人结果的地方。

研究人员假设，一个日语预训练的 AI 将是日本人类英语阅读时间的最佳预测者。这个逻辑听起来很合理: 如果两个“系统”都透过日语的“透镜”来处理英语，它们应该会在同样的复杂短语上卡壳。

然而，数据讲述了一个不同的故事。

图 4: 将 L2LM 的惊奇度估值加入基线线性回归模型时的 Delta LL。

仔细看图 4 (上图) 。X 轴代表人类的母语 。彩色柱状图代表AI 的母语 。

如果假设成立，那么每一组中颜色匹配的柱子应该是最高的 (例如，在“Japanese”一栏中，棕色的日语柱子应该是最高的) 。 但事实并非如此。

相反，我们看到了两件事:

无“匹配”效应: 模型 L1 的选择对预测准确性的影响微乎其微。
人类 L1 占主导地位: 预测准确性在很大程度上取决于人类是谁。预测英语母语者 (最左侧) 的阅读时间比预测日语母语者 (最右侧) 要难得多。

这表明，虽然 L2LM 捕捉到了阅读难度的某些方面 (因为 \(\Delta LL\) 是正值) ，但它们并没有捕捉到区分西班牙语母语者和中文母语者处理过程的特定“迁移效应”。

学习曲线: 熟练度模型？

虽然“L1 匹配”假设失败了，但研究人员在熟练度方面发现了一个有趣的见解。

他们采用了一个标准的、单语英语模型，并追踪了它在不同训练阶段预测阅读时间的能力。一个“更聪明” (训练更充分) 的模型总是能更好地预测人类行为吗？

图 5: 单语英语 LM 在训练过程中的阅读时间预测能力 (Delta LL) 。

图 5 揭示了一个独特的轨迹。

预测母语者 (第一张图，“English”) : 模型随着训练进行，预测能力越来越强，在约 20 亿个 token 时达到峰值。
预测 L2 学习者 (其他图) : 模型的峰值出现得早得多 (大约 800M - 1.2B token) ，然后预测能力开始下降。

为什么? 作者认为，L2 英语使用者 (在这个数据集中) 的熟练度水平大致相当于一个在约 10 亿个单词上训练的模型。随着模型进一步训练并变得“像母语者一样” (学习复杂的、低频的模式) ，它实际上变得不太像非母语的人类读者了。

这表明，要模拟 L2 处理过程，我们可能不需要“L2 专用”的架构，而是需要“熟练度匹配”的模型——即停留在特定发展阶段的标准模型。

定性观察: 模型的差异之处

尽管统计相关性不强，但观察具体的句子可以发现，模型确实习得了不同的偏置。

考虑这个句子片段: "…the number of occupied homes…" (……已入住房屋的数量……)

图 7: CELER 语料库中一个样本句子的逐词惊奇度。

在图 7 中，注意 “occupied” 这个词上的峰值。

预训练于西班牙语 (橙色) 和葡萄牙语 (绿色) 的模型显示出巨大的惊奇度峰值。
预训练于中文和日语的模型显示的惊奇度要低得多。

作者推测这是由于语序的原因。在西班牙语和葡萄牙语中，关系从句通常位于名词之后。在中文和日语中，修饰语位于之前。由于模型被冻结在 L1 的“思维方式”中，罗曼语系模型可能期望的是一个名词或限定词，而不是像 “occupied” 这样的过去分词形容词。这表明 TILT 方法确实编码了结构上的预期，即使它们目前还不能与人类的眼动数据完美对应。

结论

这项研究凸显了用神经网络模拟人脑的复杂性。该研究成功证明了:

L1 对 AI 的熟练度有影响: 在语言学上相似的语言上进行预训练有助于 AI 更快、更准确地学习第二语言。
存在熟练度曲线: 标准英语模型在仅接受部分训练时，最能模仿非母语者的阅读模式。

然而，L2 模拟的“圣杯”——创建一个能完美反映特定 L1 群体特定处理困难的模型——仍然遥不可及。冻结的 L2LM 虽然在概念上是合理的，但并未与人类注视数据完美契合。

这项工作表明，“惊奇度” (数学概率) 是一个强大的工具，但人类的句子处理涉及复杂的资源分配策略，当前的架构——即使是那些旨在模拟 L1 迁移的架构——也尚未完全捕捉到这一点。随着我们继续弥合 AI 和认知科学之间的鸿沟，这些“负面”结果与正面结果一样有价值，指引我们走向更逼真的双语思维模型。

AI 的认知差距#

方法: 冻结“大脑”#

实验: 人类 vs. 机器#

结果: 母语会影响熟练度吗？#

剧情反转: 预测人类阅读时间#

学习曲线: 熟练度模型？#

定性观察: 模型的差异之处#

结论#