引言: AI 领域的语言鸿沟

当前的人工智能领域正经历着巨大的语言差异。虽然像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 彻底改变了我们与技术互动的方式,但它们的能力严重偏向于高资源语言——主要是英语。

对于孟加拉语 (世界上使用人数第五多的语言) 的 2.37 亿母语使用者来说,这种差距是显而易见的。虽然像 GPT-4 这样的专有巨头表现尚可,但它们是封闭系统。与此同时,构建“孟加拉语 LLM”的开源尝试在很大程度上举步维艰,往往甚至无法超越其构建基础的基座模型。

为什么构建一个好的开源孟加拉语 LLM 如此困难?答案通常在于数据。

在这次深入探讨中,我们将研究一篇名为 “TigerLLM - A Family of Bangla Large Language Models” 的新研究论文。研究人员采用了一种不同的方法来解决这个问题。他们不再向模型投喂大量低质量数据,而是专注于精确性、文化和教育内容。他们推出了两个新模型 (10亿和90亿参数) ,为孟加拉语设立了新的技术水平 (SOTA) ,证明了在 LLM 的世界里, 质量往往胜过数量

问题所在: 垃圾进,垃圾出

要理解 TigerLLM 的重要性,我们首先需要看看孟加拉语自然语言处理 (NLP) 的现状。以前的计划通常依赖于一种使用翻译数据集的模型蒸馏方法。

以下是许多低资源语言模型典型 (且有缺陷) 的工作流程:

  1. 获取高质量的英语指令数据集 (如 Alpaca 或 OpenOrca) 。
  2. 通过谷歌翻译将其转换为孟加拉语。
  3. 在这些翻译文本上微调模型。

结果如何?模型说的是“翻译腔孟加拉语”——措辞生硬、缺乏文化细微差别,且存在语法错误。如下面的对比分析所示,许多现有的计划如 titu-GemmaBangla-LLaMA 依赖这些翻译数据集,并且往往缺乏可复现性。

表 1: 孟加拉语 LLM 计划及其方法论方法的对比分析。

如表 1 所示, TigerLLM 通过完全避免使用翻译数据集而脱颖而出。相反,它依赖于两个全新的原生资源: Bangla-TextBook 语料库和 Bangla-Instruct 数据集。

要素一: Bangla-TextBook 语料库

研究人员认为,要让模型真正理解一门语言,它需要理解该语言使用者的教育基础。

大多数 LLM 抓取网络数据 (Common Crawl) ,这些数据充满噪音和错误。TigerLLM 团队采取了不同的路线。他们策划了 Bangla-TextBook 语料库 , 由 1000 万个 token 组成,完全源自孟加拉国国家课程与教科书委员会发布的开源教育材料。

该语料库涵盖了从 6 年级到 12 年级的内容,跨越文学、科学、历史等领域。虽然与训练 GPT-4 的数万亿 token 相比,1000 万 token 显得很小,但教科书中信息的密度语法的正确性极高。这使得模型能够学习正式、正确的孟加拉语,而不是网络俚语或破碎的翻译。

要素二: Bangla-Instruct 流程

第二个,也许是最具创新性的组件,是 Bangla-Instruct 数据集。这是一个包含 100,000 个指令-回复对的集合,旨在教模型如何遵循命令和回答问题。

作者没有翻译英语指令,而是设计了一个复杂的流程,涉及人类志愿者和两个最先进的教师模型: Claude-3.5-SonnetGPT-4o

种子-生成-过滤循环

这个过程始于人类。来自孟加拉国的 50 名大学生创建了 500 个“种子任务”,涵盖文化遗产、数学和当地社会问题等不同主题。

正如下面的图 1 所示,该流程使用这些种子来生成新的合成数据,这些数据保留了原始人类输入的质量。

图 1: Bangla-Instruct 生成流程。

  1. 种子池: 过程始于 500 个由人类编写的任务。
  2. 指令生成: 提示 Claude-3.5 查看种子并生成遵循相似语言模式的指令。
  3. 任务识别: GPT-4o 分析新指令以确定它是哪种类型的任务 (例如,开放式生成、分类) 。
  4. 回复起草: Claude-3.5 为新指令编写详细的回复。
  5. 过滤: 这是关键的质量控制步骤。

四大支柱过滤器

如果不加检查,自动数据生成可能会失控。为了防止这种情况,研究人员实施了一个严格的过滤方程,使用 GPT-4o 作为裁判。

生成的对 \((i, r)\) 是否被接受由以下逻辑决定:

基于语言、文化、质量和新颖性的过滤标准方程。

函数 \(\mathcal{F}\) 仅在满足所有四个条件时才接受数据对:

  • \(\mathcal{L}\) (语言) : 语法正确吗?孟加拉语单词比例是否 > 95%?
  • \(\mathcal{C}\) (文化) : 是否具有文化敏感性?是否避免了宗教或政治偏见?
  • \(\mathcal{Q}\) (质量) : 回复是否连贯且事实准确?
  • \(\mathcal{N}\) (新颖性) : 这个任务是否与我们已有的任务有足够的差异?

大约 63% 的生成对通过了这个过滤器,确保最终的 100,000 条数据集是干净、多样且原生的孟加拉语。

架构: 训练 TigerLLM

准备好数据后,研究人员进入了训练阶段。他们选择了两个强大的基座模型进行构建: LLaMA 3.2 (1B)Gemma 2 (9B)

训练过程分为两个不同的阶段: 持续预训练和微调。

图 2: TigerLLM 的演变,展示了预训练和微调阶段。

第一阶段: 持续预训练

在这个阶段,基座模型 (已经理解通用语言概念) 被沉浸在 Bangla-TextBook 语料库中。目的是让模型的内部权重适应孟加拉语的特定细微差别。

这是在 NVIDIA A100 GPU 集群上完成的。如下面的损失曲线所示,模型迅速学习了教科书数据的模式,损失稳定在接近零的水平,表明知识吸收成功。

图 3: 持续预训练 - 每步损失。

第二阶段: 指令微调

一旦模型“学会”了教科书内容,它们就需要学习如何作为助手行事。这就是 Bangla-Instruct 数据集发挥作用的地方。研究人员使用了全量微调 (而不是像 LoRA 这样的参数高效方法) 来最大化性能。

这里的训练动态是稳定的,显示出损失最初急剧下降,因为模型学会了将其输出格式化为指令,随后稳步收敛。

图 4: 微调 - 每步损失。

幕后细节: 超参数

对于有兴趣复现这些结果的学生,超参数的选择至关重要。研究人员提供了透明的设置文档。对于 1B 模型,他们使用了 1e-5 的学习率和 16 的批次大小 (Batch Size) 。

表 4: 微调 TigerLLM (1B) 的最终超参数集。

对于更大的 9B 模型,进行了调整,包括使用更低的学习率 1e-6,以确保在微调更大参数集时的稳定性。

表 5: 微调 TigerLLM (9B) 的最终超参数集。

实验与结果: 大卫对战歌利亚

TigerLLM 的真正考验在于它在标准化基准测试中与其他模型的对比表现。研究人员在五个关键的孟加拉语基准上进行了测试,包括 MMLU-bn (多任务语言理解) 和 BanglaQuaD (问答) 。

表 2 展示的结果令人震惊。

表 2: TigerLLM 与其他模型在各种孟加拉语特定基准上的性能比较。

结果的关键结论:

  1. 小巨人: TigerLLM (1B) 模型极其高效。尽管只有 10 亿参数,它在 MMLU-bn 上取得了 0.61 的分数。相比之下,基础 LLaMA 3.2 模型的得分仅为 0.22 , 而 “Bangla-LLaMA” 计划的得分仅为 0.02
  2. 击败专有模型: TigerLLM (9B) 模型在 MMLU-bn 上得分 0.72 , 超过了 GPT-3.5 (0.55)Gemini-Flash 1.5 (0.66) 。 这对于一个在明显较少的硬件上运行的开源模型来说是一个重大成就。
  3. 翻译的失败:Titu-LLMBangla-LLaMA 这样的模型使用了翻译数据集,其表现往往比它们起步时的基座模型更差 。 这验证了作者关于劣质数据会损害模型能力的假设。
  4. 一致性: TigerLLM 在各个方面都获胜——无论是推理、编码还是常识知识。

结论

TigerLLM 的开发为 AI 社区提供了重要的一课,特别是对于那些在低资源环境下工作的人来说。它证明了你不需要数万亿的 token 或大规模的专有集群来构建最先进的模型。

通过优先考虑高质量、特定领域的数据 (如教科书) 并使用严格、具有文化意识的流程进行指令生成,研究人员创建了一个表现远超其体量的模型。

TigerLLM 不仅为今天的孟加拉语使用者提供了强大的工具,还为其他代表性不足的语言建立了可复现的蓝图。随着模型、数据集和语料库的发布,“AI 鸿沟”已经变得稍微小了一点。