引言
我们正处于大型语言模型 (LLM) 的黄金时代。从 ChatGPT 到 Llama,这些模型彻底改变了我们处理信息的方式。然而,它们的力量源于一种关键资源: 数据 。 虽然公开数据奠定了基础,但性能提升的下一个前沿在于私有数据——病历记录、个人财务历史以及企业专有文档。这些数据通常比公开网络上的数据质量更高、更具针对性。
但也存在一个问题。出于充分的理由,这些数据被锁定在“孤岛”中——存储在用户的移动设备或安全的企业服务器上。隐私顾虑和法规 (如 GDPR) 阻止我们将这些敏感信息集中到一个庞大的数据库中进行训练。
这就造成了一个悖论: 我们需要私有数据来改进 LLM,但我们不能将数据移动到模型端。
联邦学习 (Federated Learning, FL) 提供了一个理论上的解决方案: 将模型带到数据端,在本地进行训练,然后聚合结果。然而,传统的 FL 在面对 LLM 时举步维艰,因为这些模型的巨大规模 (数十亿参数) 使得它们无法在标准的笔记本电脑或智能手机上运行。
在这篇文章中,我们将深入探讨 FL-GLM , 这是由北京航空航天大学的研究人员提出的一个新颖框架。该论文介绍了一种“面向通用语言模型的联邦学习”方法,旨在解决 LLM 的计算瓶颈,同时堵住以往方法中存在的关键安全漏洞。
背景: 为何传统方法会失效
要理解为什么需要 FL-GLM,我们首先需要看看现有分布式训练方法的局限性。
1. FedAvg 的计算高墙
联邦学习的标准做法是 FedAvg (联邦平均算法) 。在这种设置中,中心服务器将整个模型发送给客户端。客户端在本地数据上对其进行训练,并将更新传回。
对于小模型来说,这很棒。但对于像 ChatGLM-6B (拥有 60 亿参数) 这样的 LLM 来说,这根本行不通。大多数客户端设备根本没有足够的显存 (VRAM) 或算力来加载,更不用说训练完整模型了。
2. 拆分学习的风险
为了解决计算问题,研究人员开发了 拆分学习 (Split Learning) 。 思路很简单: 将模型一分为二。客户端处理轻量级的初始层 (如嵌入层) ,而强大的服务器处理繁重的中间层 (Transformer 块) 。
一个著名的例子是 FedBERT 。 如下图的“Original Model” (原始模型) 与“Split Model” (拆分模型) 对比所示,繁重的权重 (\(W\)) 被保留在服务器上。

图 1 (A 部分) 展示了这种传统的拆分。客户端处理输入并将中间数据 (梯度) 发送到服务器。
问题在哪里? 它不安全。 如果客户端仅将嵌入层的输出发送到服务器,恶意服务器可以分析这些梯度并重建用户的私有文本 (这一过程被称为梯度攻击或逆向工程 )。此外,传统的拆分学习是串行的——服务器一次处理一个客户端,导致效率极低。
核心方法: FL-GLM
作者提出了 FL-GLM , 这是一个旨在平衡隐私、效率和模型性能这三者需求的框架。
正如上文 图 1 (B 部分) 所示,FL-GLM 显著改变了架构。它不仅仅是将模型切成两半;它创建了一个“三明治”结构,并保护了通信信道。
1. “三明治”模型拆分
FL-GLM 没有将整个模型留在服务器或客户端,而是策略性地放置特定的模块。
- 客户端 (Client Side) : 持有 嵌入层 (Embedding Layer) 、第一个 Transformer 块( Block 0 )、最后一个 Transformer 块( Block N-1 )以及最终的 线性层 (Linear Layer) 。
- 服务端 (Server Side) : 持有中间的所有部分( Block 1 到 Block N-2 )。
这为什么重要? 通过强制数据在离开客户端之前穿过一个完整的 Transformer 块 (Block 0) ,数据变成了“粉碎数据 (smashed data) ”。原始文本与发送至服务器的数据之间的语义关系变得高度非线性且复杂。这使得服务器在数学上几乎不可能从接收到的梯度中逆向推导出原始的私有文本。
以下是客户端初始处理的数学流程:

客户端在本地计算隐层状态 \(h_0\)。这个“粉碎数据”随后被发送到服务器。
服务端随后处理繁重的计算任务:

最后,服务器将结果发回给客户端,以便在本地计算最终的预测和损失:

通过将输入、输出和损失计算完全保留在本地,服务器永远无法看到真实标签 (\(y\)) 。
2. 用于提升效率的 P-Tuning v2
训练所有 60 亿个参数非常昂贵。为了使这在联邦设置中变得可行,作者利用了 P-Tuning v2 。
他们不更新所有权重,而是冻结主要的 LLM 参数,仅训练一个小的“前缀编码器 (Prefix Encoder) ”。该编码器将可学习的前缀向量添加到注意力机制中的 Key 和 Value 矩阵中。

如 图 2 所示,只有前缀参数参与更新过程。这大幅降低了所需的通信带宽以及客户端的计算负载。
3. 加密传输
即使采用了三明治拆分,数据仍需在客户端和服务器之间传输。如果其他对等节点 (恶意客户端) 拦截了这些数据,他们可能会试图窥探受害者的数据。
FL-GLM 对“粉碎数据” (隐层状态) 采用了 RSA 加密 。
- 密钥生成: 生成一对公钥/私钥。
- 加密: 客户端在发送前使用公钥加密隐层状态。
- 解密: 服务器使用私钥解密以执行计算。
这确保了即使传输被第三方拦截,数据依然无法被解读。
解决瓶颈: 并行加速
标准的拆分学习就像杂货店里的单通道结账队伍: 服务器服务客户端 A,完成后,再服务客户端 B。这种串行处理浪费了服务器巨大的并行计算潜力。
FL-GLM 根据服务器的硬件情况引入了两种加速策略。
策略 A: 客户端批量并行 (Client-Batch Parallel)
如果服务器是一台强大的单机 (如 DGX 工作站) ,它可以通过将多个客户端的数据堆叠成一个批次来同时处理它们。

在 图 3 中,不同的客户端发送其加密的粉碎数据 (箭头 ①) 。服务器将这些输入拼接成一个更大的张量 (Batch Size = 客户端数量) ,并在一次前向传播中处理它们。这使得服务器能够充分利用其 GPU,而不是在等待单个客户端的网络通信时空转。
策略 B: 服务器分层并行 (Server-Hierarchical Parallel)
如果服务端实际上是一个机器集群 (或拥有多个 GPU) ,FL-GLM 采用分层方法。

如 图 4 所示,一个中心服务器管理多个 子服务器 (Sub-Servers) 。 每个子服务器与特定的客户端配对。这允许在不同的硬件单元上进行完全并行的处理。中心服务器随后聚合来自子服务器的更新。
实验与结果
研究人员使用 ChatGLM-6B 作为基础模型验证了 FL-GLM。他们通过 SuperGLUE 基准测试进行了 NLU (自然语言理解) 任务测试,并在 CNN/DailyMail 上进行了摘要任务测试。
1. 它的表现能媲美集中式训练吗?
联邦学习中最令人担忧的是“性能下降”。如果模型保护了隐私但给出了糟糕的答案,那它就毫无用处。

表 1 将 FL-GLM 与集中式 ChatGLM-6B 进行了对比。
- ReCoRD: 集中式 (80.2) vs. FL-GLM (79.8)。
- BoolQ: 集中式 (83.4) vs. FL-GLM (81.9)。
- 平均值: 性能下降微乎其微 (大多数情况下低于 1%) 。
生成式摘要的结果也讲述了类似的故事:

在 表 2 中,FL-GLM 获得了非常接近集中式基准的 ROUGE 分数。这证明了“粉碎数据”传输和拆分架构并没有破坏模型学习复杂任务所需的语义信息。
2. 它真的更快吗?
研究人员比较了串行 (传统) 、客户端批量和服务器分层策略的训练时间。

表 3 突显了效率的提升。
- 在 10 个客户端的情况下, 串行 (Serial) 训练未列出 (可能太慢) ,但即使是 5 个客户端,它也耗时 166.4 秒 。
- 客户端批量 (Client-Batch) 在 10 个客户端下耗时 34.5 秒 。
- 服务器分层 (Server-Hierarchical) 在 10 个客户端下降至 17.3 秒 。
这代表了巨大的加速,证明并行策略成功释放了分布式 LLM 训练的潜力。
3. 安全性分析
理论上的安全性固然好,但在攻击面前能站得住脚吗?作者模拟了一种攻击,恶意服务器试图使用攻击模型 (\(F^{-1}\)) 重构客户端的私有文本。

表 4 对比了在 FedBERT (Embd.) 与 FL-GLM (Client-side A) 上的攻击成功率。
- ROUGE-L (攻击者越高越好) : 在 FedBERT 中,攻击者达到了 26.73 , 意味着他们恢复了大量的文本。
- FL-GLM: 攻击者仅获得 0.47 。
这一结果证实,仅仅在客户端放置一个 Transformer 块就能有效地“混淆”数据,使其对服务器来说变得无法理解。
4. 对非独立同分布 (Non-IID) 数据的鲁棒性
在现实世界中,数据并非独立同分布 (IID) 的。一个客户端可能拥有医疗数据,另一个可能拥有法律数据。

图 5 显示,虽然串行和分层方法在数据为 Non-IID (灰色柱状条) 时性能略有下降 (~7%) ,但 客户端批量 (Client-Batch) 方法 (图表 C) 依然极其稳健。通过在服务器级别将来自不同客户端的数据混合到一个批次中,模型在训练期间有效地看到了一个“多样化”的批次,从而减轻了单个客户端的偏差。
结论与未来启示
FL-GLM 框架在使大型语言模型适用于隐私敏感行业方面迈出了重要一步。通过智能地拆分模型、采用加密技术并针对并行处理进行优化,作者创建了一个系统,能够:
- 保护隐私: 防止服务端梯度攻击和对等节点窃听。
- 节省资源: 允许硬件受限的客户端参与 60 亿参数模型的训练。
- 保持速度: 解决了传统拆分学习的串行瓶颈。
对于 AI 领域的学生和研究人员来说,这篇论文强调了一个关键趋势: AI 的未来不仅仅在于更大的模型,还在于分布式、安全和协作的智能。 随着像 Llama 2 和 ChatGLM 这样的模型持续增长,像 FL-GLM 这样的框架将成为开启目前闲置在全球各地孤岛中的私有数据宝库的钥匙。
](https://deep-paper.org/en/paper/file-3609/images/cover.png)