引言

人工智能领域已经被像 ChatGPT 和 LLaMA 这样的大型语言模型 (LLM) 彻底改变了。这些模型拥有惊人的能力，但它们对数据的渴望也是巨大的。传统上，训练或微调这些庞然大物需要将海量数据集聚合到一个中央服务器中。然而，在现实世界中，数据并不存在于单一的数据中心。它存在于我们的手机、笔记本电脑和去中心化的本地服务器中——通常受到像 GDPR 这样严格的隐私法规保护。

这就产生了一个冲突: 我们需要在多样化的现实世界数据上训练出智能的 LLM，但出于隐私和安全考虑，我们不能移动这些数据。

联邦学习 (Federated Learning, FL) 是这个问题的标准答案。在 FL 中，我们不将数据移动到模型端，而是将模型发送到数据端。设备在本地进行训练，仅将模型更新传回中央服务器。但是，当你尝试将标准的 FL 应用于 LLM 时，会遇到瓶颈。LLM 实在太大了。在设备和服务器之间来回传输数十亿个参数会压垮网络带宽。此外，你手机上的数据可能与我笔记本电脑上的数据截然不同 (这一概念被称为 非独立同分布/non-IID 数据) ，这会混淆模型并减慢收敛速度。

在这篇文章中，我们将深入探讨一种名为 FibecFed (基于 Fisher 信息的高效课程联邦学习) 的新框架。这项研究提出了一种通过回答两个关键问题来在分布式设备上高效微调 LLM 的复杂方法: 我们应该先学习哪些数据? 以及 哪些参数实际上是重要的?

在文章结束时，你将了解研究人员如何利用 Fisher 信息 (Fisher Information) ——一个来自统计学理论的概念——为模型创建“课程”并执行稀疏更新，从而使训练过程加快高达 98%。

背景: 基础构件

要理解 FibecFed，我们需要建立几个基本概念。

联邦学习 (FL) 与非独立同分布 (Non-IID) 数据

在一个典型的 FL 设置中，中央服务器将全局模型发送给多个客户端 (设备) 。每个客户端在自己的本地数据上训练模型并传回更新。服务器对这些更新进行平均 (聚合) ，然后重复此过程。

挑战在于 非独立同分布 (Non-Independent and Identically Distributed, non-IID) 数据。在完美的世界里，每个设备都应该拥有所有可能数据的代表性样本。而在现实中，一个设备可能只有医疗文本，而另一个只有法律文本。当这些设备试图将全局模型拉向不同方向时，训练就会变得不稳定且缓慢。

低秩适应 (LoRA)

你无法在消费级笔记本电脑上重新训练 LLM 的所有 70 亿个参数——这在计算上太昂贵了。 LoRA 是一种技术，它冻结预训练模型的权重，并将可训练的低秩分解矩阵注入到 Transformer 架构的每一层中。

如果 \(W\) 是一个权重矩阵，LoRA 将更新 \(\Delta W\) 表示为两个较小矩阵 \(B\) 和 \(A\) 的乘积。

Layer l 的隐藏值与输入 x 的计算基于 LoRA 公式。

这里，\(W_{o}^{l}\) 是冻结的权重，而 \(B_{k}^{l}\) 和 \(A_{k}^{l}\) 是小的、可训练的矩阵。这显著减少了可训练参数的数量。然而，即使有了 LoRA，在联邦学习环境中，你仍然需要为 每一层 传输这些矩阵，对于高效通信来说，数据量依然过大。

课程学习 (Curriculum Learning)

想象一下教孩子微积分。你不会从积分开始；你会从算术开始，然后是代数，最后是极限。这就是 课程学习 : 将训练样本从易到难排序。在集中式训练中，这能加速收敛。但在联邦学习中，当中央服务器看不到数据时，它如何知道哪些数据是“简单”的呢？

Fisher 信息 (Fisher Information)

这是论文的数学核心。Fisher 信息衡量了一个随机变量 (如你的数据) 携带了多少关于未知参数 (如你的模型权重) 的信息。

在深度学习的语境下, Fisher 信息矩阵 (FIM) 本质上告诉我们损失曲面的曲率。

高 Fisher 信息: 模型对这特定的数据或参数非常敏感。“坡度”很陡。
低 Fisher 信息: 模型不太关心这数据或参数；改变它不会对结果产生太大影响。

FibecFed 使用这个指标同时解决了数据选择问题和参数更新问题。

FibecFed 框架

研究人员将问题定义为通过找到最优 LoRA 参数 \(\mathbf{P}\) 来最小化全局损失函数。

带有 LoRA 的联邦学习优化目标。

FibecFed 框架通过两个主要引擎解决了 FL 的低效问题:

自适应联邦课程学习: 使用 Fisher 信息来决定 在什么 数据上进行训练。
高效稀疏参数更新: 使用 Fisher 信息和噪声敏感度来决定哪些参数需要更新和传输。

在详细拆解之前，让我们先可视化整个系统架构。

FibecFed 的系统模型展示了设备与服务器之间的交互。

如图 1 所示，该过程分为 初始化阶段 和 微调阶段 。

初始化: 设备评估其本地数据的难度，并计算模型的哪些层是最重要的。
微调: 服务器协调训练，但设备仅在特定的“课程”数据上训练，并仅更新特定的“稀疏”参数。

第 1 部分: 自适应联邦课程学习

第一项创新解决了数据异质性问题。标准的 FL 随机选取数据批次。FibecFed 主张设备应该从在“简单”样本上训练开始，逐渐引入“困难”样本。

用 Fisher 信息衡量难度

设备如何知道一个句子是否“难”学？作者建议使用 Fisher 信息矩阵 (FIM) 的迹 (对角线元素之和) 。

数据样本 \(s_i\) 的 FIM \(\mathbf{F}_i\) 定义为:

基于梯度期望的 Fisher 信息矩阵定义。

对于 LLM 来说，计算完整的矩阵在计算上是不可能的。因此，研究人员使用经验对角线来近似它:

使用经验平均近似 FIM。

并进一步将其简化为仅对角线元素以节省内存:

Fisher 信息矩阵的对角线近似。

逻辑是: 如果损失相对于参数的梯度很大 (高 Fisher 信息) ，这意味着模型在处理该样本时很吃力——它是“难”或“复杂”的。如果梯度很小，模型已经“理解”了这个数据——它是“简单”的。

一批数据的难度得分 \(f_j\) 仅仅是该批次中样本 FIM 迹的总和:

一批数据样本难度得分的计算。

课程进度表

一旦批次被打分，它们就会从最容易到最难进行排序。设备不会立即使用所有数据。相反，它使用一个 配速函数 (pacing function) 来决定在每一轮 \(t\) 向模型展示多少数据。

研究人员测试了线性、平方和指数配速。线性策略定义为:

决定第 t 轮使用数据量的配速函数公式。

这里，\(\mathcal{B}_{k}^{t}\) 代表索引阈值。设备仅在难度索引 \(j\) 小于此阈值的批次上进行训练:

决定当前训练轮次是否包含某批次的选择逻辑。

这确保了在联邦学习早期不稳定的阶段，模型使用简单的、高置信度的数据来稳定下来。随着训练的进行，它再处理困难的、嘈杂的或边缘情况的数据。

第 2 部分: 高效稀疏参数更新

第二项，也许是更重要的创新，是降低通信和计算成本。即使使用了 LoRA，为 每一层 发送更新也是浪费的。

FibecFed 将模型参数分为三类:

冻结参数: LLM 的大部分 (标准 LoRA) 。
全局聚合层 (GAL) : 与服务器同步的重要层。
本地更新参数: 在本地更新但不同步的参数，允许个性化。

全局聚合层选择 (敏感度分析)

为了决定哪些层值得发送到服务器 (GAL) ，研究人员使用了一种“噪声敏感度”方法。如果你在输入中加入少量噪声，该层的输出会发生显著变化吗？如果会，该层就是重要的。

首先，他们计算最大化损失的最佳噪声扰动 \(\epsilon_{i}\) (一个对抗性攻击的概念) :

寻找最大化损失的最佳噪声扰动的公式。

这使用泰勒展开进行近似:

损失差的泰勒展开近似。

通过求解，他们找到了要施加的确切噪声向量:

最佳噪声向量的解析解。

一旦有了这个噪声，他们将干净输入 \(s_i\) 和噪声输入 \(s_i + \epsilon_i^*\) 都输入模型。他们测量在层 \(l\) 的输出嵌入 \(h^l\) 的 Frobenius 范数的相对差异 :

用于衡量敏感度的 Frobenius 范数相对差异公式。

具有高相对差异得分 (\(\mathcal{I}^l\)) 的层高度敏感。这些层捕捉了最关键的特征，因此必须在所有设备之间进行全局同步。服务器聚合这些分数并选择前 \(N^*\) 层作为 GAL 。

本地更新参数选择

那些未被选中进行全局聚合的层呢？我们应该直接冻结它们吗？不。为了处理非 IID 数据 (个性化) ，设备仍应在本地更新一些参数。

但更新所有参数太慢了。研究人员再次回到 Fisher 信息 来挑选最重要的特定 神经元。他们计算层 \(l\) 中每个神经元 \(\mu\) 的重要性得分:

基于 Fisher 信息聚合的神经元重要性公式。

该公式将对应于特定神经元权重的对角线 Fisher 信息值求和。如果一个神经元具有高 Fisher 得分，它对本地数据至关重要。设备选择这些高重要性神经元的一个子集进行本地更新，冻结其余部分。

方法总结

课程: 按 Fisher 得分对数据排序。先在简单数据上训练。
全局层: 识别敏感层。仅将这些发送给服务器。
本地神经元: 识别非全局层中的高 Fisher 神经元。在本地更新它们以实现个性化。

实验与结果

研究人员使用 RoBERTa-Large (3.55 亿参数) 和 LLaMA-7B 验证了 FibecFed。他们在 10 个不同的自然语言处理 (NLP) 任务 (如 QNLI, SST-2, CoLA) 上进行了测试，模拟了 100 个设备。

他们将 FibecFed 与 17 种基线方法进行了比较，包括标准 LoRA、提示微调方法 (如 P-tuning v2) 和其他联邦策略。

收敛速度与准确率

最惊人的结果是收敛速度。因为设备处理的数据更少 (由于课程学习) 且更新的参数更少 (由于稀疏更新) ，训练速度大幅提升。

看看下面的收敛曲线。红线 (FibecFed) 始终比基线更快地达到高准确率。

COLA, QNLI, 和 SST-2 数据集的准确率随时间变化图表。

在图 2(a) (COLA 数据集) 中，注意红线是如何迅速上升并稳定的，而其他方法则挣扎或上升缓慢。这证明了课程的效率——模型没有在早期浪费时间在令人困惑的数据上。

这种趋势在其他数据集 (如 MRPC 和 RTE) 上得以延续:

MRPC, RTE, 和 BOOLQ 数据集的准确率随时间变化图表。

在图 3(a) (MRPC) 中，FibecFed 的最终准确率几乎高于所有竞争对手。

定量胜利

论文报告了巨大的收益:

准确率: 与基线相比，收敛准确率 高出 45.35% 。
速度: 微调速度 快 98.61% 。

这是一个“鱼与熊掌兼得”的场景。通常，稀疏更新 (丢弃参数) 会导致准确率下降。在这里，因为参数的选择是智能的 (基于 Fisher 信息和噪声敏感度) ，准确率实际上提高了，因为模型专注于真正重要的部分。

鲁棒性

团队还检查了他们的方法在不同条件下的表现。

鲁棒性分析: 学习率、设备数量和数据异质性的影响。

图 6(b): 显示增加设备数量 (从 20 到 100) 实际上有助于模型收敛得稍微更快更稳定，证明了可扩展性。
图 6(c): 测试了不同级别的数据异质性 (“heter1” 到 “heter5”) 。虽然高度异质的数据更难学习，但 FibecFed 非常好地应对了压力测试，保持了高准确率。

课程策略的影响

配速函数重要吗？研究人员比较了线性、指数和平方配速函数。

课程策略比较: Soft vs. Exponential vs. Linear。

在图 7(c) 中，我们看到了比较结果。虽然它们最终都收敛了，但 线性 (Linear) 策略 (绿线) 在稳定性和速度之间提供了最佳平衡，这也是它被选为默认策略的原因。

结论与启示

FibecFed 框架代表了联邦学习向前迈出的重要一步。它摆脱了试图在所有数据上训练所有内容的“暴力”方法。相反，它将智能引入了训练循环本身。

通过使用 Fisher 信息 , 该框架就像一个聪明的学生:

它评估学习材料并从基础开始 (课程学习) 。
它识别哪些概念是关键的，并将精力集中在那里 (全局聚合层) 。
它根据特定环境个性化其知识 (本地稀疏更新) 。

对于 AI 领域的学生和研究人员来说，这篇论文强调了 基于指标的选择 的力量。我们通常非常关注模型架构 (Transformers, Mamba 等) ，但 FibecFed 表明，我们如何训练——具体来说我们如何选择数据和参数——可以产生与架构变更一样巨大的性能提升。

随着隐私法规的收紧和 LLM 的规模不断扩大，像 FibecFed 这样的框架对于赋能下一代 AI 应用将至关重要，这些应用将存在于我们的设备上，在不牺牲隐私的前提下向我们学习。

引言#

背景: 基础构件#

联邦学习 (FL) 与非独立同分布 (Non-IID) 数据#

低秩适应 (LoRA)#

课程学习 (Curriculum Learning)#

Fisher 信息 (Fisher Information)#

FibecFed 框架#

第 1 部分: 自适应联邦课程学习#

用 Fisher 信息衡量难度#

课程进度表#

第 2 部分: 高效稀疏参数更新#

全局聚合层选择 (敏感度分析)#

本地更新参数选择#

方法总结#

实验与结果#

收敛速度与准确率#

定量胜利#

鲁棒性#

课程策略的影响#

结论与启示#

引言