想象一个巨大的数字图书馆——里面收藏的不是书籍,而是预训练的机器学习模型。在 GitHub 和 Hugging Face 等平台上,这样的模型琳琅满目: 它们被训练来完成无数任务,从识别鸟类到检测医学异常。每个模型都蕴含着其领域的宝贵知识,但这些智慧往往因隐私、安全或使用限制而被锁在模型内部,难以共享原始训练数据。
那么,我们如何才能利用这些集体智能,构建一个新的模型——能够在不接触原始数据的情况下学习,并且只凭少量样本就能快速适应新任务?
这正是 无数据元学习 (Data-Free Meta-Learning, DFML) 的目标。DFML 专注于从已有的预训练模型中“学习如何学习”,而无需它们的训练数据集。它旨在创建一个元模型——一个高度适应性的学习器,能够跨领域迁移知识,并在未见任务上取得优异表现。
然而,大多数 DFML 方法都忽略了一个主要障碍: 模型异构性 。 我们在网上找到的预训练模型并不统一。它们在数据来源、网络结构 (ConvNet vs. ResNet) 、优化过程,甚至训练目标上都存在差异。试图从这种混乱的混合体中学习,往往会引发任务间的冲突,削弱元模型的性能。
近期,Yongxian Wei 等人的研究 《任务分组正则化: 利用异构预训练模型进行无数据元学习》 直面此挑战。作者不仅将模型异构性视为关键问题,还揭示了其核心存在一种权衡关系,并提出了优雅的解决方案: 任务分组正则化 (Task Groupings Regularization, TGR) 。 该方法通过分组不相似的模型并对齐它们冲突的优化方向,将异构性从负担转化为优势。
本文将探讨此工作的关键思想,包括:
- 异构性–同质性权衡 : 为什么模型的多样性既有帮助又有害;
- 分步方法论 : TGR 如何恢复伪数据、按不相似性分组模型并解决梯度冲突;
- 实验结果 : 展示 TGR 在复杂的多领域、多架构环境中的卓越性能。
理解挑战: DFML 中的模型多样性
在传统的元学习中,元模型从若干任务中学习,每个任务都有其训练和测试数据。而在无数据设定中,没有任何数据可用——只有预训练模型。形式化地,DFML 处理一组此类模型 \(\mathcal{M}_{pool} = \{M_i\}_{i=1}^{n}\), 并将每个模型视为一个独立的“任务”。
问题在于这些任务是异构的:
- 训练数据不同: 训练于 CUB (鸟类) 的模型捕捉细粒度特征,而训练于 miniImageNet (物体) 的模型学习较广泛的模式。
- 架构不同: 浅层 Conv4 网络与深层 ResNet-50 的信息处理方式迥异。
- 优化动态不同: 不同的损失函数、学习率或正则化策略导致学习到的表示多种多样。
为量化这种差异,研究者使用 中心核对齐 (Centered Kernel Alignment, CKA) 来衡量模型间的特征相似度。论文中的热图生动展示了这些差异。

图 1. 通过 CKA 测量的预训练模型相似性热图。非对角区域揭示了跨数据集与跨架构的多样性——这是模型异构性的直观证据。
异构性与同质性的权衡: 微妙的平衡
预训练模型的多样性是否完全有害?令人惊讶的是,并非如此。作者发现它就像一把双刃剑 :
- 同质模型 (低多样性) : 当模型都较为相似时,训练稳定且无冲突。但它们共享的偏差使元模型容易过拟合 , 限制泛化能力。
- 异构模型 (高多样性) : 多样性促进探索,并天然起到正则化作用 , 减少过拟合风险并提升鲁棒性。然而,若异构性过高,优化方向冲突会导致训练不稳定。
为了衡量这种平衡,作者提出了 准确率增益 (Accuracy Gain, AG) :
\[ AG = \mathcal{P}(\boldsymbol{\theta}(M_{\text{bas}}, M_{\text{aux}})) - \mathcal{P}(\boldsymbol{\theta}(M_{\text{bas}})) \]AG 表示一个“基础”模型与一个“辅助”模型联合训练时的准确率提升幅度。作者研究了不同相似程度下的 AG 变化。

图 2. 模型异构性与准确率增益的关系。最大增益出现在中等多样性水平——既不过于相似,也不过于不同。
实验揭示了一个最佳点: 中度异构性能提供最大的益处,而过度差异会引起任务干扰。理论上,作者证明了泛化差距 \(|E - \hat{E}|\) 由两个竞争项组成——一个是同质性项 (数据冗余) ,另一个是异构性项 (任务冲突) 。平衡两者是实现稳健 DFML 的关键。
解决方案: 任务分组正则化
如何实现这种平衡?Wei 等人提出了一个框架——任务分组正则化 (Task Groupings Regularization, TGR) , 其包含三个阶段,每个阶段解决问题的一部分。

图 3. 应用任务分组正则化的 DFML 训练流程。
步骤 1: 通过模型反演恢复任务
由于无法获取真实数据,必须从模型中提取内部知识。TGR 采用模型反演 , 训练生成器 \(G(\cdot; \theta_G)\) 与潜变量 \(Z\),以合成伪数据 \(\hat{X}\):
\[ \min_{\boldsymbol{Z}, \boldsymbol{\theta}_{G}} \mathcal{L}_{G} = \mathcal{L}_{CE} + \mathcal{L}_{BN} \]- 交叉熵损失 (\(\mathcal{L}_{CE}\) )确保生成样本在输入预训练模型时能对应期望标签: \[ \mathcal{L}_{CE}(\hat{\boldsymbol{X}}, \boldsymbol{Y}) = CE(M(\hat{\boldsymbol{X}}), \boldsymbol{Y}) \]
- 批归一化统计损失 (\(\mathcal{L}_{BN}\) )强制特征分布对齐: \[ \mathcal{L}_{BN}(\hat{\boldsymbol{X}}) = \sum_l \|\mu_l(\hat{\boldsymbol{X}}) - \mu_l^{BN}\| + \|\sigma_l^2(\hat{\boldsymbol{X}}) - \sigma_l^{BN}\| \]
这两个损失共同帮助生成器产出逼真的“伪任务”,体现各模型的领域知识。
步骤 2: 按不相似性分组模型
为了管理异构性,首先需量化它。针对每个伪任务,利用 费雪信息矩阵 (Fisher Information Matrix, FIM) 提供任务嵌入,刻画模型损失面的形状:
\[ \boldsymbol{F}_{\boldsymbol{\varphi}}^{i} = \frac{1}{N} \sum_{j=1}^{N} [\nabla_{\boldsymbol{\varphi}} \log P_{\boldsymbol{\varphi}}(y_j|x_j) \nabla_{\boldsymbol{\varphi}} \log P_{\boldsymbol{\varphi}}(y_j|x_j)^{\mathrm{T}}] \]该矩阵的对角近似提供了任务的简洁指纹。之后,计算任务间的余弦不相似度构建矩阵 \(W\)。通过 谱聚类 , 将模型划分为若干组,以最大化组内不相似性:
\[ \arg\min_{\boldsymbol{H}} \operatorname{Tr}(\boldsymbol{H}^{\top}\boldsymbol{L}\boldsymbol{H}), \ \text{s.t. } \boldsymbol{H}^{\top}\boldsymbol{H} = \boldsymbol{I} \]每组模型以不同视角看待世界——这种设计鼓励多样性,同时通过后续正则化抑制冲突。
步骤 3: 通过隐式梯度正则化 (IGR) 对齐冲突任务
在元模型训练中,采样同组任务时它们的梯度往往指向不同方向。标准的 经验风险最小化 (Empirical Risk Minimization, ERM) 只是简单平均这些梯度——一种粗略折中。
IGR 引入更稳健的更新规则。对每个任务而言,不在 \(\theta\) 处取梯度,而是在朝向共识的轻微位移 \(v_i(\theta)\) 后计算:
\[ v_i(\theta) = \beta \big(\nabla \bar{\mathcal{L}}(\theta) - \nabla \mathcal{L}_i(\theta)\big) \]于是更新梯度为:
\[ \boldsymbol{g}_{IGR} = \nabla \bar{\mathcal{L}}(\boldsymbol{\theta}) + \frac{\beta}{2m} \nabla \!\left(\sum_{i=0}^{m-1}\|\nabla \mathcal{L}_i(\theta) - \nabla \bar{\mathcal{L}}(\theta)\|^2\right) + \mathcal{O}(\beta^2) \]新增项惩罚任务间梯度方差,从而隐式实现对齐。随着训练进行,元模型逐渐收敛到组内各任务皆受益的表示——在保持多样性的同时消除冲突。
实验验证
作者在三个小样本基准: CIFAR-FS、miniImageNet 和 CUB 上验证了方法,结果令人瞩目。

表 1. 标准数据集上的准确率比较。TGR 以显著优势超越当前最优基线。
在 5-shot 分类中,TGR 在 CIFAR-FS 与 miniImageNet 上的准确率提升超过 6 个百分点,在 CUB 上提升约 3 个百分点——充分证明其更优的泛化能力。
超越基础: 应对真实异构性
接下来,作者在两个更复杂的场景下进一步验证了方法性能:
- 多领域场景: 预训练模型来自三种不同数据集——CIFAR-FS、miniImageNet 与 CUB。
- 多架构场景: 模型结构各异——Conv4、ResNet-10 和 ResNet-18。

表 2. 多领域性能比较。TGR 在跨数据集条件下仍保持出色的泛化能力。

表 3. 多架构场景结果。TGR 在不同网络设计下依然有效。
在这两类实验中,任务分组正则化都取得了最高准确率,凸显其在面对架构与领域差异时的强大鲁棒性。
验证机制
为验证 FIM 能捕捉异构性,作者测量了在重叠类别训练的模型内部以及跨架构间的任务不相似性。

图 4. 基于 FIM 的分析显示,不相似度与已知异构性因素高度相关。
训练动态则展示了 隐式梯度正则化 如何实际对齐任务梯度。

图 5. 梯度差异分析。IGR 在训练过程中减少了梯度方差并提升任务间相似度。
这些结果验证了方法核心机制: 利用 FIM 嵌入建模任务关系,并通过 IGR 化解冲突。
关键洞察与启示
该研究为无数据元学习提供了一套精巧且实用的策略:
- 异构性既是挑战,也是机遇。 模型多样性有助于防止过拟合,但需妥善解决梯度冲突。
- 费雪信息矩阵嵌入至关重要。 它能可靠量化任务差异,为智能分组提供依据。
- 对齐不相似任务有助提升泛化。 将异构模型分组并施加隐式梯度正则化,使元模型能统一冲突信号并学习共享表示。
通过将无序的多样性化为有组织的协作, 任务分组正则化 展示了真正的“学习如何学习”。即便原始训练数据不可得,我们仍能构建灵活、可信、保护隐私的 AI 系统,从遍布网络的众多预训练模型中汲取力量。
](https://deep-paper.org/en/paper/2405.16560/images/cover.png)