能教会老模型新把戏吗？深入探究迁移学习

引言 —— 数据困境

在现代机器学习中，更多的标注数据通常意味着更好的模型。然而，收集和标注海量数据集不仅成本高昂、耗时漫长，有时甚至根本无法实现。这让从业者陷入困境: 当目标任务只有少量标注样本时，该如何构建高精度的模型？

迁移学习提供了一个务实的答案。其核心思想是: 重用从一个相关且数据丰富的任务 (源域) 中学到的知识，来辅助数据稀缺的任务 (目标域) 学习。就像一位熟悉音乐理论的小提琴手，由于掌握了共通的音乐概念，学钢琴的速度会更快一样，在一个领域训练过的模型可以加速另一个领域的学习。

但迁移并非总是有益的。当源域与目标域差异较大时，迁移的知识反而可能导致性能下降——这一现象被称为负迁移。本文基于一篇迁移学习的综合性调查，将带你了解关键概念、机制及实用技术。我们从两个互补视角来探讨方法: 数据中心方法 (使数据可比) 和模型中心方法 (使模型可迁移) 。在此过程中，我们将重点介绍代表性算法，并总结实证经验。

跨相关领域知识迁移的直观示例，例如从国际象棋到西洋跳棋，或从小提琴到钢琴。

图 1. 迁移学习的直观示例: 有些任务会共享有用的知识 (小提琴 → 钢琴，自行车 → 踏板车) ，而另一些则不会 (自行车 ↛ 钢琴) 。只有当领域间共享相关结构时，迁移才有益。

迁移学习的术语

在深入探讨技术细节之前，我们需要统一术语。

域 \( \mathcal{D} = \{\mathcal{X}, P(X)\} \): 由特征空间 \( \mathcal{X} \) 以及其边际分布 \( P(X) \) 构成。例如: “书评”任务具有词频特征表示以及特定的词分布。
任务 \( \mathcal{T} = \{\mathcal{Y}, f\} \): 由标签空间 \( \mathcal{Y} \) 以及需要学习的决策函数 \( f \) 构成 (如情感分类器) 。

当源域与目标域或任务在某些方面存在差异时，就会发生迁移学习。一种特殊且常见的情况是域适应，其目标是缩小源域与目标域分布的差异，使得在源域训练的模型能够在目标域上表现良好。

图 2 从概念上展示了研究人员如何对迁移学习的问题与解决方案进行分类。

展示迁移学习问题和解决方案不同分类方式的思维导图。

图 2. 迁移学习的分类。问题通常依据标签可用性 (直推式 / 归纳式 / 无监督) 或特征空间是否匹配 (同构 vs. 异构) 来划分。解决方案包括基于实例、基于特征、基于参数及基于关系的方法。

常见的两类问题区分:

同构迁移学习: 源域与目标域共享同一特征空间 \(\mathcal{X}^S = \mathcal{X}^T\)。
异构迁移学习: 特征空间不同 (\(\mathcal{X}^S \neq \mathcal{X}^T\))。这种情况更具挑战性，通常需要进行特征空间对齐。

本文主要关注同构迁移学习，其中分布差异 (边际或条件分布差异) 是主要挑战。

第一部分 —— 数据中心方法: 改变数据，而非模型

这一大类方法通过调整数据表示，使同一个模型能在源域与目标域均有良好表现。图 3 总结了常见的数据中心策略: 实例加权与特征变换。

概述基于数据的迁移学习策略和目标的思维导图，包括实例加权和特征变换。

图 3. 基于数据的策略: 实例加权 (重新加权源域样本) 、特征变换 (增强、映射、对齐特征) 、分布对齐 (使用 MMD 或 KL 散度等度量来驱动适应) 。

1) 实例加权 —— 选取相关样本

当边际分布不同 (\(P^S(X) \neq P^T(X)\)) 但条件分布相同 (\(P^S(Y|X) = P^T(Y|X)\)) 时，合理的解决思路是实例加权。重写期望目标损失可得:

\[ \mathbb{E}_{(\mathbf{x},y)\sim P^{T}}[\mathcal{L}(\mathbf{x},y;f)] = \mathbb{E}_{(\mathbf{x},y)\sim P^{S}}\left[\frac{P^{T}(\mathbf{x})}{P^{S}(\mathbf{x})}\mathcal{L}(\mathbf{x},y;f)\right]. \]

因此，理想的权重为 \(\beta_i = P^T(\mathbf{x}_i)/P^S(\mathbf{x}_i)\)。由于这一比值未知，方法往往进行估计:

核均值匹配 (KMM): 在再生核希尔伯特空间 (RKHS) 中对齐均值来估计权重。优化求得的 \(\beta\) 使加权后的源域均值等于目标域均值，并加上约束。
KLIEP: 通过直接最小化 Kullback–Leibler 散度来拟合密度比。

Boosting 的变种通过迭代调整权重实现过滤。例如 TrAdaBoost 在迭代中降低有害源样本的权重，同时增加被误分类的目标样本权重——一种简单有效的过滤方法。

实例加权适用于源域标签充足而目标域标签稀缺 (甚至没有标签) 的情境。

2) 特征变换 —— 学习共享表示

与重新加权不同，更多方法选择学习一种能使源域与目标域分布对齐的特征表示。

关键基础之一是分布距离度量。最大均值差异 (MMD) 是常用方法:

\[ \mathrm{MMD}(X^S, X^T) = \left\| \frac{1}{n^S}\sum_{i=1}^{n^S}\Phi(\mathbf{x}_i^S) - \frac{1}{n^T}\sum_{j=1}^{n^T}\Phi(\mathbf{x}_j^T)\right\|_{\mathcal{H}}^2, \]

即 RKHS 中两域特征均值的平方距离。在特征映射后最小化 MMD 可缓解分布偏移。

常见特征变换技术:

特征增强 (显式堆叠) : Daumé 提出的“出奇地简单”特征增强法 (FAM)，将每个样本扩展为三部分: 通用部分、源特定部分、目标特定部分。源域样本 \(x\): \(\langle x, x, 0\rangle\)；目标域样本 \(x\): \(\langle x, 0, x\rangle\)。分类器会学习哪些部分重要。异构特征增强 (HFA) 则先将不同特征映射到共享空间再堆叠。
特征映射: 迁移成分分析 (TCA) 学习线性投影，最小化边际 MMD 并保留方差。联合分布适配 (JDA) 同时对齐边际分布 \(P(X)\) 和条件分布 \(P(Y|X)\): 迭代为目标数据分配伪标签，按类度量条件 MMD 并优化投影。
自编码器特征编码: 堆叠降噪自编码器 (SDA) 及边缘化变体 (mSDA)，从两域学习鲁棒高层表示，压缩输入得到更加接近的域特征。
特征对齐: 子空间对齐 (SA) 计算 PCA 子空间并学习线性变换对齐。测地线流核 (GFK) 沿 Grassmann 流形子空间路径融合信息。CORAL 直接匹配二阶统计量，对源特征施加“再着色”以匹配目标特征协方差。谱特征对齐 (SFA) 利用图谱技术对齐枢轴特征与域特定特征 (在情感任务中常用) 。

选择哪种策略取决于数据类型与标签可用性: 文本任务中，枢轴特征法 (SCL) 或基于主题的 (PLSA 变体) 表现优良；图像任务则多由子空间或深度方法占优。

第二部分 —— 模型中心方法: 改变学习器，而非数据

模型中心策略直接在模型设计中加入迁移机制——如共享参数、添加正则项、集成模型或设计迁移感知网络架构。图 4 概述了常见思路。

阐释基于模型的策略的思维导图，包括参数控制、模型集成和深度学习技术。

图 4. 模型中心策略包括参数共享/限制、共识与领域相关正则、集成方案以及深度网络适配 (基于差异与对抗的方法) 。

1) 通过正则化控制模型

可将源域知识作为正则化项加入目标任务的优化目标中。域适应机 (DAM) 与共识正则框架 (CRF) 鼓励目标预测与预训练源分类器在未标注目标样本上的预测一致。领域相关正则器则惩罚目标模型与源模型加权组合间的分歧——适用于多源情境。

Univer-DAM 扩展了上述方法，引入 Universum 正则项 (将源样本视为 Universum 样本) 以塑造目标决策边界。

2) 参数控制 —— 共享或约束参数

两种常见策略:

参数共享: 深度学习中通常先在大型源数据集 (如 ImageNet) 预训练网络，再冻结底层，微调高层，以重用具通用性的低层特征 (边缘、纹理) 。
参数限制: 鼓励目标权重 \(\theta\) 接近某个源权重 \(\theta_i\) 或其加权组合。多模型知识迁移 (MMKL) 将 \(\theta\) 正则趋向预训练源权重向量的加权和，让模型自适应从各源取用知识的比例。

矩阵分解方法 (如 MTrick、TriTL) 在潜在因子层面迁移，通过在域间共享因子矩阵实现。

3) 模型集成

当存在多个源模型时，集成策略可加权组合它们。TaskTrAdaBoost 与 MsTrAdaBoost 将 boosting 扩展到多源情境，选择并加权弱学习器。局部加权集成 (LWE) 按目标数据的局部流形结构给模型分配实例级权值。ENCHOR 则构造多种锚点表示训练弱学习器并集成——高度可并行。

4) 深度迁移学习 —— 基于差异与对抗

深度架构可联合学习特征提取器与分类器，同时施加迁移约束。

差异驱动方法在网络中加入分布匹配损失:

深度适配网络 (DAN): 多层添加 MMD (多核) 损失，以跨抽象层次对齐域表示。
深度 CORAL: 在深特征间添加协方差对齐损失。

对抗方法借鉴 GAN 的最小最大思想:

域对抗神经网络 (DANN): 由特征提取器 \(G\)、标签预测器 \(C\)、域分类器 \(D\) 组成。特征提取器生成既能正确预测又能迷惑域分类器的特征；梯度反转层 (GRL) 在反向传播时实现对抗目标，最终获得判别性且域不敏感的特征。
后续改进包括: CDAN (域判别器依赖分类预测) 、IWAN/IWANDA 与选择性对抗网络 (关注部分域适配) 、CAN (优化对比域差异，更好区分类别) 。

对抗适配在深特征和大量未标注目标数据的情境中尤为有效。

方法检验: 实践中哪些有效？

综述在三大基准数据集上对方法进行了比较:

Amazon Reviews —— 多领域情感分类 (书籍、电子产品、厨房、DVD)
Reuters-21578 —— 跨类别文本分类 (组织、人物、地点)
Office-31 —— 跨 Amazon、Webcam、DSLR 三个图像域的物体识别

实验揭示的趋势:

文本任务 (Amazon Reviews, Reuters)

没有一种方法能在所有任务中占优，效果与域差异及域偏移类型相关。
特征方法 (SCL, SFA, HIDC, MTrick) 在情感/文本任务上表现稳定优良。枢轴特征选择、谱对齐、概念聚类是文本任务的强策略。
少量标注目标数据存在时，TrAdaBoost 常优于其他，因为直接利用了目标标签。
特定生成/主题方法 (PLSA 系) 在不同域对上稳健性不足，但在适配潜在主题假设时表现突出。

雷达图展示了多种迁移学习模型在 Amazon Reviews 数据集上 12 个不同迁移任务中的性能。

图 5. Amazon Reviews 对比: 每个顶点代表源→目标方向；多边形越宽表示在任务中综合表现越稳定、越高。SCL、SFA 稳定优良；主题模型方法随迁移方向变化明显。

雷达图对比了各模型在 Reuters-21578 文本分类数据集上的性能。

图 6. Reuters-21578 对比: 不少方法能很好处理“组织 vs 地点”和“组织 vs 人物”，但在“人物 vs 地点”上表现欠佳，显示这两个域差异更大。利用目标标签的方法 (如 TrAdaBoost) 有优势。

视觉任务 (Office-31)

深度方法在图像域适配中优势明显。源域与目标域相似 (Webcam ↔ DSLR) 时，适配轻松，准确率接近 100%；差异大时 (Amazon → Webcam/DSLR) ，适配价值更高。

对抗与差异驱动的深度模型 (DAN, DANN, JAN, CDAN, CAN) 效果最佳；CAN 在近期评估中常居首位。
微调预训练网络 (参数共享) 是强基线，但添加分布对齐或对抗模块可持续提升效果。

雷达图展示了深度学习模型在 Office-31 物体识别数据集上的优越性能。

图 7. Office-31 对比: 深度迁移方法明显优于基线 (红色) 。相似域间 (Webcam ↔ DSLR) 准确率常接近完美；较难迁移任务 (Amazon ↔ Webcam/DSLR) 适配收益最大。

实验结论:

方法应匹配数据模态: 文本任务中枢轴、谱方法优于简单方法；图像任务中深度对抗或 MK-MMD 方法优良。
若有少量标注目标数据，善用它的算法 (TrAdaBoost、半监督方法) 可超越无监督适配。
超参数调优重要，调整正则、核、适配权重可显著提效。
警惕负迁移: 源域无关时贸然迁移可能使性能下降。

实践指南: 如何选择迁移方法

简明决策流程:

源域与目标域是否共享特征空间？
- 否 → 用异构方法 (特征映射、HFA、跨模态嵌入)
- 是 → 继续
目标域是否有标注样本？
- 是 (少量) → 半监督/归纳方法或 boosting (TrAdaBoost, TaskTrAdaBoost)
- 否 → 无监督域适应 (DANN, DAN, JDA, CORAL)
数据类型:
- 文本: 枢轴 SCL/SFA、谱对齐、主题联合模型 (TPLSA, HIDC)
- 图像: 深度方法 (DAN, DANN, CDAN, CAN) ，可先微调预训练网络
资源限制:
- 低算力 / 快速基线: KMM 加权、CORAL 协方差对齐、FAM 堆叠
- 高算力 / 最优性能: 深度对抗网络 (DANN, CDAN, CAN)
多源域？
- 用多源框架 (DAM, MFSAN) 或源加权的集成方法
类别不匹配 (部分迁移) :
- 用选择性/自适应对抗方法 (IWANDA, SAN) 避免对齐无关类别

未来研究方向

该领域依旧活跃，关键方向包括:

衡量可迁移性并自动避免负迁移
隐私保护迁移 (数据共享受限情况下)
终身 / 持续迁移: 模型跨演化域持续吸收知识
可解释性: 理解借用的源知识及其利弊
更强理论保证: 将分布差异与泛化界严密结合到实践

结语

在标注数据稀缺的情况下，迁移学习已是必需手段。实例加权、特征映射与对齐、参数共享与限制、模型集成、深度对抗网络等多样工具为从业者提供了丰富选择。正确方法取决于数据模态、标签可用性、算力预算及域相似度。

把迁移学习看作谨慎的重用: 传递有益知识，过滤有害知识，并始终在目标分布上验证。合理应用时，迁移学习真的能让老模型学会新把戏——以远少于传统方法的标注数据实现稳健性能。

能教会老模型新把戏吗？深入探究迁移学习#

引言 —— 数据困境#

迁移学习的术语#

第一部分 —— 数据中心方法: 改变数据，而非模型#

1) 实例加权 —— 选取相关样本#

2) 特征变换 —— 学习共享表示#

第二部分 —— 模型中心方法: 改变学习器，而非数据#

1) 通过正则化控制模型#

2) 参数控制 —— 共享或约束参数#

3) 模型集成#

4) 深度迁移学习 —— 基于差异与对抗#

方法检验: 实践中哪些有效？#

文本任务 (Amazon Reviews, Reuters)#

视觉任务 (Office-31)#

实践指南: 如何选择迁移方法#

未来研究方向#

结语#