如果你曾经训练过模型,你就会熟悉这个流程: 收集数据、清洗数据,然后花费数周时间进行特征工程,以尽可能提升算法性能。这种手工特征工程往往是成败的关键——耗时、脆弱且高度依赖具体领域。表征学习旨在改变这一现状。它希望模型能够自动找到合适的内部描述,而不依赖人类直觉去手工构造特征——这些表征能揭示数据背后的潜在解释因素。
在他们的全面综述《表征学习: 综述与新视角》中,Yoshua Bengio、Aaron Courville 和 Pascal Vincent 描绘了这一领域的全景: 为什么表征重要、什么样的表征优于其他,以及概率、几何和神经网络方法如何相互融合与补充。本文总结了他们的核心见解,旨在为读者提供直观认识、实用理解以及仍待解决的问题指引。
接下来是对核心思想的导览——塑造优质表征的先验知识、两种主流范式 (概率模型与直接编码) 、流形视角、实用架构与训练技巧,以及开放研究问题。
为什么表征重要
表征是将原始输入 (像素、音频样本、词元) 转换为下游算法可用的特征的过程。同一个下游学习器,在不同的表征下效果可能截然不同。好的表征一般具备三个高层特性:
- 表达能力强: 紧凑的表征能区分大量有用的输入配置。
- 解耦变动因素: 将数据中独立 (或近似独立) 的成因分离到表征的不同维度上。
- 具备抽象与不变性: 高层特征忽略无关的变动,同时保留语义信息。
这些特性不仅是便利性的体现,也是克服维度灾难的实用武器。原始输入空间极其庞大,仅靠平滑性假设 (相似输入产生相似输出) 远远不够——目标函数变化的可能性会随着潜在交互因素的数量呈指数级增长。强大的表征能够利用关于世界的先验信息,使学习变得可行。
以下是表征学习中常用的有效先验:
- 平滑性: 输入的微小变化通常引发输出的微小变化。
- 多重解释因素: 数据由多个基本因素组合生成,这些因素大多独立变化。
- 层次与深度: 高层概念由低层概念组合构成。
- 流形结构: 数据集中在嵌入高维空间的低维结构附近。
- 自然聚类: 不同类别分属不同的流形或模式。
- 时空相干性: 时间或空间上相邻的观测常共享部分因素。
- 稀疏性: 在任一样本中,仅少数因素处于活跃状态。
- 依赖简单性: 在高层次上,因素间关系更简单 (常为线性) 。
能捕捉这些先验的表征具有更强的泛化力、跨任务迁移能力,并可减少标注样本需求。
图 1 展示了多任务学习的思想: 共享表征捕捉潜在因素,而每个任务仅使用其不同子集——这种共享是表征学习的核心动机之一。
图1: 在多任务场景中,优质的共享表征能捕捉相关于多个任务的潜在因素。共享这些因素有助于提升跨任务泛化能力。
两种互补的范式
表征学习的研究主要沿着两条在实践中常常交汇的路径:
- 概率 (生成) 模型: 隐单元是潜在随机变量,模型定义联合分布 \(p(x,h)\),学习的目标是找到能够解释观测数据的参数。表征来自后验概率 \(p(h \mid x)\) 或其摘要 (如后验均值、最大后验估计) 。
- 直接编码 (确定性) 模型: 隐单元是函数 \(h = f_\theta(x)\) 中的确定性计算。自编码器和经过学习的前馈编码器属于此类。编码器直接被训练为将输入映射为紧凑编码。
这两种范式更像是同一问题的不同观测角度: 构建能捕捉数据结构的函数。我们会交替介绍它们,帮助建立直觉。
概率模型: 成因与“解释消除”效应
概率模型的核心问题是: 哪些潜在因素可能合理地生成了给定输入?
有向模型与“解释消除”
有向潜变量模型 (如因子分析、稀疏编码) 写作 \(p(x,h)=p(x\mid h)p(h)\),它们对生成观测 \(x\) 的潜在成因 \(h\) 进行建模。一个关键特性是“解释消除” (explaining away) : 即便潜变量在先验下独立,观测到 \(x\) 后,它们之间可能产生依赖。例如经典的“警报”案例: 观测到“警报”会将两种可能的原因 (入室盗窃、地震) 联系起来,看到其中一个原因会降低另一个的可能性。
“解释消除”能产生简约的表征,因为活跃的潜在成因会竞争解释数据,最终只有少数仍处于活跃状态,从而形成稀疏且可解释的编码。
稀疏编码 (具体例子)
稀疏编码假设输入 \(x\) 是少数字典原子的线性组合:
\[ h^* = \operatorname*{argmin}_h \|x - Wh\|_2^2 + \lambda \|h\|_1. \]字典 \(W\) 通过最小化重构损失学习得到。从概率角度看,\(p(x\mid h)\) 是高斯分布,\(p(h)\) 是拉普拉斯 (L1) 先验。推断需对每个 \(x\) 进行优化,计算成本高,但能得到仅有少数 \(h_i\) 活跃 (解释消除) 的编码。稀疏编码在视觉、音频和神经科学领域应用广泛。
无向模型与玻尔兹曼机
无向模型 (马尔可夫随机场) 通过能量函数定义分布:
\[ p(x,h) = \frac{1}{Z_\theta} \exp(-\mathcal{E}_\theta(x,h)). \]配分函数 \(Z_\theta\) 通常难以计算,增加了学习的复杂度。
受限玻尔兹曼机 (RBM) 是一类常用无向模型,其中可见单元 \(x\) 与隐单元 \(h\) 构成二分图,层内无连接。对于二值 RBM:
\[ \mathcal{E}(x,h) = -x^\top W h - b^\top x - d^\top h. \]这种结构允许一次计算即可得到隐单元边缘概率:
\[ P(h_i=1 \mid x) = \sigma\left(\sum_j W_{ji}x_j + d_i\right). \]训练仍受配分函数影响。对数似然梯度可分解为“正相” (数据驱动) 和“负相” (模型驱动) 。常用近似方法有对比散度 (CD) 与持久化 CD (SML/PCD) ,它们让 RBM 训练成为可能。
RBM 及其扩展 (高斯 RBM、尖峰-厚板 RBM 等) 是构建深度层次模型的有效模块,尤其结合卷积结构处理图像时表现优异。
图2: RBM 结构: 可见层与隐层仅有层间连接。这种条件独立性使得计算 \(P(h\mid x)\) 高效。
图3: (上) 卷积训练的尖峰-厚板 RBM 生成的样本。 (下) 每个生成样本的最近训练图像 (按对比度归一化的 L2 距离) 。模型能生成新颖且合理的图像,而非简单复制训练样本。
直接编码: 自编码器与监督式编码器
自编码器通过最小化重构损失同时学习编码器 \(f_\theta(x)\) 与解码器 \(g_\theta(h)\):
\[ \mathcal{J}_{AE}(\theta) = \sum_t L\big(x^{(t)}, g_\theta(f_\theta(x^{(t)}))\big). \]若编码维度≥输入维度,过完备的自编码器可能学会恒等映射,因此必须加正则化来逼其捕捉数据结构。
正则化自编码器
常见正则化方式包括:
- 稀疏自编码器: 添加惩罚促使大部分激活值接近零。
- 降噪自编码器 (DAE) : 对输入施加扰动 \(\tilde{x} \sim q(\tilde{x}\mid x)\),训练重构干净的 \(x\),迫使模型学习将损坏输入映射回数据分布高密度区域。
- 收缩自编码器 (CAE) : 对编码器雅可比矩阵 \(J(x)=\partial f_\theta(x)/\partial x\) 添加惩罚,如 \(\|J(x)\|_F^2\),鼓励特征在局部对微扰不敏感,除非扰动方向沿着关键流形方向。
- 预测性稀疏分解 (PSD) : 学习快速的参数化编码器近似高成本的稀疏编码推断。
降噪与收缩自编码器与概率建模有紧密联系: 它们可视为在估计数据分布的局部结构或得分 (对数密度梯度) 。DAE 的重构向量 \(r(\tilde{x}) - \tilde{x}\) 指向高密度区域,在某些情况下直接逼近得分 \(\nabla_{\tilde{x}}\log p(\tilde{x})\)。
图4: DAE 的重构函数将损坏输入 (红点) 推回数据流形 (波浪曲线) 。向量场 \(r(\tilde{x}) - \tilde{x}\) 大致指向更高密度区域。
自编码器、雅可比矩阵与切向量
自编码器提供了另一种理解流形的方法: 在数据点 \(x\),编码器的雅可比矩阵可指示特征表征对输入空间哪些方向敏感。其主奇异向量张成在 \(x\) 处流形的估计切平面。收缩自编码器倾向于收缩大多数方向 (奇异值小) ,只保留少数切线方向奇异值大——这正是流形的局部自由度。
图5: CAE 估计的切向量,各切线对应输入的合理局部形变 (如微平移或笔画变化) 。将少量切向量加到原始输入上可生成邻近的有效数据点。
流形切线分类器 (Manifold Tangent Classifier) 基于此思想: 用 CAE 提取切线方向,并训练分类器对这些方向保持不变。在 MNIST 等任务上取得了无需手工设计不变性的先进性能。
几何学: 流形假设与坐标学习
流形假设——数据位于低维流形附近——是许多表征学习方法的指导思想。线性方法如 PCA 可视为建模线性流形 (超平面) 。非线性方法 (正则化自编码器、稀疏编码及局部坐标编码等局部化方法) 旨在恢复内在坐标系。
捕捉流形结构的两类实用方法:
- **非参数方法 **(Isomap、LLE、t-SNE 等) : 为训练样本计算嵌入,但无法为新数据提供直接编码器。
- **参数方法 **(自编码器、参数化 t-SNE、半监督嵌入) : 学习显式映射 \(f_\theta(x)\),可泛化到新样本。
正则化自编码器可视为学习一个场: 将点推向流形 (经由重构) 并在流形外区域保持平坦——这种隐式局部密度模型支持采样与推断。
连接概率视角与编码器视角
两者间的联系包括:
- 在一些条件下,训练 DAE 等价于得分匹配 (score matching) ,是一种非归一化模型的估计方法。DAE 重构减去输入近似于得分 \(\nabla_x \log p(x)\)。
- PSD 可视为同时学习稀疏生成模型与参数化近似推断 (编码器) ,调和稀疏编码中迭代 MAP 推断的高成本与前馈编码器的高效。
- 自编码器与 RBM 在特征学习上的结果可相似,其优化目标在特殊情况下可一致。
这些联系促成了跨范式的思想迁移: 如自编码器的采样算法、概率模型的高效编码器、结合生成目标与判别微调的混合训练方式。
采样与混合挑战
能量模型 (RBM、DBM) 训练的难点之一是采样 (负相) ,但当分布模式尖锐且被低密度区域隔开时,MCMC 混合效果差。训练初期,分布较平滑,链易于穿越模式;后期分布模式变尖锐,混合停滞,训练受阻。
图6: (上) 训练早期,模型分布弥散,MCMC 混合良好。 (下) 训练后期,模式尖锐且分隔,MCMC 容易困在单一模式。
一种解决思路是: 在高层表征空间中采样。如果更深层解耦了因素,那么在输入空间中相距甚远的模式在抽象特征空间中可能相邻。此时 MCMC 在高层空间中混合更高效,再映射回输入空间。理论与实证表明,深度表征可改善混合与采样质量。
构建深度架构: 堆叠与联合训练
将单层模块 (RBM、自编码器) 堆叠为深度模型是一大突破。逐层贪婪无监督预训练 (训练第1层,冻结,利用其输出训练第2层,……) 可:
- 优化: 提供良好初始化,避免陷入不佳的局部最小值。
- 正则化: 无监督目标为中间层引入数据驱动的先验。
预训练完成后,可用反向传播针对监督任务微调模型。
深度玻尔兹曼机 (DBM) 具多隐层,可生成建模,但其后验难以求解,需近似推断 (如平均场) 。实用的 DBM 联合训练仍多依赖逐层预训练后再变分或近似联合优化。
同时,优化技术的进步 (更好初始化、ReLU、批归一化、自适应优化器、超大规模监督训练) 使在海量标注数据上直接训练深度监督模型成为可能。不过,在标注稀缺或需要更强生成能力时,无监督与半监督表征学习依然重要。
构建不变性: 卷积、池化与变换
输入拓扑领域知识 (图像为二维结构,音频有时间结构) 可以嵌入架构以提升数据效率:
- 卷积网络用局部感受野与权重共享捕捉平移不变特征。
- 池化 (最大、平均、L2) 聚合邻近响应,提升对小平移与形变的鲁棒性。
- 平铺式与学习型池化方法尝试自动发现应一起池化的特征,以获得更丰富的不变性。
基于图像块的无监督训练 (先在小块上学习滤波器,再卷积与池化) 是适用于图像与音频的可扩展方法。卷积 RBM 与卷积自编码器结合卷积结构与生成/降噪目标,能学习层次特征。
替代方法如散射变换无需学习滤波器,具有数学保证的不变性,提供强基准并带来不变性机制的理论洞见。
时间相干性与慢特征
时间提供了强信号: 在视频或音频中,关心的因素通常变化缓慢。慢特征分析 (SFA) 及相关方法鼓励特征在时间上缓慢变化,从而对快变的无关因素保持不变,并分离慢变因素。时间相干性已与自编码器结合,用于从未标注视频中发掘有意义特征。
解耦变动因素——开放挑战
解耦是终极目标: 希望表征能区分各类解释性因素 (身份、姿态、光照、风格等) 。部分方法已取得进展:
- 显式建模变换的架构 (变换型自编码器) 在成对数据或已知变换下可学习类似姿态的变量。
- 基于切向的技术 (CAE + 流形切线分类器) 估计局部形变方向并使模型对其不变。
- 将潜变量分解为可解释子空间 (结构化先验、组稀疏、尖峰-厚板) 有助于分离风格与内容。
但完全无监督且通用的解耦仍是挑战,可能需更强归纳偏置、结构化先验或巧妙利用弱监督 (时间连续、多视图、已知变换) 。
实用指南 (简表)
- 尽量利用领域拓扑: 图像用卷积+池化,音频用卷积/时间结构。
- 深度网络优先用 ReLU 或其他现代非线性,利于优化。
- 标注数据少时考虑无监督预训练;海量标注数据时,良好初始化即可直接监督训练。
- 自编码器常用降噪或收缩变体,比纯重构更稳健、特征更优。
- 使用 RBM/DBM 时注意混合问题——持久链、退火转移、深度表征可缓解。
- 跟踪有信息量的无监督指标: 如 DAE 的降噪重构误差、CAE 的雅可比矩阵谱、AIS 近似似然等。
结论与开放问题
表征学习既是实用工具,也是深刻的科学难题: 学习系统该如何组织内部的世界描述?Bengio、Courville 与 Vincent 的综述融合了概率生成模型、直接编码自编码器与几何流形三种互补视角,展示了它们如何相互强化。
开放问题包括:
- 解耦潜在因素的通用目标是什么?
- 如何实现可扩展到深度结构化模型的高效近似推断?
- 能否用最少监督可靠解耦因素的架构与算法?
- 深度网络的优化特性与架构及正则化的交互机制如何?
这些问题的突破将推动机器学习走向不仅能拟合数据,还能捕捉因果与结构规律的模型,使其具备推理、迁移与超强泛化能力。
表征学习改变了我们设计特征的方式。它既是工具箱——自编码器、RBM、稀疏编码、卷积架构——也是概念框架——先验、流形、解耦——持续驱动着视觉、语音、语言等领域的发展。若你在构建模型,投入时间深入理解与试验表征学习,往往会在鲁棒性、可迁移性与性能上获得回报。