从像素到概念：表征学习的力量

如果你曾经训练过模型，你就会熟悉这个流程: 收集数据、清洗数据，然后花费数周时间进行特征工程，以尽可能提升算法性能。这种手工特征工程往往是成败的关键——耗时、脆弱且高度依赖具体领域。表征学习旨在改变这一现状。它希望模型能够自动找到合适的内部描述，而不依赖人类直觉去手工构造特征——这些表征能揭示数据背后的潜在解释因素。

在他们的全面综述《表征学习: 综述与新视角》中，Yoshua Bengio、Aaron Courville 和 Pascal Vincent 描绘了这一领域的全景: 为什么表征重要、什么样的表征优于其他，以及概率、几何和神经网络方法如何相互融合与补充。本文总结了他们的核心见解，旨在为读者提供直观认识、实用理解以及仍待解决的问题指引。

接下来是对核心思想的导览——塑造优质表征的先验知识、两种主流范式 (概率模型与直接编码) 、流形视角、实用架构与训练技巧，以及开放研究问题。

为什么表征重要

表征是将原始输入 (像素、音频样本、词元) 转换为下游算法可用的特征的过程。同一个下游学习器，在不同的表征下效果可能截然不同。好的表征一般具备三个高层特性:

表达能力强: 紧凑的表征能区分大量有用的输入配置。
解耦变动因素: 将数据中独立 (或近似独立) 的成因分离到表征的不同维度上。
具备抽象与不变性: 高层特征忽略无关的变动，同时保留语义信息。

这些特性不仅是便利性的体现，也是克服维度灾难的实用武器。原始输入空间极其庞大，仅靠平滑性假设 (相似输入产生相似输出) 远远不够——目标函数变化的可能性会随着潜在交互因素的数量呈指数级增长。强大的表征能够利用关于世界的先验信息，使学习变得可行。

以下是表征学习中常用的有效先验:

平滑性: 输入的微小变化通常引发输出的微小变化。
多重解释因素: 数据由多个基本因素组合生成，这些因素大多独立变化。
层次与深度: 高层概念由低层概念组合构成。
流形结构: 数据集中在嵌入高维空间的低维结构附近。
自然聚类: 不同类别分属不同的流形或模式。
时空相干性: 时间或空间上相邻的观测常共享部分因素。
稀疏性: 在任一样本中，仅少数因素处于活跃状态。
依赖简单性: 在高层次上，因素间关系更简单 (常为线性) 。

能捕捉这些先验的表征具有更强的泛化力、跨任务迁移能力，并可减少标注样本需求。

图 1 展示了多任务学习的思想: 共享表征捕捉潜在因素，而每个任务仅使用其不同子集——这种共享是表征学习的核心动机之一。

一个多任务学习架构的图示，其中一个共享的潜在因素表征被用来解决多个不同的任务 (任务A、任务B和任务C) 。

图1: 在多任务场景中，优质的共享表征能捕捉相关于多个任务的潜在因素。共享这些因素有助于提升跨任务泛化能力。

两种互补的范式

表征学习的研究主要沿着两条在实践中常常交汇的路径:

概率 (生成) 模型: 隐单元是潜在随机变量，模型定义联合分布 \(p(x,h)\)，学习的目标是找到能够解释观测数据的参数。表征来自后验概率 \(p(h \mid x)\) 或其摘要 (如后验均值、最大后验估计) 。
直接编码 (确定性) 模型: 隐单元是函数 \(h = f_\theta(x)\) 中的确定性计算。自编码器和经过学习的前馈编码器属于此类。编码器直接被训练为将输入映射为紧凑编码。

这两种范式更像是同一问题的不同观测角度: 构建能捕捉数据结构的函数。我们会交替介绍它们，帮助建立直觉。

概率模型: 成因与“解释消除”效应

概率模型的核心问题是: 哪些潜在因素可能合理地生成了给定输入？

有向模型与“解释消除”

有向潜变量模型 (如因子分析、稀疏编码) 写作 \(p(x,h)=p(x\mid h)p(h)\)，它们对生成观测 \(x\) 的潜在成因 \(h\) 进行建模。一个关键特性是“解释消除” (explaining away) : 即便潜变量在先验下独立，观测到 \(x\) 后，它们之间可能产生依赖。例如经典的“警报”案例: 观测到“警报”会将两种可能的原因 (入室盗窃、地震) 联系起来，看到其中一个原因会降低另一个的可能性。

“解释消除”能产生简约的表征，因为活跃的潜在成因会竞争解释数据，最终只有少数仍处于活跃状态，从而形成稀疏且可解释的编码。

稀疏编码 (具体例子)

稀疏编码假设输入 \(x\) 是少数字典原子的线性组合:

\[ h^* = \operatorname*{argmin}_h \|x - Wh\|_2^2 + \lambda \|h\|_1. \]

字典 \(W\) 通过最小化重构损失学习得到。从概率角度看，\(p(x\mid h)\) 是高斯分布，\(p(h)\) 是拉普拉斯 (L1) 先验。推断需对每个 \(x\) 进行优化，计算成本高，但能得到仅有少数 \(h_i\) 活跃 (解释消除) 的编码。稀疏编码在视觉、音频和神经科学领域应用广泛。

无向模型与玻尔兹曼机

无向模型 (马尔可夫随机场) 通过能量函数定义分布:

\[ p(x,h) = \frac{1}{Z_\theta} \exp(-\mathcal{E}_\theta(x,h)). \]

配分函数 \(Z_\theta\) 通常难以计算，增加了学习的复杂度。

受限玻尔兹曼机 (RBM) 是一类常用无向模型，其中可见单元 \(x\) 与隐单元 \(h\) 构成二分图，层内无连接。对于二值 RBM:

\[ \mathcal{E}(x,h) = -x^\top W h - b^\top x - d^\top h. \]

这种结构允许一次计算即可得到隐单元边缘概率:

\[ P(h_i=1 \mid x) = \sigma\left(\sum_j W_{ji}x_j + d_i\right). \]

训练仍受配分函数影响。对数似然梯度可分解为“正相” (数据驱动) 和“负相” (模型驱动) 。常用近似方法有对比散度 (CD) 与持久化 CD (SML/PCD) ，它们让 RBM 训练成为可能。

RBM 及其扩展 (高斯 RBM、尖峰-厚板 RBM 等) 是构建深度层次模型的有效模块，尤其结合卷积结构处理图像时表现优异。

RBM的二分图结构。

图2: RBM 结构: 可见层与隐层仅有层间连接。这种条件独立性使得计算 \(P(h\mid x)\) 高效。

从卷积训练的尖峰-厚板RBM生成的样本与 CIFAR-10 训练集中最接近的邻居对比。

图3: (上) 卷积训练的尖峰-厚板 RBM 生成的样本。 (下) 每个生成样本的最近训练图像 (按对比度归一化的 L2 距离) 。模型能生成新颖且合理的图像，而非简单复制训练样本。

直接编码: 自编码器与监督式编码器

自编码器通过最小化重构损失同时学习编码器 \(f_\theta(x)\) 与解码器 \(g_\theta(h)\):

\[ \mathcal{J}_{AE}(\theta) = \sum_t L\big(x^{(t)}, g_\theta(f_\theta(x^{(t)}))\big). \]

若编码维度≥输入维度，过完备的自编码器可能学会恒等映射，因此必须加正则化来逼其捕捉数据结构。

正则化自编码器

常见正则化方式包括:

稀疏自编码器: 添加惩罚促使大部分激活值接近零。
降噪自编码器 (DAE) : 对输入施加扰动 \(\tilde{x} \sim q(\tilde{x}\mid x)\)，训练重构干净的 \(x\)，迫使模型学习将损坏输入映射回数据分布高密度区域。
收缩自编码器 (CAE) : 对编码器雅可比矩阵 \(J(x)=\partial f_\theta(x)/\partial x\) 添加惩罚，如 \(\|J(x)\|_F^2\)，鼓励特征在局部对微扰不敏感，除非扰动方向沿着关键流形方向。
预测性稀疏分解 (PSD) : 学习快速的参数化编码器近似高成本的稀疏编码推断。

降噪与收缩自编码器与概率建模有紧密联系: 它们可视为在估计数据分布的局部结构或得分 (对数密度梯度) 。DAE 的重构向量 \(r(\tilde{x}) - \tilde{x}\) 指向高密度区域，在某些情况下直接逼近得分 \(\nabla_{\tilde{x}}\log p(\tilde{x})\)。

示意图: 降噪自编码器将损坏输入映射回原始数据流形。

图4: DAE 的重构函数将损坏输入 (红点) 推回数据流形 (波浪曲线) 。向量场 \(r(\tilde{x}) - \tilde{x}\) 大致指向更高密度区域。

自编码器、雅可比矩阵与切向量

自编码器提供了另一种理解流形的方法: 在数据点 \(x\)，编码器的雅可比矩阵可指示特征表征对输入空间哪些方向敏感。其主奇异向量张成在 \(x\) 处流形的估计切平面。收缩自编码器倾向于收缩大多数方向 (奇异值小) ，只保留少数切线方向奇异值大——这正是流形的局部自由度。

收缩自编码器为数字图像学习到的切向量。

图5: CAE 估计的切向量，各切线对应输入的合理局部形变 (如微平移或笔画变化) 。将少量切向量加到原始输入上可生成邻近的有效数据点。

流形切线分类器 (Manifold Tangent Classifier) 基于此思想: 用 CAE 提取切线方向，并训练分类器对这些方向保持不变。在 MNIST 等任务上取得了无需手工设计不变性的先进性能。

几何学: 流形假设与坐标学习

流形假设——数据位于低维流形附近——是许多表征学习方法的指导思想。线性方法如 PCA 可视为建模线性流形 (超平面) 。非线性方法 (正则化自编码器、稀疏编码及局部坐标编码等局部化方法) 旨在恢复内在坐标系。

捕捉流形结构的两类实用方法:

**非参数方法 **(Isomap、LLE、t-SNE 等) : 为训练样本计算嵌入，但无法为新数据提供直接编码器。
**参数方法 **(自编码器、参数化 t-SNE、半监督嵌入) : 学习显式映射 \(f_\theta(x)\)，可泛化到新样本。

正则化自编码器可视为学习一个场: 将点推向流形 (经由重构) 并在流形外区域保持平坦——这种隐式局部密度模型支持采样与推断。

连接概率视角与编码器视角

两者间的联系包括:

在一些条件下，训练 DAE 等价于得分匹配 (score matching) ，是一种非归一化模型的估计方法。DAE 重构减去输入近似于得分 \(\nabla_x \log p(x)\)。
PSD 可视为同时学习稀疏生成模型与参数化近似推断 (编码器) ，调和稀疏编码中迭代 MAP 推断的高成本与前馈编码器的高效。
自编码器与 RBM 在特征学习上的结果可相似，其优化目标在特殊情况下可一致。

这些联系促成了跨范式的思想迁移: 如自编码器的采样算法、概率模型的高效编码器、结合生成目标与判别微调的混合训练方式。

采样与混合挑战

能量模型 (RBM、DBM) 训练的难点之一是采样 (负相) ，但当分布模式尖锐且被低密度区域隔开时，MCMC 混合效果差。训练初期，分布较平滑，链易于穿越模式；后期分布模式变尖锐，混合停滞，训练受阻。

MCMC混合的挑战示意。

图6: (上) 训练早期，模型分布弥散，MCMC 混合良好。 (下) 训练后期，模式尖锐且分隔，MCMC 容易困在单一模式。

一种解决思路是: 在高层表征空间中采样。如果更深层解耦了因素，那么在输入空间中相距甚远的模式在抽象特征空间中可能相邻。此时 MCMC 在高层空间中混合更高效，再映射回输入空间。理论与实证表明，深度表征可改善混合与采样质量。

构建深度架构: 堆叠与联合训练

将单层模块 (RBM、自编码器) 堆叠为深度模型是一大突破。逐层贪婪无监督预训练 (训练第1层，冻结，利用其输出训练第2层，……) 可:

优化: 提供良好初始化，避免陷入不佳的局部最小值。
正则化: 无监督目标为中间层引入数据驱动的先验。

预训练完成后，可用反向传播针对监督任务微调模型。

深度玻尔兹曼机 (DBM) 具多隐层，可生成建模，但其后验难以求解，需近似推断 (如平均场) 。实用的 DBM 联合训练仍多依赖逐层预训练后再变分或近似联合优化。

同时，优化技术的进步 (更好初始化、ReLU、批归一化、自适应优化器、超大规模监督训练) 使在海量标注数据上直接训练深度监督模型成为可能。不过，在标注稀缺或需要更强生成能力时，无监督与半监督表征学习依然重要。

构建不变性: 卷积、池化与变换

输入拓扑领域知识 (图像为二维结构，音频有时间结构) 可以嵌入架构以提升数据效率:

卷积网络用局部感受野与权重共享捕捉平移不变特征。
池化 (最大、平均、L2) 聚合邻近响应，提升对小平移与形变的鲁棒性。
平铺式与学习型池化方法尝试自动发现应一起池化的特征，以获得更丰富的不变性。

基于图像块的无监督训练 (先在小块上学习滤波器，再卷积与池化) 是适用于图像与音频的可扩展方法。卷积 RBM 与卷积自编码器结合卷积结构与生成/降噪目标，能学习层次特征。

替代方法如散射变换无需学习滤波器，具有数学保证的不变性，提供强基准并带来不变性机制的理论洞见。

时间相干性与慢特征

时间提供了强信号: 在视频或音频中，关心的因素通常变化缓慢。慢特征分析 (SFA) 及相关方法鼓励特征在时间上缓慢变化，从而对快变的无关因素保持不变，并分离慢变因素。时间相干性已与自编码器结合，用于从未标注视频中发掘有意义特征。

解耦变动因素——开放挑战

解耦是终极目标: 希望表征能区分各类解释性因素 (身份、姿态、光照、风格等) 。部分方法已取得进展:

显式建模变换的架构 (变换型自编码器) 在成对数据或已知变换下可学习类似姿态的变量。
基于切向的技术 (CAE + 流形切线分类器) 估计局部形变方向并使模型对其不变。
将潜变量分解为可解释子空间 (结构化先验、组稀疏、尖峰-厚板) 有助于分离风格与内容。

但完全无监督且通用的解耦仍是挑战，可能需更强归纳偏置、结构化先验或巧妙利用弱监督 (时间连续、多视图、已知变换) 。

实用指南 (简表)

尽量利用领域拓扑: 图像用卷积+池化，音频用卷积/时间结构。
深度网络优先用 ReLU 或其他现代非线性，利于优化。
标注数据少时考虑无监督预训练；海量标注数据时，良好初始化即可直接监督训练。
自编码器常用降噪或收缩变体，比纯重构更稳健、特征更优。
使用 RBM/DBM 时注意混合问题——持久链、退火转移、深度表征可缓解。
跟踪有信息量的无监督指标: 如 DAE 的降噪重构误差、CAE 的雅可比矩阵谱、AIS 近似似然等。

结论与开放问题

表征学习既是实用工具，也是深刻的科学难题: 学习系统该如何组织内部的世界描述？Bengio、Courville 与 Vincent 的综述融合了概率生成模型、直接编码自编码器与几何流形三种互补视角，展示了它们如何相互强化。

开放问题包括:

解耦潜在因素的通用目标是什么？
如何实现可扩展到深度结构化模型的高效近似推断？
能否用最少监督可靠解耦因素的架构与算法？
深度网络的优化特性与架构及正则化的交互机制如何？

这些问题的突破将推动机器学习走向不仅能拟合数据，还能捕捉因果与结构规律的模型，使其具备推理、迁移与超强泛化能力。

表征学习改变了我们设计特征的方式。它既是工具箱——自编码器、RBM、稀疏编码、卷积架构——也是概念框架——先验、流形、解耦——持续驱动着视觉、语音、语言等领域的发展。若你在构建模型，投入时间深入理解与试验表征学习，往往会在鲁棒性、可迁移性与性能上获得回报。

为什么表征重要#

两种互补的范式#

概率模型: 成因与“解释消除”效应#

有向模型与“解释消除”#

稀疏编码 (具体例子)#

无向模型与玻尔兹曼机#

直接编码: 自编码器与监督式编码器#

正则化自编码器#

自编码器、雅可比矩阵与切向量#

几何学: 流形假设与坐标学习#

连接概率视角与编码器视角#

采样与混合挑战#

构建深度架构: 堆叠与联合训练#

构建不变性: 卷积、池化与变换#

时间相干性与慢特征#

解耦变动因素——开放挑战#

实用指南 (简表)#

结论与开放问题#