引言: 大数据的双刃剑
我们生活在一个数据泛滥的时代。从社交媒体信息流到科学传感器,我们生成和收集信息的速度远远超出了我们的处理能力。对机器学习从业者而言,这种数据的丰富既是福音,也是诅咒。大型数据集能够支撑高精度的模型,但也会产生计算瓶颈——模型训练变得缓慢、昂贵,甚至有时不可行。
一个广为人知的解决方案是数据集蒸馏或核集 (coreset) 生成。这个概念非常直观: 与其用数百万条记录进行训练,不如将它们“提炼”为几千个具有代表性的样本,这些样本保留了原始数据的精髓。这些更小、带权重的数据集——即核集——可以显著缩短训练时间,而性能几乎不受影响。
但问题更深层。大数据不仅承载信息,还反映社会偏见。例如,一个基于历史数据训练的贷款审批模型,可能会延续对特定人群的歧视模式。当我们蒸馏有偏的数据时,是不是也把偏见蒸馏了进去?或者更糟——我们在无意中放大了它?
这正是研究论文 “公平 Wasserstein 核集” (Fair Wasserstein Coresets, FWC) 的切入点。作者提出了一种新颖的核集技术,同时兼顾效率与公平性。FWC 生成一个小巧、带权重的合成数据集,它既能紧密逼近原始分布,又能强制满足人口统计上的公平性。其核心在于结合Wasserstein 距离 (来源于最优传输理论) 和人口统计均等 (Demographic Parity) 这一公平性指标。
本文将从概念和实践两方面探讨 FWC 的工作原理,内容包括:
- 核集、Wasserstein 距离和人口统计均等的基础知识
- FWC 优化框架如何将这些思想有机结合
- 用于高效计算公平核集的 Majorization-Minimization 算法
- FWC 与 k-means 聚类之间的惊人联系
- 实验结果展示 FWC 如何在标准机器学习模型乃至 GPT-4 等大型语言模型中提升公平性
让我们开始吧。
背景: FWC 的构建基石
FWC 将三个核心概念——核集、Wasserstein 距离和人口统计均等——融合在一起。理解这些模块有助于我们了解该方法为何能同时实现高效与公平。
什么是核集 (Coreset)?
设想你有一个包含数百万数据点的数据集。一个核集是一个紧凑、带权重的子集,它能针对特定的学习任务近似原始数据集。核集中的每个样本都带有一个权重,表示其相对重要性,使其能够“代表”多条原始数据。目标很简单: 在核集上训练模型,实现与全量数据训练几乎相同的效果,但耗时更短。
基于核集的数据集蒸馏方法在聚类、分类和贝叶斯推断等领域已非常流行。然而,大多数方法忽略了公平性——这在现实应用中正变得越来越重要。
为什么选择 Wasserstein 距离?
为了评估核集是否忠实地代表了原始数据集,我们需要一种能衡量两个分布相似度的度量。**Wasserstein 距离 **(常被称为“推土机距离”) 恰好满足这一要求。
想象两堆泥土——每一堆代表一个概率分布。Wasserstein 距离量化了将物质从一个排列移动到另一个排列所需的最小工作量。这一总“工作量”综合考虑了移动的距离和移动的质量。
Wasserstein 距离通过量化在两个概率分布间需要运输多少“质量”来比较它们的几何结构。
这种度量之所以理想,是因为它关联了几何、概率与学习性能。当核集与原始数据集的 Wasserstein 距离很小时,用该核集训练的模型在准确率上的损失极小。事实上,FWC 论文正式证明,对于常见模型——如带 ReLU 激活的神经网络——模型性能差异的上界由 Wasserstein 距离所限定。
论文中的命题 2.1 表明,模型在核集与原始数据上的输出差异被 1-Wasserstein 距离的上界所限制。因此,最小化该距离可直接控制下游误差。
什么是人口统计均等 (Demographic Parity)?
机器学习中的公平性有多种定义,而最常见的标准之一是人口统计均等 (DP)。它要求模型的输出分布与受保护属性 (如性别、种族) 无关。例如,在招聘任务中,不同人口群体的录用率应保持相近。
FWC 通过约束核集,使其子群体的结果分布接近目标 (通常是总体分布) ,以实现该原则。这种“接近程度”由容忍参数 \( \epsilon \) 控制: \(\epsilon\) 越小,公平性要求越严格。
核心方法: 构建公平 Wasserstein 核集
FWC 的核心是一个优化问题。目标是找到一组小型合成样本 \( \{ \hat{Z}_j \}_{j=1}^m \) 及其权重 \( \{ \theta_j \}_{j=1}^m \),在保持公平性的前提下,使 Wasserstein 距离最小化。
FWC 旨在寻找一个既能最佳匹配原始分布,又遵守人口统计均等约束的核集。
形式上,这意味着在保证人口统计均等违反程度不超过 \( \epsilon \) 的约束下最小化 Wasserstein 距离。
为便于求解,作者将问题系统地分成四个步骤。
第一步: 缩小搜索空间
每个数据样本 \( Z \) 包含特征 \( X \)、受保护属性 \( D \) 和结果 \( Y \)。由于 \( D \) 和 \( Y \) 是离散已知的,我们可以固定它们在核集中的比例,使其与原始数据一致。这样,只需在连续特征 \(\hat{X}\) 和权重 \(\theta\) 上进行优化。
固定离散变量如结果和人口属性后,搜索空间简化为特征向量与权重。
第二步: 线性化公平性约束
人口统计均等条件涉及比率,属于非线性,难以直接处理。作者巧妙地将这些比率表示为成对线性不等式——对每个子群体和结果组合设置上、下界。
将公平性条件改写为线性不等式,可紧凑表示为 \( A\theta \ge \mathbf{0} \),其中 \(A\) 编码了不同群体间的关系。
这一转换至关重要——它将一个非凸约束转化为一组易处理的线性条件。
第三步: 引入传输方案
为高效计算 Wasserstein 距离,FWC 借助最优传输理论工具。它定义一个传输方案矩阵 \( P \),其中 \( P_{ij} \) 表示从样本 \( Z_i \) 搬运到核集代表 \(\hat{Z}_j\) 的概率质量。
每个条目 \( P_{ij} \) 定义了从 \( Z_i \) 向 \( \hat{Z}_j \) 传输的质量,实现高效线性优化。
总传输成本 \( \langle C(\hat{X}), P \rangle \) 的最小化因此成为一个大型但结构化的线性规划问题,其中 \( C(\hat{X}) \) 是基于欧几里得距离的成本矩阵。
第四步: 求解嵌套优化问题
权重 \(\theta\) 可从传输方案中恢复,因此问题可简化为仅对核集特征 \(\hat{X}\) 和传输方案 \(P\) 进行优化。这形成一个嵌套结构:
- 内部问题: 固定特征 \(\hat{X}\),求最优传输方案 \(P\)
- 外部问题: 调整核集特征以最小化传输带来的总成本
嵌套结构: 内部线性规划定义 \( F(C(\hat{X})) \);外部优化寻找使 \( F \) 最小化的 \(\hat{X}\)。
函数 \( F(C(\hat{X})) \) 表示给定特征配置下的最优传输成本。
对于固定的成本矩阵 \( C \),内部规划求取实现最小总距离的公平传输方案。
由于 \( F \) 连续但非凸,FWC 使用 Majorization-Minimization 算法 来求解。
算法: 高效求解 FWC
为克服非凸性,FWC 采用 Majorization-Minimization (MM) 框架——一种迭代方法,用更简单的代理 (surrogate) 函数替代原始复杂目标,该代理函数是原函数的凸上界。
每次迭代构建一个凸代理函数,通过最小化它确保稳步收敛。
每次迭代 \(k\) 的步骤:
更新代理函数
固定当前核集特征 \(\hat{X}^k\),求解内部线性规划得到最优传输方案 \(P_k^*\)。这一步采用高效的 FairWASP 算法改进版。
代理函数成为成本矩阵的线性形式:代理函数 \( g(\hat{X}; \hat{X}^k) = \langle C(\hat{X}), P_k^* \rangle \) 是凸的、易于最小化。
更新特征向量
最小化代理函数得到下一组核集位置 \(\hat{X}^{k+1}\)。该过程可分解为 \(m\) 个独立子问题——每个核集点对应一个加权质心计算。更新核集位置涉及计算加权质心,可并行执行。
重复迭代直至收敛,逐步优化传输方案和核集位置,生成公平且高度代表性的核集。
“顿悟”时刻: FWC 是广义的聚类算法
巧妙的一点在于: 当公平约束被移除时,FWC 就退化为k-means 聚类的 Lloyd 算法。
无公平性约束时,每个原始点仅被分配到最近的核集代表,随后重新计算质心——这正是 k-means 的步骤。因此,FWC 可视为 k-means 与 k-medians 的公平性扩展版本,借助最优传输理论引入公平约束。
这一联系提供了强烈的直观理解: FWC 在概率分布空间中执行公平聚类,兼顾代表性与均等性。
实验: 检验 FWC
可扩展性与运行时间
FWC 的可扩展性出色。论文中的合成实验表明,运行时间随数据规模近似线性增长。即便样本量达数百万,FWC 仍保持可计算性。
*左上图: * 运行时间分析证实近线性扩展性。*其他图: * 不同数据集上的公平性–效用权衡。
公平性–效用平衡
研究者在标准公平性数据集 (Adult、Credit、Crime、Drug) 上,将 FWC 与基准核集及公平聚类方法进行比较。随后用这些核集训练下游神经网络模型。
各模型的准确率 (AUC) 与公平性 (人口统计差异) 被绘制为图,虚线红色的帕累托前沿表示可实现的最佳平衡。在所有数据集上,FWC 都位于或接近前沿,同时保持了竞争性的效用与显著降低的差异,即便在无额外公平性处理的情况下。
降低大型语言模型的偏见
在一个富有创意的实验中,团队测试了 FWC 在 GPT-3.5 与 GPT-4 的少样本提示 (few-shot prompting) 情境中的效果。使用 Adult 数据集,他们选择 16 个由 FWC 生成的样本作为提示,引导模型进行预测。结果令人惊讶: 人口统计差异在 GPT-3.5 中减少了 75%,在 GPT-4 中减少了 35%,且准确率几乎未受影响。
基于 FWC 样本的少样本提示帮助 GPT 模型生成更公平的预测,而基本不影响性能。
这表明,精心挑选的公平代表样本能有效引导大型语言模型朝向更均衡的结果。
结论与展望
公平 Wasserstein 核集 (FWC) 提供了一种在保持公平性的同时蒸馏大数据的系统方法。它将最优传输理论与人口统计均等相结合,生成小型、具有代表性且公平的核集。
要点总结:
- 高效: 在下游任务中实现了最先进的公平性–效用权衡
- 可扩展: 通过 MM 算法高效处理大规模数据
- 多用途: 能扩展至数据增强、大语言模型公平性修正等应用
- 富有启发性: 将公平性与聚类相结合,推广经典 k-means 框架
随着数据驱动模型不断影响人类生活中的决策,像 FWC 这样的方法对于确保效率不以牺牲公平为代价至关重要。该论文还为后续拓展奠定基础——包括其他公平性度量 (如均等化机会) 、隐私与公平性权衡,以及将公平核集用于神经网络剪枝和抗偏训练等方向。
公平性不仅是机器学习的附加特性——它是设计的核心原则。FWC 展示了,通过恰当的数学框架,公平性可以从一开始就被自然地融入模型之中。