简介
在深度学习时代,数据就是新的石油。但有一个问题: 提炼这些石油——即在海量数据集上训练模型——极其昂贵且对计算资源要求极高。对于许多学生和研究人员来说,受限于硬件条件,在完整的 ImageNet 或 Food-101 数据集上训练一个最先进的模型简直是遥不可及。
这就引出了子集选择 (Subset Selection,也称为核心集选择 Coreset Selection) 。其目标简单却雄心勃勃: 我们能否识别出训练数据中一小部分信息量最大的子集 (比如 10% 或 30%) ,使得模型在这些数据上训练后的效果几乎与在完整数据集上训练一样好?
传统上,解决这个问题面临着“鸡生蛋,蛋生鸡”的困境。要知道哪些数据点是重要的,你通常需要一个训练好的模型来评估它们。但如果你必须先训练一个模型来筛选用于训练模型的数据……那你根本就没有节省任何时间。
一篇题为 《Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection》 (基础模型洞察与面向卓越细粒度单次子集选择的多模型方法) 的新论文提出了一条跳出这个循环的路径。研究人员探讨了使用预训练的基础模型 (Foundation Models, FMs) ——如 CLIP 和 DINOv2——作为“裁判”来筛选数据。他们揭示了关于这些模型何时有效 (以及何时无效) 的惊人见解,并介绍了一种名为 RAM-APL 的新颖方法,该方法结合多个基础模型,在细粒度数据集上取得了最先进的结果。
传统筛选方法的瓶颈
要理解为什么这种新方法意义重大,我们首先需要看看“单次子集选择”通常是如何进行的。
在典型的流程中,你需要一个信息提取器 (Information Extractor, IE) 。 这是一个神经网络,用于观察你的数据并提取特征 (图像的数学表示) 。然后,根据这些特征的独特性或模型对它们的不确定程度来衡量其重要性。

如上图 Figure 1 (a) 所示,传统流程要求在开始筛选之前,必须在目标数据集上训练一个模型。这就产生了数据集依赖 (dataset dependency) 。 每当你有一个新数据集时,你都必须花费时间和算力去预训练一个代理模型,仅仅是为了弄清楚该保留哪些数据。
研究人员提议转向 Figure 1 (b) 所示的流程。与其从头开始训练一个新的代理模型,为什么不使用基础模型 (FMs) 呢?这些庞大的模型 (如 CLIP、SigLIP 或 DINOv2) 已经在数十亿张图像上进行过训练。它们拥有“通用知识”。理论上,我们可以直接将它们作为信息提取器接入,完全跳过预训练阶段。
但这真的行得通吗?
第一部分: 单模型调查
作者并没有想当然地认为基础模型会更好;他们进行了一项严格的“单模型研究”来验证这一假设。他们在不同类型的数据集上比较了传统代理模型与各种基础模型的表现:
- 粗粒度 (Coarse-grained) : 识别通用物体 (例如,CIFAR-10: 飞机与鸟) 。
- 细粒度 (Fine-grained) : 识别特定的子类别 (例如,Oxford-IIIT Pet: 不同的犬种) 。
- 噪声 (Noisy) : 包含部分错误标签的数据集。
洞察 1: 基础模型在细粒度数据上大放异彩
研究揭示了性能上的巨大差异。在粗粒度数据集上,尤其是那些带有噪声标签的数据集,基础模型提供的优势有限。有时,在目标数据上训练的简单模型表现甚至更好。
然而,在细粒度数据集上,基础模型占据了主导地位。如下图 Figure 6 所示,特别是图表 (d),在 Oxford-IIIT Pet 数据集上,基础模型 (彩色条) 的表现经常优于传统方法 (蓝色/灰色条) 。

因为基础模型在自身的预训练过程中见过如此种类繁多的物体,它们极其擅长区分细微的特征——比如梗犬和寻回犬毛发纹理的区别——这对细粒度任务至关重要。
洞察 2: 并非所有基础模型生而平等
这是第二个令人惊讶的发现: “更好”的基础模型并不一定能成为更好的数据筛选器。你可能会认为,如果模型 A 在分类任务上的准确率高于模型 B,那么它在筛选数据时也应该更出色。

Figure 2 显示情况并非如此。散点图将模型在完整任务上的准确率 (X轴) 与其作为数据筛选器的表现 (Y轴) 进行了映射。如果相关性是完美的,所有点将形成一条对角线。相反,我们看到像 EVA-CLIP 这样的模型可能是很棒的分类器,但对于某些算法来说却是次优的筛选器。
这就带来了一个难题: 如果我们想使用基础模型,该选哪一个?如果我们必须测试所有模型才能找到最好的那个,那我们又回到了浪费时间的老路上。
第二部分: 多模型方法 (RAM-APL)
为了解决选择难题并最大化在细粒度数据集上的性能,作者提出了一种新方法: RAM-APL 。
核心理念是共识 (consensus) 。 不同的基础模型看待世界的方式不同。DINOv2 可能侧重于物体结构,而 CLIP 可能侧重于语义关联。通过结合它们,我们可以获得对数据重要性的稳健估计,而无需知道哪个具体模型对该任务是“最好”的。
作者使用一个模型池 (在主要实验中具体使用了 CLIP 和 DINOv2) 来计算两个关键指标: RAM (用于类内排序) 和 APL (用于类间区分) 。
1. 排序均值 (RAnking Mean, RAM)
RAM 专注于代表性 (Representativeness) 。 在特定的类别 (例如“暹罗猫”) 中,我们要挑选那些可以说是该类别“最佳范例”的图片。
首先,对于每个类别 \(c\) 和每个基础模型 \(i\),该方法计算一个“质心”——即该类别中所有图像的平均特征向量:

接下来,它计算每张图像 \(j\) 与其类别中心之间的欧几里得距离。距离越小,说明该图像越典型 (即原型) 。

图像根据这个距离进行排名。最后, 排序均值 (RAM) 是该图像在所使用的所有不同基础模型中排名的平均值。

RAM 的可视化: 作者提供了该指标实际找到的内容的可视化。在 Figure 9 中,左侧图像具有“小”RAM 值 (排名高) 。注意主体是多么清晰和居中。随着 RAM 变大 (向右侧移动) ,图像变得更加杂乱、模糊或非典型。

2. 伪类标签准确率 (Accuracy of Pseudo-class Labels, APL)
虽然 RAM 找到了具有代表性的图像,但我们还需要知道一张图像与其他类别有多大的区分度 (Distinctiveness) 。 这就是 APL 的作用。
对于给定的图像,每个基础模型都会根据特征距离尝试猜测其标签 (即“伪标签”) 。

如果模型猜对了 (图像的特征最接近其自身的类别中心) ,得分为 1。如果猜错了 (把猫误认为是狗) ,得分为 0。 APL 分数是所有基础模型的平均准确率。

如果一张图像的 APL 分数很低,说明多个强大的基础模型都对它感到困惑。这很可能是一个离群点或困难样本。
3. 融合分数
最终的选择分数结合了 RAM (代表性) 和 APL (区分度) 。

权重 \(W_1\) 和 \(W_2\) 不是静态的。作者使用了一种基于采样率 (\(p\)) 的动态加权机制。

为什么要动态加权?
- 低预算 (例如 1% 数据) : 你承担不起混淆数据的代价。你需要最具代表性的例子来学习基础知识。权重向 RAM 倾斜。
- 高预算 (例如 50% 数据) : 基础知识已经涵盖了。现在你需要“困难”样本来精细化决策边界。权重允许更多地考虑 APL。
实验与结果
作者将 RAM-APL 与广泛的基线方法进行了测试,包括 K-Center Greedy、Herding 等经典方法以及较新的深度学习筛选方法。
性能对比
在细粒度数据集上的结果令人印象深刻。 Figure 3 展示了在 Oxford-IIIT Pet 数据集上的性能曲线。

红线( Ours )始终位于顶部。在 Caltech-UCSD Birds 数据集 (CUB-200-2011) 上,RAM-APL 在所有采样率下比随机选择平均提高了 6.4% 。 在子集选择的背景下,这是一个巨大的优势。
为什么要用多个模型?
真的有必要使用多个模型吗?我们能不能直接把 CLIP 和 DINOv2 的特征拼在一起?
作者分析了不同基础模型提取的特征之间的“余弦相似度”。

Figure 10 显示相似度接近于零 (深蓝色方块) 。这证明 CLIP、SigLIP 和 DINOv2 提取的是根本不同类型的信息。通过结合它们,RAM-APL 获得了比任何单一模型所能提供的都更丰富的数据视图。
此外, Table 2 表明增加模型通常会提高性能。CLIP (C) 和 DINOv2 (D) 的组合在准确性和效率之间提供了最佳平衡。

跨架构泛化能力
子集选择的一个常见痛点是,为一种模型 (如 ResNet) 筛选的数据可能对另一种模型 (如 MobileNet) 效果不佳。RAM-APL 在这方面也被证明是稳健的。

Table 6 显示,即使目标模型是 MobileNet-V3 (与用于筛选的基础模型完全不同) ,RAM-APL 仍然优于其他方法。
结论
研究论文 《Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection》 为我们现代化训练数据的筛选方式提供了有力的论证。
主要收获如下:
- 基础模型是可行的信息提取器 , 特别是在细粒度任务中,消除了对昂贵的代理模型预训练的需求。
- 没有单一的基础模型是完美的 , 仅仅依赖某一个模型可能导致结果不稳定。
- RAM-APL 通过聚合来自多个基础模型的洞察,平衡了代表性 (通过 RAM) 和区分度 (通过 APL) ,成功弥补了这一差距。
通过利用基础模型的“集体智慧”,我们可以筛选出高质量的数据子集,从而以一小部分的计算成本训练出强大的 AI 模型。这种方法不仅让高效训练变得更加平民化,也凸显了基础模型除了生成和分类之外的新用途: 它们可以充当下一代 AI 的数据策展人。
](https://deep-paper.org/en/paper/2506.14473/images/cover.png)