世界正面临一个巨大的垃圾问题。随着城市扩张和人口增长,我们产生的垃圾也在不断增加。据预测,到 2050 年,全球垃圾总量可能激增 70%,达到惊人的 34 亿吨

管理这场危机的核心在于一项看似简单实则复杂的任务:** 垃圾分类**。有效的分类是实现回收、节约资源和维持循环经济至关重要的第一步。

但分类并非易事。传统方法严重依赖体力劳动——速度慢、成本高、易出错,并且不足以应对当今垃圾流的规模和复杂性。这正是人工智能 (AI) ——尤其是深度学习——展现出巨大潜力的领域。卷积神经网络 (CNN) 可以自动对垃圾图像进行分类,但它们难以应对现实世界中垃圾的复杂情况: 多变的光照条件、外观相似的材料以及类别分布不均衡。

近期的一篇研究论文**《ECO-HYBRID: 利用迁移学习与混合及增强型 CNN 模型实现可持续的垃圾分类》,通过一个全面的框架**来应对这些挑战。作者们对现有模型进行了基准测试,设计了新的高效架构,并将表现最佳的模型组合成混合与集成系统,从而实现了业界领先的准确率。


宏观视角: 智能分类框架

在深入研究模型之前,让我们先了解其整体工作流程。研究人员开发了一个**系统化的处理流程 **(图 1) ,该流程接收原始垃圾图像并输出准确的分类结果。

图 1 展示了垃圾分类系统的端到端流程。该流程从输入图像开始,经过预处理 (导入、切分、增强、类别加权) ,然后进入模型选择 (迁移学习、自定义模型、混合模型) 、训练,最后进行评估。

这个过程首先是收集和准备数据——清洗、调整尺寸和增强图像,以构建一个稳健的数据集。接下来,训练和评估多个模型,从简单的自定义 CNN 到强大的预训练网络和创新的混合架构。最后,测试模型的准确率、精确率、召回率和鲁棒性。


奠定基础: 数据集

任何机器学习模型的性能都无法超越其训练数据的质量。研究人员汇集了 4,691 张图像,涵盖十个垃圾类别,他们将一个流行的公共数据集与一个自定义整理的数据集相结合,以纳入代表性不足的类别,如电池、衣物和鞋子。

表 2 显示了 10 个垃圾类别的图像分布,例如鞋子 (601)、纸张 (594) 和一般垃圾 (137)。

如表 2 所示,该数据集是不均衡的——某些类别 (如鞋子) 的样本数量远多于一般垃圾。这种不均衡可能导致模型偏向于更常见的类别。为了解决这个问题,作者在训练期间使用了类别权重,迫使模型更多地关注代表性不足的类别。

图 2 展示了每个类别的样本图像,揭示了其中的挑战: 区分揉皱的纸张和硬纸板,或不同类型的塑料,并非易事。

图 2 展示了十个垃圾类别的样本图像,包括塑料、玻璃、电池、纸张、可降解垃圾、衣物、一般垃圾、硬纸板、鞋子和金属。

预处理步骤:

  1. 清洗: 移除损坏或灰度的图像。
  2. 调整尺寸: 将所有图像统一标准化为 224×224 像素。
  3. 切分: 将数据分为训练集 (80%) 、验证集 (10%) 和测试集 (10%) 。
  4. 数据增强: 应用随机变换 (旋转、翻转、缩放、亮度调整) ,以提升泛化能力并减少过拟合。

从简单到复杂: 模型探索

该研究的核心是构建和测试不同的分类模型,从一个基础的 CNN 开始,逐步扩展到前沿的混合和自定义架构。

1. 基准模型: 自定义 CNN

最初的实验使用了一个结构简单的 CNN,如图 3 所示。它包含四个卷积层,每个卷积层后接一个池化层,最后通过全连接层进行分类。

图 3 展示了一个自定义 CNN 的架构,包含四个卷积/池化模块,随后是全连接层、Dropout 层和 Softmax 层。

这个基准模型在测试集上达到了 85.96% 的准确率,虽然尚可,但不足以满足实际部署需求。在某些类别上较低的召回率表明模型难以处理特征重叠的情况。学习曲线 (图 9a) 揭示了过拟合现象——模型在训练数据上的表现显著优于验证数据。


2. 迁移学习: 站在巨人的肩膀上

研究团队没有从零开始训练,而是利用迁移学习技术,采用了 11 种业界顶尖的 CNN 架构 (如 ResNet50、DenseNet、EfficientNet 系列等) ,这些架构都在 ImageNet 数据集上进行过预训练。

迁移学习通过冻结网络的早期层并微调较深层,从而复用已学到的特征检测器——如边缘、形状、纹理——使其适应垃圾分类数据集:

\[ (\mathcal{D}_S, \mathcal{T}_S) \to (\mathcal{D}_T, \mathcal{T}_T) \]

其效果非常显著。表 5 显示,采用迁移学习的模型远优于从零开始训练的模型。例如,MobileNetV3-Large 的准确率从 12.79% 跃升至 97.01%

表 5 对比了 11 个模型在使用和不使用迁移学习两种情况下的测试准确率。“使用迁移学习”一栏的准确率稳定在 95% 以上,而“不使用”一栏的结果明显更低且波动更大。


3. 混合模型: 强强联合

表现最佳的几个模型——ResNet50EfficientNetV2-MDenseNet201——被组合成一个**混合架构 **(图 4) 。每个模型独立处理输入图像,然后它们的中间特征通过加权平均进行融合:

\[ F(x_i) = 0.3 f_{\text{ResNet50}}(x_i) + 0.4 f_{\text{EfficientNetV2-M}}(x_i) + 0.3 f_{\text{DenseNet201}}(x_i) \]

图 4 展示了所提出的混合架构。三个并行的骨干网络提取特征,在一个加权融合模块中进行组合,然后通过全连接层进行最终的分类。

这种更丰富的特征集使混合模型达到了 98.08% 的准确率。


4. EcoMobileNet 和 EcoDenseNet: 任务专属定制

现实应用不仅要求准确率,还要求高效率。为此,团队设计了两款自定义模型:

EcoMobileNet: 基于 MobileNetV3-Large,增加了Squeeze-and-Excitation (SE) 模块以加大对重要通道的关注,并用 Mish 激活函数取代 ReLU,实现更平滑的优化。该模型非常轻量,仅 3.49 百万参数,是移动/边缘部署的理想选择。

图 5 展示了 EcoMobileNet 的架构。它以 MobileNetV3 为基础,加入了改进的 SE 模块,并在最终 Softmax 输出层前使用带 Mish 激活的全连接层。

EcoDenseNet: 在 DenseNet201 基础上,加入了 SE 模块和卷积块注意力模块 (Convolutional Block Attention Modules, CBAM) ——一种同时关注空间和通道维度的注意力机制——以及 Mish 激活函数,从而增强细粒度分类能力。

图 6 展示了 EcoDenseNet 的架构。它以 DenseNet-201 为基础,通过 SE 和 CBAM 注意力模块、全连接层以及 Softmax 输出层进行了增强。

这两款模型均采用自定义的 PolyFocal 损失函数,更有效地应对类别不均衡问题。


5. 集成堆叠: 终极分类器

集成学习结合了多个模型的预测。简单方法如软投票可提升精度,但本研究中堆叠 (stacking) 表现最佳。来自 DenseNet201 和 EfficientNetV2-M 的预测结果被输入到逻辑回归元学习器中,学习出最优的组合策略。

表 6 显示了不同集成方法的性能。堆叠方法取得最高准确率,达 98.29%。

堆叠集成模型取得了令人瞩目的 98.29% 准确率。


结果: 业界顶尖的性能

表 7 对比了所有模型。虽然迁移学习模型表现出色 (>95%) ,但提出的架构在各项指标上全面超越它们。
EcoMobileNet混合模型均实现了 98.08% 的准确率,而堆叠集成模型则达到 98.29%

表 7 对比了各模型的性能指标。提出的模型在准确率、精确率、召回率和 F1 得分方面均优于其他模型。

混淆矩阵 (图 8) 直观地展示了预测效果——深色的对角线表示正确分类。与基准 CNN 相比,提出的模型的对角线更清晰。

图 8 展示了四个模型的混淆矩阵,提出的模型相比自定义 CNN 在非对角线上的错误更少。


消融研究: 验证增强效果

为了验证架构中各个组件的作用,研究人员依次移除它们。表 8 显示,当去掉 SE 模块、CBAM、Mish 激活函数或 PolyFocal 损失函数等元素时,准确率均明显下降。

表 8 展示了消融研究结果。移除任何组件都会导致性能下降,验证了它们的重要性。


面向实际应用的准备: 泛化能力与效率

模型未经再训练直接在 TrashNet 数据集上测试。EcoMobileNet 表现最佳,准确率达到 94.65%,显示了强泛化能力。

表 13 展示了跨数据集评估结果。在 TrashNet 数据集上,EcoMobileNet 表现最优,泛化能力强。

部署指标 (表 9) 显示,EcoMobileNet 体积最小、速度最快;混合模型体积最大但精度最高;EcoDenseNet 在两者之间平衡。

表 9 展示了部署特性;EcoMobileNet 轻量且快速,混合模型笨重但精度高,EcoDenseNet 较为适中。


结论与启示

这项研究为实现精准、高效的垃圾分类提供了有力蓝图:

  1. 迁移学习至关重要,相比从零训练能带来显著性能提升。
  2. 混合与集成模型显著增强了鲁棒性与准确率——堆叠集成模型达到 98.29%
  3. 轻量级自定义模型 (如 EcoMobileNet) 在保持顶尖准确率的同时,易于在终端设备上部署。
  4. **注意力机制与现代激活函数 **(SE、CBAM、Mish) 提升了特征选择性与学习稳定性。

在一个日处理 10 万件物品的设施中,准确率提升 3% (从 95% 到 98%) 意味着每天多正确分类 3,000 件物品——每年可从垃圾填埋场中挽救超过 135 吨的物资。

ECO-HYBRID 框架表明,通过精心的工程设计,深度学习有望改变垃圾管理方式,助力实现可持续未来。下一步包括实际部署、进一步的边缘优化,以及扩展识别范围到更多材料类型和类别。