废物管理是现代城市生活中最持久的挑战之一。随着城市发展,我们的垃圾山也在不断增高。处理这一问题的传统方式——人工收集和分拣——劳动密集、成本高昂、不卫生且效率低下。

如果我们能在废物管理的第一步——垃圾桶本身——就引入智能,会怎样呢?

一群研究人员尝试用 SmartBin 来回答这个问题,这是一种低成本硬件解决方案,利用深度学习在源头自动分离垃圾。在他们的论文 “A deep learning approach based hardware solution to categorise garbage in environment” 中,展示了一个能够区分可生物降解和不可生物降解废物,并将其物理分拣到不同隔间的原型。

本文将拆解他们的方法,介绍所使用的硬件、测试的深度学习模型以及 SmartBin 的真实表现。您将看到树莓派 (Raspberry Pi) 、摄像头和强大的神经网络如何联手,为复杂的环境问题创造出一个实用方案。


挑战: 一个多样且杂乱的问题

自动化垃圾分拣远非易事。与典型的目标检测任务 (如寻找猫或汽车) 不同,垃圾在视觉上极其多样,可以是任何形状、大小、颜色或质地。一个苹果核、一张揉皱的报纸和一个塑料瓶几乎没有共同的视觉特征。

研究人员尝试了各种方法来解决这个问题:

  • SpotGarbage 这样的移动应用使用卷积神经网络 (CNN) 识别用户提交照片中的垃圾堆。
  • 物联网摄像头和传感器监控垃圾桶的填充程度。
  • 机械臂和先进计算机视觉技术在传送带上分拣物品。

本研究作者希望找到一个既有效又易于实现的解决方案。他们将图像分类与简单、易得的物联网组件相结合,打造了一个可安装在垃圾桶内部的系统——在垃圾投放的瞬间就进行分拣。


构建 SmartBin: 数据集、硬件与工作流程

数据集: 教 AI 识别垃圾

研究人员从三个公共来源 (包括知名的 TrashNet 仓库) 收集了 9,516 张图像。图像分为七类:

  • 有机垃圾
  • 纸板
  • 纸张
  • 金属
  • 玻璃
  • 塑料
  • 其他垃圾

这七类又归并为 SmartBin 分拣机制的两大类:

  • 可生物降解: 有机垃圾、纸张、纸板
  • 不可生物降解: 金属、玻璃、塑料、其他垃圾

可生物降解物品占 51.76%,不可生物降解物品占 48.24%

表格展示了数据集按可生物降解和不可生物降解类别 (含子标签) 的细分情况。

树状图直观展示了数据集分布。

树状图显示了数据集在可生物降解 (51.76%) 和不可生物降解 (48.24%) 之间的比例。

各类别的样本图片在干净的白色背景下以高分辨率拍摄,以最大程度减少噪声。

数据集样本拼贴图,包括有机垃圾、金属、纸板、纸张、玻璃、塑料和其他垃圾。


系统设计与工作流程

SmartBin 的硬件原型集成了检测处理机械分拣。一台树莓派负责统筹整个流程。

工作原理:

  1. 激活: 用户按下“USE ME”按钮,盖子打开,子系统唤醒。
  2. 检测: 红外传感器发射波,中央分隔盘上的垃圾会阻挡这些波。
  3. 图像捕捉: 红外接收器检测反射信号,并在 5 秒延迟后触发 Pi Camera (确保物体稳定并调整焦距与光线) 。
  4. 分类: 图像输入树莓派上的预训练 CNN 模型。
  5. 决策: CNN 预测六个垃圾类别之一,结果映射为可生物降解 (1) 或不可生物降解 (0)。
  6. 分离: 伺服电机倾斜分隔盘,将垃圾投入正确隔间,然后回到中立位。

SmartBin 流程图,展示按钮激活、红外检测、图像捕捉、InceptionNet 分类及伺服电机分拣过程。

硬件中断开关可安全终止无限循环脚本。

中断流程图: 检测到异常中断时终止进程。


硬件组件

SmartBin 使用低价且易购的部件,街道级版本成本约 ₹4050 (约 50 美元) 。

SmartBin 原型与街道级版本的成本估算。

关键组件 (见下方电路图) :

  • Raspberry Pi 3B: 运行操作系统、驱动脚本和深度学习模型。
  • Pi Camera: 500 万像素模块,通过 CSI 接口捕捉图像。
  • 红外传感器: 检测物体存在,并触发摄像头。
  • 伺服电机: 倾斜分隔盘实现分拣。

电路图显示了 Pi 3B 与 Pi Camera、红外传感器、按钮及伺服电机的连接。

物理原型:

SmartBin 原型六图,包括分隔盘、Pi Camera、红外传感器,以及纸板检测/分拣演示。


SmartBin 的“大脑”: CNN 对决

硬件准备就绪后,团队使用迁移学习四种知名预训练 CNN 架构上进行测试——仅重新训练最后一层,用于分类六种垃圾类别。

1. AlexNet

2012 年 ImageNet 冠军;5 个卷积层 + 3 个全连接层,引入了 ReLU 与 dropout。

AlexNet 架构框图。

2. VGG-16

由均一的 3×3 卷积堆叠构成;结构简单但庞大 (参数量 1.38 亿) 。

VGG-16 架构图。

3. ResNet

通过跳跃连接避免梯度消失,使网络可以更深。

ResNet 架构,包含卷积块和恒等块。

4. InceptionNet V3

并行使用多种尺寸的滤波器处理输入;卷积分解提高效率。针对深度和宽度优化,非常适合树莓派等设备。

InceptionNet V3 架构概览,展示 Stem、Inception A/B/C 模块和 Reduction 模块。

构建模块包括:

  • Stem: 初始下采样
  • Inception 模块 A、B、C: 多尺度特征提取
  • Reduction 模块 A、B: 在扩展通道的同时进行降维

Stem、Inception 模块、Reduction 模块和辅助分类器图。 Inception A 模块框图。 Reduction A 模块框图。 Reduction B 模块框图。 Inception B、C 和辅助分类器图。


结果: 胜者

训练/验证准确率与损失对比:

表格比较 AlexNet、ResNet、InceptionNet V3 和 VGG16 的准确率与损失。

损失与准确率曲线:

VGG-16、ResNet50、AlexNet 和 InceptionNet V3 的训练与验证准确率/损失曲线。

要点:

  • VGG-16: 过拟合;训练准确率与验证准确率差距大 (98.76% vs 87.52%) 。
  • AlexNet: 验证准确率高 (97.95%) 。
  • ResNet: 表现稳健 (验证准确率 97.21%) 。
  • InceptionNet V3: 验证准确率 96.23%,且验证损失最低 (0.13)

预测速度同样关键:

折线图比较各模型每张图片的预测时间。

InceptionNet V3 在保持优异性能的同时速度最快——因此成为 SmartBin 的首选“大脑”。


实际测试

现实中,垃圾并非在整洁的白色背景下拍摄。

首次测试: 一个压扁的纸板球 → 由于光线差、背景杂乱及模糊,被误判为不可生物降解。

修正措施:

  1. 在垃圾桶内铺设纯白背景,减少背景干扰。
  2. 提高 ISO 提升低光表现,并确保 5 秒延迟拍摄,使图像清晰对焦。

此举改善了对金属笔、报纸、塑料包装、土豆、玻璃罐等物体的分类。

输出图显示多个测试物体的正确分类结果。

失败案例: 棉签因训练数据中缺乏相似样本而被误判为可生物降解。

棉签被误判为可生物降解的图片。

这说明需要更加多样、涵盖边缘案例的训练数据


与其他方案的比较

SmartBin 的独特优势在于硬件上的物理分离,而许多现有方案仅限于软件。

表格比较 SmartBin 与其他垃圾分类/检测系统。

SmartBin 在垃圾桶内实现了 96.23–98.15% 的准确率以及实时分拣动作。


结论与未来方向

SmartBin 展示了深度学习结合物联网硬件解决环境问题的潜力。通过将高效模型 InceptionNet V3 与简单机械分拣结合,团队实现了源头废物自动分类。

局限性:

  • 一次只能处理一个物品。
  • 对图像质量较敏感。

未来计划:

  • 扩展数据集: 采集更多样化图像,覆盖更多边缘案例。
  • 优化速度: 使用更快摄像头或减少延迟。
  • 增强功能: 增加更多废物子类分类、实现多物品同时分拣、整合垃圾桶填充传感器。

像 SmartBin 这样的项目,让我们预见一个技术帮助城市更可持续运转的未来——让普通垃圾桶也能智能化,实现更清洁高效的废物管理。