[Mask R-CNN 🔗](https://arxiv.org/abs/1703.06870)

超越边界框:深入解析 Mask R-CNN

计算机视觉在教机器“看”这个领域取得了惊人的进步。我们已经从简单地对整张图片进行分类 (“这是一只猫”) 发展到检测其中的单个物体 (“这里有一只猫,那里有一只狗”) 。但如果我们需要更多细节呢?如果我们不只是想在猫周围画一个框,而是想知道哪些像素精确地属于这只猫呢? ...

2017-03 · 7 分钟 · 3057 字
[V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation 🔗](https://arxiv.org/abs/1606.04797)

超越切片:V-Net 如何彻底改变 3D 医学图像分割

想象一下,一位放射科医生正在一丝不苟地翻阅数百张 MRI 切片,试图描绘出肿瘤或器官的精确边界。这个过程被称为“分割” (segmentation) ,是医学诊断、治疗计划和科研的基础。同时,这项工作也极其耗时、枯燥,并且容易出现人为错误。多年来,计算机科学家们一直在寻求将这项任务自动化,但 3D 医学数据 (如 MRI 和 CT 扫描) 的复杂性始终是一个重大挑战。 ...

2016-06 · 5 分钟 · 2447 字
[U-Net: Convolutional Networks for Biomedical Image Segmentation 🔗](https://arxiv.org/abs/1505.04597)

U-Net: 用小数据实现精准分割的深度学习架构

我们如何能教会计算机像生物学家一样观察——不仅仅是识别出图像中含有细胞,而是要精确地勾勒出每一个细胞的边界? 这项任务被称为图像分割 (image segmentation),是生物医学研究和诊断的基石。它能自动化分析成千上万张显微镜图像,帮助追踪癌症进展,并绘制整个神经回路图。 ...

2015-05 · 5 分钟 · 2452 字
[Fully Convolutional Networks for Semantic Segmentation 🔗](https://arxiv.org/abs/1411.4038)

FCN: 让 CNN 实现像素级语义分割的开创性工作

多年来,卷积神经网络 (CNN) 一直是图像分类领域无可争议的王者。给 CNN 一张图片,它就能以惊人的准确度告诉你,这是一只猫、一只狗,还是一辆汽车。 但如果你想知道猫在图片中的具体位置——不仅仅是一个边界框,而是它逐像素的精确轮廓呢?这就是**语义分割 **(semantic segmentation) 的任务,它使问题从分类的“是什么”,跃升到了更深层次的“是什么 以及 在哪里”。 ...

2014-11 · 5 分钟 · 2439 字
[Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 🔗](https://arxiv.org/abs/1506.01497)

Faster R-CNN: 让实时目标检测成为可能的突破性技术

目标检测是计算机视觉中的基础任务之一。它赋予了计算机一种能力,不仅能看到图像,更能理解图像中有什么——定位并识别场景中的每一辆车、每一个人、每一只鸟和每一个咖啡杯。多年来,R-CNN 系列模型一直处于该领域的前沿。从 R-CNN 起步,到速度更快的 Fast R-CNN,这些模型不断推动着准确率的极限。 ...

2015-06 · 5 分钟 · 2182 字

Fast R-CNN: 让目标检测又快又准的突破性进展

在计算机视觉领域,**目标检测 **(即在图像中识别并定位物体的任务) 是需要解读视觉数据的系统所面临的一项核心挑战。 在 2015 年之前,主流的深度学习目标检测方法虽然准确,但出了名地缓慢和笨重。它们涉及复杂的多阶段训练流程,难以优化且运行速度极慢。这一切都随着 Ross Girshick 发表的 Fast R-CNN 论文而改变。 ...

5 分钟 · 2129 字
[Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 🔗](https://arxiv.org/abs/1406.4729)

打破固定尺寸限制:SPP-net 如何让 CNN 快 100 倍

在 21 世纪 10 年代初,像 AlexNet 这样的深度卷积神经网络 (CNN) 在计算机视觉领域掀起了一场革命,打破了图像分类的各项纪录。然而,在这一突破背后,有一个出人意料且严格的限制束缚了这些强大的模型: 它们要求每一张输入图像都必须是完全相同的尺寸——通常是 224×224 像素。 ...

2014-06 · 5 分钟 · 2500 字
[Rich feature hierarchies for accurate object detection and semantic segmentation 🔗](https://arxiv.org/abs/1311.2524)

R-CNN: 深度学习如何彻底革新目标检测

多年来,计算机视觉领域一直由精心设计的手工特征主导。像 SIFT 和 HOG 这样的算法是无可争议的霸主,构成了几乎所有顶尖目标检测系统的支柱。但到了 2012 年,进展开始放缓。在基准测试 PASCAL VOC 挑战赛上的性能已经达到瓶颈,研究社区似乎在从现有方法中挤出最后一点性能。人们亟需一次真正的突破。 ...

2013-11 · 6 分钟 · 2691 字
[You Only Look Once: Unified, Real-Time Object Detection 🔗](https://arxiv.org/abs/1506.02640)

YOLO:让计算机视觉实现实时检测的革命性突破

当你瞥一眼照片时,大脑会在毫秒之间完成一项非凡的壮举。你看到的不仅仅是像素的集合——你会瞬间识别出物体、它们的位置以及它们之间的关系。你可能注意到一个人在遛狗、一辆车停在消防栓旁边,或者一只猫正躺在沙发上睡觉。几十年来,让计算机能够以同样的速度和准确度完成这项任务,一直是计算机视觉领域的巨大挑战。 ...

2015-06 · 6 分钟 · 2549 字
[YOLOv12: Attention-Centric Real-Time Object Detectors 🔗](https://arxiv.org/abs/2502.12524)

YOLOv12: 打破CNN垄断的注意力机制实时检测器

十多年来,实时目标检测领域一直由一个模型家族所主导:** YOLO** (You Only Look Once)。从自动驾驶汽车到零售数据分析,YOLO在速度与准确率之间实现了卓越平衡,使其成为高速、实际应用中检测物体的首选方案。YOLO生态系统的进步得益于不断的创新——但几乎所有的架构改进都集中在卷积神经网络 (CNN) 之上。 ...

2025-02 · 6 分钟 · 2699 字

SmartBin: 用深度学习让垃圾桶学会思考

废物管理是现代城市生活中最持久的挑战之一。随着城市发展,我们的垃圾山也在不断增高。处理这一问题的传统方式——人工收集和分拣——劳动密集、成本高昂、不卫生且效率低下。 ...

5 分钟 · 2073 字

让机器学会垃圾分类:深度学习改变废物管理

每年,全球产生超过20亿吨的城市固体废物,预计到2050年,这一数字将飙升至34亿吨。其中大量废物最终进入垃圾填埋场,污染土壤、水体和空气。回收利用是一种强有力的解决方案,但其成功依赖于一个至关重要却常被忽视的步骤:** 正确的废物分类**。 ...

5 分钟 · 2037 字

ECO-HYBRID: 教会人工智能更高效地分类垃圾

世界正面临一个巨大的垃圾问题。随着城市扩张和人口增长,我们产生的垃圾也在不断增加。据预测,到 2050 年,全球垃圾总量可能激增 70%,达到惊人的 34 亿吨。 ...

6 分钟 · 2640 字

ImageNet: 让计算机学会看见世界的数据集

在 21 世纪第一个十年的末期,互联网上的图像数量呈爆炸式增长。Flickr 拥有数十亿张照片,谷歌索引的图像更是数不胜数,而社交媒体的视觉内容热潮也才刚刚开始。对于计算机视觉研究者来说,这场数字洪流既是诱人的机遇,也是巨大的挑战: 一方面,更多的数据意味着有潜力训练出更强大、更鲁棒的模型;另一方面,这些数据却是一团混乱、缺乏标注的“原料”。当你的训练数据只是一堆随意打上“dog”标签的杂乱图片时,你该如何教会计算机识别一只西伯利亚哈士奇呢? ...

7 分钟 · 3363 字
[Visualizing and Understanding Convolutional Networks 🔗](https://arxiv.org/abs/1311.2901)

打开黑盒:揭秘CNN如何学会"看见"

2012 年,一个名为 AlexNet 的深度卷积神经网络 (CNN) 在 ImageNet 大规模视觉识别挑战赛中,以几乎只有亚军一半的错误率夺冠,震惊了世界。这是一个分水岭时刻,开启了现代深度学习革命。然而,尽管结果毋庸置疑,这些网络依然是黑箱——我们知道它们有效,但并不了解其数百万个参数内部究竟发生了什么。 ...

2013-11 · 6 分钟 · 2547 字

随机丢弃神经元,反而让网络更聪明

如果你曾经训练过大型神经网络,你很可能遇到过它最大的敌人:** 过拟合**。你眼看着训练损失骤降,模型完美地记住了训练数据,但它在未见过的测试数据上的表现却停滞不前,甚至变得更差。模型学到的是噪声,而不是信号。这就像一个学生,他背下了模拟考试的所有答案,却在真正的考试中失败了,因为他从未真正理解底层的概念。 ...

6 分钟 · 2982 字

LeNet 与现代计算机视觉的诞生:1998 年如何让 CNN 直接从像素中学习

1998 年,来自 AT&T 实验室和蒙特利尔大学的一个团队发表了一篇论文,成为机器学习和计算机视觉领域的里程碑之作: “Gradient-Based Learning Applied to Document Recognition” (LeCun, Bottou, Bengio, Haffner) 。这篇论文做了两件在今天甚至比当时更为重要的事情: ...

11 分钟 · 5371 字
[YOLOv4: Optimal Speed and Accuracy of Object Detection 🔗](https://arxiv.org/abs/2004.10934)

YOLOv4: 打破速度与精度的平衡难题,单GPU即可训练的最强检测器

在计算机视觉领域,目标检测是一项基础性任务,其应用范围从自动驾驶到医学成像,囊括甚广。该领域长期存在的挑战是速度与精度之间的权衡。高精度模型通常在实时场景下运行过慢,而速度更快的模型有时又缺乏关键任务所需的准确性。 ...

2020-04 · 5 分钟 · 2167 字
[YOLOv3: An Incremental Improvement 🔗](https://arxiv.org/abs/1804.02767)

YOLOv3:渐进式改进如何打造实时检测利器

在计算机视觉领域,You Only Look Once (YOLO) 模型家族堪称传奇。YOLO 以其惊人的速度闻名,通过将实时目标检测问题表述为一个单一的回归问题,重新定义了该领域。但这个伟大的想法并未就此止步。在 YOLO 和 YOLOv2 取得成功之后,其创造者又带来了新一代的版本: YOLOv3**。 ...

2018-04 · 5 分钟 · 2198 字
[YOLO9000: Better, Faster, Stronger 🔗](https://arxiv.org/abs/1612.08242)

YOLO9000: 一个能识别9000种物体的实时检测器

目标检测长期以来一直是计算机视觉中的一项基石任务。我们需要的模型不仅能告诉我们图像中有什么,还要告诉我们它在哪里。多年来,技术的进步意味着一种权衡: 你可以选择一个高精度的模型,或者一个速度足够快能用于实时应用的模型——但很少能两者兼得。而且,即使是最好的检测器也受限于一个很小的词汇量,它们所训练的数据集只有几十个,最多几百个物体类别。 ...

2016-12 · 6 分钟 · 2736 字