目标检测发展史:
第一阶段:原始时代的“手工放大镜”(1990s - 2012)
在深度学习爆发之前,目标检测依赖于**手工设计的特征(Hand-crafted Features)**和传统的分类器(如 SVM)。
1996年:神经网络人脸检测
- Rowley 等人 (CVPR 1996) 提出了基于神经网络的人脸检测,这是何恺明提到的“读过的第一篇视觉论文”。
1999年:SIFT 特征 (Scale-Invariant Feature Transform)
- Lowe 提出了 SIFT,标志着局部特征描述子的全盛时期,解决了平移、旋转、缩放带来的识别难题。
2003年:视觉词袋模型 (Bag of Visual Words)
- Sivic & Zisserman (ICCV 2003) 借鉴文本检索概念,将图像看作“视觉单词”的集合,显著提升了物体识别的鲁棒性。
2008年:DPM 模型的巅峰 (Deformable Part Models)
- Felzenszwalb 等人 提出的 DPM 是传统算法的巅峰,它将物体视为由多个“可变形零件”(如头、手、脚)连接而成的整体,是现代检测框架的重要前身。
第二阶段:破晓时代的“暴力美学”(2012 - 2014)
深度学习的兴起彻底改变了游戏规则。
2012年:AlexNet
- 神经网络在 ImageNet 上的巨大成功,让研究者意识到卷积神经网络(CNN)提取特征的能力远超手工算法。
2014年:R-CNN (Region-based CNN)
- Ross Girshick 提出了 R-CNN,首次将深度神经网络引入目标检测。虽然效果惊人,但其“先提取候选框、再逐一提取 CNN 特征、最后 SVM 分类”的过程极其缓慢。
第三阶段:巅峰时代的“速度进化”(2015 - 2020)
这是何恺明团队取得突破性进展的时期。
2015年:Faster R-CNN 的诞生 (NeurIPS 2015)
论文技术: 引入了 RPN (Region Proposal Network,区域建议网络)。
意义: 此前的瓶颈在于生成候选框(Proposal)需要几秒钟,而 RPN 将这一过程整合进神经网络,实现了端到端(End-to-End)的学习。目标检测的所有环节——提议、特征提取、分类、回归——全部被神经网络接管,计算机视觉正式步入实时检测时代。
2017年:Mask R-CNN (ICCV 2017)
- 何恺明进一步将检测扩展到了实例分割,通过简单的 ROI Align 分支,让计算机不仅能圈出物体,还能勾勒出形状。
第四阶段:新世界与迷雾后的航行(2020 至今)
现代目标检测正在从卷积向 Transformer 演进。
结合以上,以深度学习的方法正主导目标检测任务。
而以CNN为基础的工业应用和Transformer架构为基础的学术研究,正趋近于融合,学界的技术下沉,工业技术上升。
前者以YOLO系列代表,近年来也加入注意力机制来洞察全局,通常用于工业应用;
后者以ViT-Det为代表,追求极致的表现的同时,消耗大量的数据、算力,并不适应工业应用。
而为了解决后者的算力(推理或者训练?)消耗,提出了一众对于注意力机制的改进,以求达到线形复杂度。
YOLO系列介绍
1. 经典三部曲:开荒时代 (2016 - 2018)
由 Joseph Redmon 提出,奠定了单阶段(One-stage)检测的基调。
YOLOv1 (2016): 首次提出。它把图像分成网格,直接预测框和概率,速度快到飞起,但当时对密集物体和小目标检测很弱。
YOLOv2 (2017): 引入了 Anchor(锚框) 和 Batch Normalization,大大提升了精度,并支持多尺度训练。
YOLOv3 (2018): 引入了多尺度预测(FPN 思想),通过三个不同大小的图层来抓大物体和小细节,成为工业界至今仍在使用的“长青款”。
2. 百家争鸣:优化时代 (2020 - 2023)
原作者退出,社区和商业公司(如 Ultralytics)接棒,开始在架构和训练技巧上“卷”到极致。
YOLOv5 (2020): 虽然没发论文,但因其极致的工程化和易用性,成了全球开发者的首选。
YOLOv8 (2023): 引入了 Anchor-Free(无锚框) 机制,不再预设框的大小,让模型更灵活、更轻量。
3. 注意力与无 NMS:革命时代 (2024 - 2026)
最新的版本开始吸收 Transformer 的精髓,并试图消除最后的效率瓶颈。
YOLOv10 (2024): 核心突破是 NMS-Free(消除非极大值抑制)。传统 YOLO 预测完会有很多重复框,需要 NMS 筛选,这很耗时;v10 通过“双标签分配”实现了端到端直接输出。
YOLOv12 (2025): 开始大规模集成 Area Attention(区域注意力) 和 FlashAttention,性能开始向 DETR 等 Transformer 模型靠拢,但在速度上依然保持了 CNN 的优势。
YOLO26 (2026 最新):
命名变革: 采用年份命名(如 YOLO26),标志着其作为“2026 年度旗舰模型”的地位。
技术杀手锏: 彻底去除了 DFL(分布焦距损失),极大提升了边缘设备(如手机、摄像头芯片)的兼容性;引入 MuSGD 优化器,训练稳定性大幅提升。
性能: 在 CPU 上的推理速度比 YOLO11 提升了约 43%,是目前边缘端实时视觉的“天花板”。
YOLO 系列的核心技术演进逻辑
特性阶段 代表版本 核心变化 检测逻辑 v1 - v12 从 Anchor-based (有锚) 转向 Anchor-free (无锚) 后处理 v1 - v9 需要 NMS (繁琐) ➡️ v10 开始消除 NMS (极速) 核心组件 经典 CNN 纯卷积 ➡️ 跨阶段局部网络(CSP) ➡️ 注意力机制/Transformer 混合 任务支持 早期版本 仅检测 ➡️ 全能型 (分类、分割、姿态估计、旋转框检测)
核心差异:谁在统治哪个领域?
| 特性 | YOLO 系列 (以最新的 YOLO26 为例) | DETR / ViT-Det 系列 |
|---|---|---|
| 基础架构 | 卷积神经网络 (CNN) 为主,加入轻量级注意力模块。 | 纯 Transformer (ViT) 或 “CNN骨干+Transformer头”。 |
| 检测逻辑 | 局部预测:将图分成网格,每个网格局部判断。 | 全局预测:一次性看全图,通过“查询(Queries)”找物体。 |
| 后处理 | 无 NMS 化:YOLO10/26 通过架构优化去除了繁琐的 NMS。 | 天然无 NMS:利用二分匹配(Bipartite Matching)直接输出。 |
| 优势领域 | 边缘计算、实时监测、移动端。 | 复杂场景、密集遮挡、高精度科研、大模型。 |
| 训练代价 | 极低:对硬件友好,几百张图就能收敛。 | 极高:非常吃 VRAM,需要海量数据和超长训练周期。 |
后者更适用于高精度医学目标检测,而前者适用于低延迟的场景或低算了的边缘设备。
