目标检测发展史:

第一阶段:原始时代的“手工放大镜”(1990s - 2012)

在深度学习爆发之前,目标检测依赖于**手工设计的特征(Hand-crafted Features)**和传统的分类器(如 SVM)。

  • 1996年:神经网络人脸检测

    • Rowley 等人 (CVPR 1996) 提出了基于神经网络的人脸检测,这是何恺明提到的“读过的第一篇视觉论文”。
  • 1999年:SIFT 特征 (Scale-Invariant Feature Transform)

    • Lowe 提出了 SIFT,标志着局部特征描述子的全盛时期,解决了平移、旋转、缩放带来的识别难题。
  • 2003年:视觉词袋模型 (Bag of Visual Words)

    • Sivic & Zisserman (ICCV 2003) 借鉴文本检索概念,将图像看作“视觉单词”的集合,显著提升了物体识别的鲁棒性。
  • 2008年:DPM 模型的巅峰 (Deformable Part Models)

    • Felzenszwalb 等人 提出的 DPM 是传统算法的巅峰,它将物体视为由多个“可变形零件”(如头、手、脚)连接而成的整体,是现代检测框架的重要前身。

第二阶段:破晓时代的“暴力美学”(2012 - 2014)

深度学习的兴起彻底改变了游戏规则。

  • 2012年:AlexNet

    • 神经网络在 ImageNet 上的巨大成功,让研究者意识到卷积神经网络(CNN)提取特征的能力远超手工算法。
  • 2014年:R-CNN (Region-based CNN)

    • Ross Girshick 提出了 R-CNN,首次将深度神经网络引入目标检测。虽然效果惊人,但其“先提取候选框、再逐一提取 CNN 特征、最后 SVM 分类”的过程极其缓慢。

第三阶段:巅峰时代的“速度进化”(2015 - 2020)

这是何恺明团队取得突破性进展的时期。

  • 2015年:Faster R-CNN 的诞生 (NeurIPS 2015)

    • 论文技术: 引入了 RPN (Region Proposal Network,区域建议网络)

    • 意义: 此前的瓶颈在于生成候选框(Proposal)需要几秒钟,而 RPN 将这一过程整合进神经网络,实现了端到端(End-to-End)的学习。目标检测的所有环节——提议、特征提取、分类、回归——全部被神经网络接管,计算机视觉正式步入实时检测时代。

  • 2017年:Mask R-CNN (ICCV 2017)

    • 何恺明进一步将检测扩展到了实例分割,通过简单的 ROI Align 分支,让计算机不仅能圈出物体,还能勾勒出形状。

第四阶段:新世界与迷雾后的航行(2020 至今)

现代目标检测正在从卷积向 Transformer 演进。

  • DETR 与 Vision Transformer

    • DETR 去除了繁琐的手工设计(如 NMS),使用 Transformer 的端到端特性简化了检测流程。
  • 现状: 现代模型如 ViT-Det 证明了纯 Transformer 骨架在检测任务上的巨大潜力。

结合以上,以深度学习的方法正主导目标检测任务。

而以CNN为基础的工业应用和Transformer架构为基础的学术研究,正趋近于融合,学界的技术下沉,工业技术上升。

前者以YOLO系列代表,近年来也加入注意力机制来洞察全局,通常用于工业应用;

后者以ViT-Det为代表,追求极致的表现的同时,消耗大量的数据、算力,并不适应工业应用。

而为了解决后者的算力(推理或者训练?)消耗,提出了一众对于注意力机制的改进,以求达到线形复杂度。

YOLO系列介绍

1. 经典三部曲:开荒时代 (2016 - 2018)

由 Joseph Redmon 提出,奠定了单阶段(One-stage)检测的基调。

  • YOLOv1 (2016): 首次提出。它把图像分成网格,直接预测框和概率,速度快到飞起,但当时对密集物体和小目标检测很弱。

  • YOLOv2 (2017): 引入了 Anchor(锚框)Batch Normalization,大大提升了精度,并支持多尺度训练。

  • YOLOv3 (2018): 引入了多尺度预测(FPN 思想),通过三个不同大小的图层来抓大物体和小细节,成为工业界至今仍在使用的“长青款”。

2. 百家争鸣:优化时代 (2020 - 2023)

原作者退出,社区和商业公司(如 Ultralytics)接棒,开始在架构和训练技巧上“卷”到极致。

  • YOLOv5 (2020): 虽然没发论文,但因其极致的工程化和易用性,成了全球开发者的首选。

  • YOLOv8 (2023): 引入了 Anchor-Free(无锚框) 机制,不再预设框的大小,让模型更灵活、更轻量。

3. 注意力与无 NMS:革命时代 (2024 - 2026)

最新的版本开始吸收 Transformer 的精髓,并试图消除最后的效率瓶颈。

  • YOLOv10 (2024): 核心突破是 NMS-Free(消除非极大值抑制)。传统 YOLO 预测完会有很多重复框,需要 NMS 筛选,这很耗时;v10 通过“双标签分配”实现了端到端直接输出。

  • YOLOv12 (2025): 开始大规模集成 Area Attention(区域注意力) 和 FlashAttention,性能开始向 DETR 等 Transformer 模型靠拢,但在速度上依然保持了 CNN 的优势。

  • YOLO26 (2026 最新):

    • 命名变革: 采用年份命名(如 YOLO26),标志着其作为“2026 年度旗舰模型”的地位。

    • 技术杀手锏: 彻底去除了 DFL(分布焦距损失),极大提升了边缘设备(如手机、摄像头芯片)的兼容性;引入 MuSGD 优化器,训练稳定性大幅提升。

    • 性能: 在 CPU 上的推理速度比 YOLO11 提升了约 43%,是目前边缘端实时视觉的“天花板”。


YOLO 系列的核心技术演进逻辑

特性阶段代表版本核心变化
检测逻辑v1 - v12从 Anchor-based (有锚) 转向 Anchor-free (无锚)
后处理v1 - v9需要 NMS (繁琐) ➡️ v10 开始消除 NMS (极速)
核心组件经典 CNN纯卷积 ➡️ 跨阶段局部网络(CSP) ➡️ 注意力机制/Transformer 混合
任务支持早期版本仅检测 ➡️ 全能型 (分类、分割、姿态估计、旋转框检测)

核心差异:谁在统治哪个领域?

特性YOLO 系列 (以最新的 YOLO26 为例)DETR / ViT-Det 系列
基础架构卷积神经网络 (CNN) 为主,加入轻量级注意力模块。纯 Transformer (ViT) 或 “CNN骨干+Transformer头”。
检测逻辑局部预测:将图分成网格,每个网格局部判断。全局预测:一次性看全图,通过“查询(Queries)”找物体。
后处理无 NMS 化:YOLO10/26 通过架构优化去除了繁琐的 NMS。天然无 NMS:利用二分匹配(Bipartite Matching)直接输出。
优势领域边缘计算、实时监测、移动端复杂场景、密集遮挡、高精度科研、大模型
训练代价极低:对硬件友好,几百张图就能收敛。极高:非常吃 VRAM,需要海量数据和超长训练周期。

后者更适用于高精度医学目标检测,而前者适用于低延迟的场景或低算了的边缘设备。