何凯明目标检测简史

目标检测发展史：
第一阶段：原始时代的“手工放大镜”（1990s - 2012）
在深度学习爆发之前，目标检测依赖于**手工设计的特征（Hand-crafted Features）**和传统的分类器（如 SVM）。
1996年：神经网络人脸检测
Rowley 等人 (CVPR 1996) 提出了基于神经网络的人脸检测，这是何恺明提到的“读过的第一篇视觉论文”。
1999年：SIFT 特征 (Scale-Invariant Feature Transform)
Lowe 提出了 SIFT，标志着局部特征描述子的全盛时期，解决了平移、旋转、缩放带来的识别难题。
2003年：视觉词袋模型 (Bag of Visual Words)
Sivic & Zisserman (ICCV 2003) 借鉴文本检索概念，将图像看作“视觉单词”的集合，显著提升了物体识别的鲁棒性。
2008年：DPM 模型的巅峰 (Deformable Part Models)
Felzenszwalb 等人 提出的 DPM 是传统算法的巅峰，它将物体视为由多个“可变形零件”（如头、手、脚）连接而成的整体，是现代检测框架的重要前身。
第二阶段：破晓时代的“暴力美学”（2012 - 2014）
深度学习的兴起彻底改变了游戏规则。
2012年：AlexNet
神经网络在 ImageNet 上的巨大成功，让研究者意识到卷积神经网络（CNN）提取特征的能力远超手工算法。
2014年：R-CNN (Region-based CNN)
Ross Girshick 提出了 R-CNN，首次将深度神经网络引入目标检测。虽然效果惊人，但其“先提取候选框、再逐一提取 CNN 特征、最后 SVM 分类”的过程极其缓慢。
第三阶段：巅峰时代的“速度进化”（2015 - 2020）
这是何恺明团队取得突破性进展的时期。
2015年：Faster R-CNN 的诞生 (NeurIPS 2015)
论文技术： 引入了 RPN (Region Proposal Network，区域建议网络)。
意义： 此前的瓶颈在于生成候选框（Proposal）需要几秒钟，而 RPN 将这一过程整合进神经网络，实现了端到端（End-to-End）的学习。目标检测的所有环节——提议、特征提取、分类、回归——全部被神经网络接管，计算机视觉正式步入实时检测时代。
2017年：Mask R-CNN (ICCV 2017)
何恺明进一步将检测扩展到了实例分割，通过简单的 ROI Align 分支，让计算机不仅能圈出物体，还能勾勒出形状。
第四阶段：新世界与迷雾后的航行（2020 至今）
现代目标检测正在从卷积向 Transformer 演进。
DETR 与 Vision Transformer
DETR 去除了繁琐的手工设计（如 NMS），使用 Transformer 的端到端特性简化了检测流程。
现状： 现代模型如 ViT-Det 证明了纯 Transformer 骨架在检测任务上的巨大潜力。

结合以上，以深度学习的方法正主导目标检测任务。

而以CNN为基础的工业应用和Transformer架构为基础的学术研究，正趋近于融合，学界的技术下沉，工业技术上升。

前者以YOLO系列代表，近年来也加入注意力机制来洞察全局，通常用于工业应用；

后者以ViT-Det为代表，追求极致的表现的同时，消耗大量的数据、算力，并不适应工业应用。

而为了解决后者的算力（推理或者训练？）消耗，提出了一众对于注意力机制的改进，以求达到线形复杂度。

YOLO系列介绍

1. 经典三部曲：开荒时代 (2016 - 2018)
由 Joseph Redmon 提出，奠定了单阶段（One-stage）检测的基调。
YOLOv1 (2016)： 首次提出。它把图像分成网格，直接预测框和概率，速度快到飞起，但当时对密集物体和小目标检测很弱。
YOLOv2 (2017)： 引入了 Anchor（锚框） 和 Batch Normalization，大大提升了精度，并支持多尺度训练。
YOLOv3 (2018)： 引入了多尺度预测（FPN 思想），通过三个不同大小的图层来抓大物体和小细节，成为工业界至今仍在使用的“长青款”。
2. 百家争鸣：优化时代 (2020 - 2023)
原作者退出，社区和商业公司（如 Ultralytics）接棒，开始在架构和训练技巧上“卷”到极致。
YOLOv5 (2020)： 虽然没发论文，但因其极致的工程化和易用性，成了全球开发者的首选。
YOLOv8 (2023)： 引入了 Anchor-Free（无锚框） 机制，不再预设框的大小，让模型更灵活、更轻量。
3. 注意力与无 NMS：革命时代 (2024 - 2026)
最新的版本开始吸收 Transformer 的精髓，并试图消除最后的效率瓶颈。
YOLOv10 (2024)： 核心突破是 NMS-Free（消除非极大值抑制）。传统 YOLO 预测完会有很多重复框，需要 NMS 筛选，这很耗时；v10 通过“双标签分配”实现了端到端直接输出。
YOLOv12 (2025)： 开始大规模集成 Area Attention（区域注意力） 和 FlashAttention，性能开始向 DETR 等 Transformer 模型靠拢，但在速度上依然保持了 CNN 的优势。
YOLO26 (2026 最新)：
命名变革： 采用年份命名（如 YOLO26），标志着其作为“2026 年度旗舰模型”的地位。
技术杀手锏： 彻底去除了 DFL（分布焦距损失），极大提升了边缘设备（如手机、摄像头芯片）的兼容性；引入 MuSGD 优化器，训练稳定性大幅提升。
性能： 在 CPU 上的推理速度比 YOLO11 提升了约 43%，是目前边缘端实时视觉的“天花板”。
YOLO 系列的核心技术演进逻辑
特性阶段 代表版本 核心变化
检测逻辑 v1 - v12 从 Anchor-based (有锚) 转向 Anchor-free (无锚)
后处理 v1 - v9 需要 NMS (繁琐) ➡️ v10 开始消除 NMS (极速)
核心组件 经典 CNN 纯卷积 ➡️ 跨阶段局部网络(CSP) ➡️ 注意力机制/Transformer 混合
任务支持 早期版本仅检测 ➡️ 全能型 (分类、分割、姿态估计、旋转框检测)

特性阶段	代表版本	核心变化
检测逻辑	v1 - v12	从 Anchor-based (有锚) 转向 Anchor-free (无锚)
后处理	v1 - v9	需要 NMS (繁琐) ➡️ v10 开始消除 NMS (极速)
核心组件	经典 CNN	纯卷积 ➡️ 跨阶段局部网络(CSP) ➡️ 注意力机制/Transformer 混合
任务支持	早期版本	仅检测 ➡️ 全能型 (分类、分割、姿态估计、旋转框检测)

核心差异：谁在统治哪个领域？

特性	YOLO 系列 (以最新的 YOLO26 为例)	DETR / ViT-Det 系列
基础架构	卷积神经网络 (CNN) 为主，加入轻量级注意力模块。	纯 Transformer (ViT) 或 “CNN骨干+Transformer头”。
检测逻辑	局部预测：将图分成网格，每个网格局部判断。	全局预测：一次性看全图，通过“查询(Queries)”找物体。
后处理	无 NMS 化：YOLO10/26 通过架构优化去除了繁琐的 NMS。	天然无 NMS：利用二分匹配（Bipartite Matching）直接输出。
优势领域	边缘计算、实时监测、移动端。	复杂场景、密集遮挡、高精度科研、大模型。
训练代价	极低：对硬件友好，几百张图就能收敛。	极高：非常吃 VRAM，需要海量数据和超长训练周期。

第一阶段：原始时代的“手工放大镜”（1990s - 2012）#

第二阶段：破晓时代的“暴力美学”（2012 - 2014）#

第三阶段：巅峰时代的“速度进化”（2015 - 2020）#

第四阶段：新世界与迷雾后的航行（2020 至今）#

1. 经典三部曲：开荒时代 (2016 - 2018)#

2. 百家争鸣：优化时代 (2020 - 2023)#

3. 注意力与无 NMS：革命时代 (2024 - 2026)#

YOLO 系列的核心技术演进逻辑#

核心差异：谁在统治哪个领域？#

第一阶段：原始时代的“手工放大镜”（1990s - 2012）

第二阶段：破晓时代的“暴力美学”（2012 - 2014）

第三阶段：巅峰时代的“速度进化”（2015 - 2020）

第四阶段：新世界与迷雾后的航行（2020 至今）

1. 经典三部曲：开荒时代 (2016 - 2018)

2. 百家争鸣：优化时代 (2020 - 2023)

3. 注意力与无 NMS：革命时代 (2024 - 2026)

YOLO 系列的核心技术演进逻辑

核心差异：谁在统治哪个领域？