YOLO1

一、亮点

经典的one-stage方法
把检测问题转化成回归问题，一个CNN搞定
可对视频进行实时检测

二、核心思想

如果物体的中心点落在某个格子，那就让这个格子负责预测这个物体。格子如何预测物体呢？每个格子产生2种比例的候选框w1、h1和w2、h2。看两种候选框跟实际的物体匹配的怎么样，哪个跟真实物体的IOU更大就选哪个。为使候选框更好的匹配，需要对w、h进行微调。我们的任务就能变成预测w、h的值为多少最合适，以及候选框的位置x、y，这就成了回归问题。因为每个位置都要预测，会得到许多的候选框，每一个候选框都有一个置信度（confidence），它表示这个位置是否是一个物体。所以我们要预测的除了w、h、x、y，还有置信度c。但这么多候选框，并不是所有的都要使用，置信度比较小的候选可以直接过滤掉，它表示这个位置是物体的概率较小。这样，最后我们想要得到的结果是合适的候选框。