研究目标识别领域相关知识（10.11~10.18）-526互联

这周任务（到下周三汇报）：

会发给我资料，需要整理下面内容：

1、研究什么样的问题？

　　目标检测/识别问题

　　随着社会的发展，公共安全成为全社会的一个共同话题，与之相辅相成的视频监控系统也得到了大量的普及。视频监控系统可以直观的再现目标场景，可作为公安侦破案件的强力辅助。在执法部门的工作

中，目标的识别和定位是及其关键的一步，然而现有的监控部署下，这个关键步骤几乎是靠着人力完成的。在这个讲究数据和效率的时代，通过人工观察监控录像查找结果显然存在着很大的资源浪费以及效率的

低下。另外，由于摄像头的分辨率等硬件缺陷，很难得到清晰的人身图像，因此，已经大力推广的人脸识别技术已不再适用此场景。由于传统人工查询的不便性以及人脸识别的无法应用，研究者思考如何发明一

项更合适的技术来取代人脸识别，能在监控领域以机器代替人力分析。

2、通过什么方面技术解决的？

使用了BoxMOT框架：（一种可插式的STOA多目标跟踪框架）

SOTA = state of art 最先进的，最高水平的、顶级的

（1）跟踪模型：oTSORT, DeepOCSORT, OCSORT, HybridSORT, ByteTrack, StrongSORT

（2）目标检测模型：Yolov8、Yolo-NAS、YOLOX

（3）ReID模型提取特征

ReID = Re-identification（重识别），其定义是利用算法，在图像库中找到要搜索的目标的技术，比如行人重识别，就是检测出行人，是属于图像检索的一个子问题。

CLIP = Contrastive Language-Image Pre-training，一种基于对比文本-图像进行预训练的模型。

CLIP的训练数据是文本-图像对(一张图像和它对应的文本描述)，希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

所以CLIP-ReID就是通过CLIP，一种基于对比文本-图像对进行预训练的模型，来实现在图像库中找到要搜索的目标。

为什么使用它？

（1）该框架支持主流的目标检测模型，例如：Yolov8、Yolo-NAS、YOLOX

（2）该框架支持大多数的跟踪方法(跟踪器)：BoTSORT, DeepOCSORT, OCSORT, HybridSORT, ByteTrack, StrongSORT

总结：

BoxMOT可以看作一个软件封装器，将多种目标检测模型与不同的目标跟踪器组合，实现多目标跟踪

3、解决到什么程度了？（评价指标、展现出的效果）

评价指标：

（1）MOTA↑：Multi-Object Tracking Accuracy（表示多目标跟踪准确率，包括漏检、误检和跟踪错误等多个方面）

（2）IDF1↑：IDF1 Score（IDF1得分，表示正确识别的检测与平均真实数和计算检测数之比）

（3）HOTA↑：Higher Order Tracking Accuracy （针对MOTA有些情况下不足以衡量出多目标跟踪的性能的情况提出的，更好地对齐评价得分和人视觉上的观感）

（4）Dets：DetS是一种高效的目标检测指标，它基于目标检测中的Dice系数和sAP（strict average precision）这两种指标，对目标检测的结果进行评估。

后面根据这些内容，去针对性地学相关机器学习知识，读论文，做东西

给了个github，关于BoxMOT的

https://github.com/mikel-brostrom/yolo_tracking

介绍：

这个仓库里含有一系列可插入式的，先进的，应用在目标识别上的多目标跟踪器。

我们提供了例子关于如何将这个包和流行的目标识别模型（，比如Yolov8，Yolo-NAS，YOLOX）一起使用。

IDF1 Score [2]. The ratio of correctly identified detections overthe average number of ground-truth and computed detections.