m基于简化后的轻量级yolov4深度学习网络农作物检测算法matlab仿真-526互联

1.算法描述

YOLOv4 的深层网络包括 SPP 模块、PANet 模块、YOLO Head 模块和部分卷积，其主要作用是加强目标特征提取并获取预测结果。SPP 模块的输入端和输出端各连接一个三次卷积块，每个三次卷积块包含 2 个 1×1 卷积和 1 个 3×3 卷积。 PANet 模块包含特征层堆叠、上采样和下采样，每次堆叠后连接一个五次卷积块，每个五次卷积块包含 3 个 1×1 卷积和 2 个 3×3 卷积。每个 YOLO Head 都由 1 个3×3 卷积和 1 个 1×1 卷积组成。可以看出 YOLOv4 深层网络含有大量 3×3 标准卷积，借鉴 MobileNet 的思想把三次卷积块、五次卷积块、YOLO Head 和下采样中的 3×3 标准卷积替换为深度可分离卷积，大幅度降低深层网络的计算量和参数量，从而使整个网络模型轻量化。

1、开发了一个简单高效的目标检测算法，降低了训练门槛：仅使用一块GPU：1080TI，就可以训练一个又快又准的检测器；

2、验证了最新的Bag-of-Freebies和Bag-of-Specials在训练过程中对YOLOV4的影响；

3、优化了一些最新提出的算法：CBN，PAN，SAM，使YOVOV4可在一块GPU上训练。

一个完整的网络模型一般包含四部分：

1）输入部分：算法的输入，整个图像，一个PATCH或图像金字塔

2）主干网络：提取图像的特征，浅层特征如：边缘，颜色，纹理等。可以使用设计好并训练好的网络：VGG16,19,RESNET50,RexNeXt101,Darknet53,当然，还有一些轻量级的网络：MobileNet1,2,3 ，ShuffleNet1,2

3）瓶颈部分：特征增强，对主干网提取到的特征进行加工，增强。典型的有：SPP，ASPP，RFB，SAM，还有FPN，PAN，NAS-FPN，BiFPN，ASFF，SFAM。

4）检测头：算法项的输出。

如想得到HeatMap（CenterNet），就增加一些反卷积；

如想得到BBOX，就接CONV来输出结果，如：YOLO，SSD；

如想输出多任务（MaskRCNN）那就输出三个Head：分类Classification ,回归Regression ,分割Segmentation

2、训练策略

2.1 Bag-of-freebies

在不增加模型复杂度的情况下，使用一些比较有用的训练策略来提升准确率，如：Data augmentation

2.1.1 数据增强

增加训练样本的多样性，使模型有更高的鲁棒性。

[1]逐像素pixel-wise

（1）几何增强：随机翻转，随机裁剪，拉伸，旋转

(2）色彩增强：对比度增强，亮度增强，HSV空间增强（较关键）

[2]逐块block-wise

(1) 在图像中随机裁剪矩形区域，用0填充（cutout）

(2) 随机裁剪多个矩形区域（grid mask）

(3)在Heatmap上裁剪并填充（dropout,dropconnect,dropblock）

[3] Mixup

将两个图像按不同比例相加，a*0.1+b*0.9=c。

2.1.2 解决数据不平衡

数据不平衡分两种：

一、背景和要识别物体之间的不均衡

如：在两阶段方法中，RPN阶段会生成很多ROI，里面有太多背景，有用的框很少；

二、类别不平衡

识别物体间不同类别间的不平衡，涉及到一个长尾分布。需要使用OHEM（困难样本挖掘）或Focal loss，或Label smooth

2.1.3 修改Loss函数

最早是MSE，现在是NMS（IOU），然后是GIOU Loss。

2.2 Bag-of=Specials

通过增加少量的计算，能有效增加物体检测的准确率。

2.2.1 增大感受野

SPP：解决输入尺寸不一致，按比例1,2,4或1,2,3三个尺度划分Pooling，输出相同大小FeatureMap

ASPP：在SPP前加了Atrous或Dilated

RFB：在同一个FeatureMap下，引入不同dilated ratio的空洞卷积，提取到不同的感受野，最后进行融合

2.2.2 注意力机制

channel attention:SENet，在FeatureMap层中同时引入一个1x1xC的weights，可以对每个channel上的特征加入不同权重，提高特征学习能力。

Spatial attention：在HW维度上加入attention。

Channel+Spatial：channel attention和spatial attention融合。

2.2.3 特征融合或特征集成

skip connection：在Encoder-decoder中比较多，如：UNet，融合底层和高层的特征信息；

hyper-column:就像InceptionV4结构，使用不同的kernel-size的卷积来集成特征；

FPN，ASFF，BiFPN：将不同阶段的不同尺度的特征进行融合。EfficientDet中BiFPN连接最密集；

2.2.4 激活函数

一个好的激活函数既能使得梯度传播更高效，同时不会占用额外的计算资源。

ReLU

LReLU、PreLU、 SELU、ReLU6、Swish、Hard-Swish、Mish

2.2.5后处理

NMS，SoftNMS，DIoU NMS

为了提升准确度，我们可通过提高网络深度来扩展感受野和增大模型复杂度。同时，为了降低训练难度，还可应用跳过连接。我们还可以进一步延伸这一概念，即使用高度互连的层。

密集模块（Dense Block）包含多个卷积层，其中每一层 H_i 都由批归一化、ReLU 与之后的卷积构成。H_i 的输入不仅包含前一层的输出，还包含之前所有层的输出以及原始输入，即 x_, x_, …, x_{i-1}。下图中每个 H_i 都输出 4 个特征图。因此，在每一层，特征图的数量都增加 4 倍——增长率。

2.仿真效果预览

matlab2022a仿真结果如下：

3.MATLAB核心程序

inputLayer         = imageInputLayer(imageSize);
.....................................................................
bnecker1           = bneckLayer(Fsize33,numFilters1);
bnecker2           = bneckLayer(Fsize33,numFilters2);
bnecker3           = bneckLayer(Fsize33,numFilters2);
bnecker4           = bneckLayer(Fsize55,numFilters3);
bnecker5           = bneckLayer(Fsize55,numFilters3);
bnecker6           = bneckLayer(Fsize55,numFilters3);
bnecker7           = bneckLayer(Fsize55,numFilters4);
bnecker8           = bneckLayer(Fsize55,numFilters4);
bnecker9           = bneckLayer(Fsize55,numFilters5);
bnecker10          = bneckLayer(Fsize55,numFilters5);
bnecker11          = bneckLayer(Fsize55,numFilters5);
 
Fsize33b           = [GPv(8) GPv(8)];%3*3维卷积
numFilters3b       = GPv(9);
MobilenetV3Layer   = [convolution2dLayer(Fsize33b,numFilters3b,'Padding',2)
                      bnecker1
                      bnecker2
                      bnecker3
                      convolution2dLayer([1 1],8,'Padding',2) 
                      batchNormalizationLayer()
                      reluLayer()
                     ];
%%
Resizelayer        = [];
Fsize11            = [1 1];
%Necklayer：SPP+PANET
Fsize77            = [GPv(8) GPv(8)];%7*7维卷积
numFilters4        = GPv(10);
numFilters5        = GPv(11);
NECKlayer          = func_neck(Fsize77,numFilters4,Fsize33,numFilters5);
%%
finalLayers        = [fullyConnectedLayer(128)%全连接层
                      reluLayer
                      fullyConnectedLayer(NClass)
                      softmaxLayer
                      classificationLayer
                     ];
 
%%              
layers = [inputLayer;
          FPNlayer;
          MobilenetV3Layer;
          NECKlayer;
          finalLayers
          ];
 
...............................................
 
%调用训练库，GPU强，则可以扩充    
load train3.mat
nets = trainObjectDetector(gTruth,layers,options,'NegativeOverlapRange', [0 0.02], 'PositiveOverlapRange', [0.02 1])