经典卷积神经网络结构:LeNet-5、AlexNet、VGG

发布时间 2023-04-27 11:22:19作者: 榫ning

LeNet-5

LeNet-5模型是专门为手写数字识别而设计的经典卷积神经网络。

从上图可以看出,LeNet-5总共由输入层、卷积层、池化层、卷积层、池化层、全连接层、全连接层、输出层组成。

1、输入层:一张32*32的灰度图像,只有一个颜色通道,深度为1。

2、卷积层:将输入与6个高为5,宽为5,深度为1的卷积核进行valid卷积。由于输入是灰度图,所以卷积核的深度也为1;又由于是valid卷积步长为1,所以卷积后的结果为,高为28,宽为28,深度为6。28=(32-5)/步长1+1。

same卷积的尺寸与原尺寸(非卷积核尺寸)一致,即卷积层若为same卷积,输出的尺寸应该为32*32。

 3、池化层:对2中卷积层输出的28*28*6的抽象矩阵进行valid最大值池化操作,使用6个2*2大小的矩阵进行valid最大值池化处理,步长为2,池化层的输出结果为14*14*6的矩阵。14=(28-2)/2+1。

池化不改变层数。

4、卷积层:将3中池化层的输出与16个大小为5*5*6的卷积核进行valid卷积,步长为1,输出结果是10*10*16。

5、池化层:对4的输出结果进行valid最大值池化,步长为2,池化窗口为2*2的操作,输出矩阵的维度为5*5*16。

6、全连接层:将5输出的矩阵拉直成一维向量,这个向量的长度为5*5*16=400。将该向量经过一个全连接神经网络处理,该全连接网络共有2个隐含层,其中输入层由400个神经元,第1个隐含层有120个神经元,第2个隐含层有84个神经元。

7、输出层。

VGG

VGG模型主要通过不断加深网络结构来提升模型性能。