卷积基本概念

卷积操作

感受野计算

RF_i = ( RF_i+1 - 1)x s_i +K_i
si为第i层的步长，
Ki为第i层卷积核大小。

数据填充

图像填充后卷积输出的维度：

n：图像大小

f：卷积核大小

p：填充的层数

s：卷积核的步幅

卷积模式

Full：全填充，扩大原图
Same：填充保持原图大小
Valid：不填充

激活函数

作用

加入非线性因素，提高网络的表达能力。

常用激活函数

Identity：稳定，适合线性任务。
ReLU：计算速度快，不存在梯度消失问题（输入为正），可能丢失一些特征，输入为负导致权重无法更新（神经元死亡）
Parametric ReLU(PReLu)：收敛速度快，解决神经元死亡问题。工作量大（额外参数）
ELU：适合噪声，易收敛，计算量大，收敛慢。
Maxout函数：缓解梯度消失，解决神经元死亡，额外计算量。
CNN首选ReLU和较小的学习率，其次考虑Leaky ReLU，PReLU，ELU，Maxout

特征图

浅层卷积层：提取的是图像基本特征，如边缘、方向和纹理等特征。
深层卷积层：提取的是图像高阶特征，出现了高层语义模式，如“车轮”、“人脸”等特征。

基本结构

池化层

工作方式

分为最大或平均池化，根据某个位置相邻区域的总体统计特征作为该位置

作用

1. 1. 1. 减少计算量，防止过拟合。
    2. 增强网络对输入图像中的小变形、扭曲、平移的鲁棒性。
    3. 防止图像因为尺寸改变影响结果。

全连接层

工作方式

将两层神经元全连接方式接在一起，后一层的神经元个数决定输出，也就是降维处理后的维度。

作用

降维

输出层

分类问题：Softmax函数
回归问题：线性函数

经典神经网络

LeNet

结构：卷积-池化-卷积-池化-卷积-全连接-输出

AlexNet

结构：卷积-池化-卷积-池化-卷积-卷积-卷积-池化-输出

在结构上相当于将LeNet 全连接层替换成了卷积-卷积-池化结构。

激活函数：ReLU。
避免过拟合：使了用Dropout。
特点：重叠最大池化。

VGGNet

特点

卷积层卷积核均为3*3，步长均为1；池化层池化核均为2*2。

结构

两个33卷积核与55卷积核性能对比

两个3*3卷积核计算效率更高，参数更少，其间还可以插入ReLU，感受野却和一个5*5卷积核一致。虽然深度增加了，但是参数却更少。

Inception Net

特点

去掉了全连接。

结构

深度：22层。
宽度：4个分支。

1×1的卷积的作用

• 可以跨通道组织信息，来提高网络的表达能力;
• 可以对输出通道进行升维和降维；如28x28x192维数据可以通过卷积核1x1x32降低到28x28x32的数据。

ResNet（残差神经网络，ImageNet 2015冠军）

优点

解决梯度消失和梯度爆炸问题

核心

残差块，跳跃连接。（这也是梯度消失或梯度爆炸问题的解决方案）

将u拆分为传统的连接加上一个跳跃的连接

求导得到：

最终相当于原始传统的梯度再加上一个额外的值，就不会出现梯度消失或梯度爆炸的问题。

优点

有了跳跃连接，可以让网络更深。

DenseNet

借助了跳跃连接的优点，每一层都使用前面所有层的特征映射作为输入。可以扩展到上百层而不会出现梯度消失或梯度爆炸的问题。

优点

1. 1. 缓解了消失梯度问题
  2. 加强了特征传播，鼓励特征重用
  3. 一定程度上减少了参数的数量

R-CNN

主要用于目标检测

目标检测衡量标准

1. 1. 类别正确且置信度大于一定阈值
  2. 预测框与真实框的IoU大于一定阈值

IoU=Intersection / Union。

Intersection：是交集

Union：并集

流程

区域划分：对输入图像，提取多个类别独立候选区（候选区也就是Proposal），用是 Selective Search算法。
特征提取：使用AlexNet提取每个区域的特征。
目标分类：SVM分类每个区域。
边框回归：Bbox回归，对边框坐标偏移优化和调整。（因为是有监督学习，每个区域都进行人工标注了，所以要对候选框修正到人工标注的框）