umich cv-4-2 经典卷积网络架构-526互联

这节课中主要讨论了卷积神经网络的发展历史以及几种经典结构是如何构建的

卷积网络经典结构

AlexNet

在2012年的时候，Alexnet神经网络提出，这时网络的架构比如说各个层之间要如何排列组合，使用多少卷积层池化层，每个层又如何设置超参数其实没有什么规律，主要通过实验与试错：

但是我们通过对内容容量，可学习参数以及浮点运算次数的计算，可以看到一些有趣的规律，绝大多数的内容容量都使用在了卷积层，绝大多数的可学习的参数都在全连接层，绝大多数的浮点运算都发生在卷积层

在2013年又提出了ZFNet，其实只是一个更大的AlexNet：

VGG

在2014年提出了VGG网络，VGG网络引入了有规律的设计。建立了更深层的网络，我们可以看到卷积层与池化层的超参数都是固定的，并且每次池化之后都会让卷积层通道数加倍，这样可以保证卷积层每次进行的运算数量一致

从下图也可以看出，VGG要比Alexnet复杂许多：

GoogleNet

但是同样在2014年提出的Googlenet网络中，不再强调更大更深的神经网络，因为谷歌想要在更低要求的设备下，去追求效率，这意味着减少内存容量的使用，可学习参数的数目以及浮点运算的次数
为了实现上面的目标，googlenet做出了很多的努力

首先，在网络最开始，Googlenet采用了非常激进地下采样，使用了步长与卷积核都比较大的卷积层以及池化层，我们可以看到是直接从224维度降到了28，同时内存，参数，浮点运算也大幅下降：

其次，Googlenet在网络的中间部分，多次采用了叫Inception Module的结构，我们可以看到它是采用了多个平行分支，在多个尺寸上进行卷积再聚合，那么我们怎么理解这样设计呢，可以参考这篇博文：https://zhuanlan.zhihu.com/p/32702031
简单来说，其实就相当于把传统卷积方式得到的稀疏矩阵，使用不同尺度的卷积，我们可以得到密集矩阵，把相关性强的特征聚集在一起，筛除了冗余信息：

然后，在神经网络的最后，不使用很大的全连接层，而是使用一个平均池化层以及一个全连接层来输出各分类分数得分，这样可以大大减少参数，内存以及浮点运算次数：

最后,由于神经网络层数过深，梯度传播效果不佳，可以选择在其它层数采用和最后结构一样的结构，提取输出分类分数，但是这里是batch normalization还没有提出的时候，之后我们就不需要这样做

ResidualNetwork

在batch normalization提出之后，我们可以很轻松地训练深层的网络使其收敛，导致神经网络的层数迅速增加，但是又出现的新的问题，发现深层神经网络反而不如浅层神经网络训练效果好，甚至出现了欠拟合的情况。

后来就有人(何大神)想出了残差网络，核心原理可以参见这篇：https://medium.com/@hupinwei/深度學習-resnet之殘差學習-f3ac36701b2f
大概是说过深的神经网络会导致出现退化的情况，有一种办法就是我们直接堆叠一层和上一层一样的结果(Identify mapping 恒等映射)，更好的办法是这样做：
“讓我們先建立以下的概念：

輸入是x

學到的特徵是H(x)

我們定義一個新的名詞，叫做殘差 Residual

Residual = H(x) - x

殘差的概念很直覺吧？就是學到的特徵和原本的輸入的差異。

既然是Residual = H(x) - x，Residual 也是X的函數，所以也寫作F(x), 那F(x) = H(x) - x

原本學習是這樣的。 x → H(x)

已經知道 F(x) = H(x) - x

所以學習也可以這樣寫：x → F(x) + x

因為H(x) = F(x) + x

用文字來說明的話，

輸入→特徵

變成：輸入→ 輸入 + 殘差

這樣有什麼好處嗎？

如果今天我們多一層，什麼都沒有學到。那殘差就是0

那多這一層，想想我們上面介紹過的，當殘差=0的時候，輸入→ 輸入，這一層就叫做恆等映射，因此，多這一層如果沒學到新的特徵，也不會讓模型退化。實際上當然不會剛好等於0, 而是可以增加很多層，而每一層都可以學到一些新的更複雜的特徵。”
这就是残差网络中基本的残差块的设计思路：

我们把上图的shortcut加入卷积层，再结合之前VGG的中间结构设计，googlenet的首尾设计，刚开始激进地下采样，最后采用平均池化层与一个线性层输出结构，就得到了残差网络的设计：