1. AlexNet

\(2012\) 年，\(AlexNet\) 横空出世。使用 \(8\) 层卷积神经网络，赢得 \(ImageNet\ 2012\) 图像识别挑战赛。

\(AlexNet\) 网络结构：

1.1 第一个卷积层

卷积运算：原始数据为 \(227 \times 227 \times 3\) 的图像。卷积核尺寸 \(11 \times 11 \times 3\)，步长 \(4\)，每次卷积都生成一个新的像素，共有 \(96\)（\(2\) 个 \(48\)）个卷积核。卷积核在移动过程中生成 \(\frac{(227-11)}{4} + 1 = 55\) 个像素。则卷积后的像素层为 \(55 \times 55 \times 96\)（\(2\) 组 \(55 \times 55 \times 48\)），每组在一个独立的 \(GPU\) 上运算。
激活函数：激活函数 \(ReLU\) 处理，生成激活像素层，尺寸为 \(55 \times 55 \times 96\)。
池化：池化窗口 \(3 \times 3\)，步长 \(2\)，则池化后图像的尺寸为 \(\frac{55-3}{2} + 1 = 27\)。池化后的像素层为 \(27 \times 27 \times 96\)。
归一化：归一化运算尺寸为 \(5 \times 5\)。

反向传播时，每个卷积核对应一个偏差值。即第一层的 \(96\) 个卷积核对应上层输入的 \(96\) 个偏差值。

卷积运算：输入数据为 \(27 \times 27 \times 96\) 的像素层。上下左右都填充 \(2\) 个像素，卷积核尺寸 \(5 \times 5 \times 96\)，步长 \(1\)，每次卷积都生成一个新的像素，共有 \(96\)（\(2\) 个 \(48\)）个卷积核。卷积核在移动过程中生成 \(\frac{(27 + 2 \times 2-5)}{1} + 1 = 27\) 个像素。则卷积后的像素层为 \(27 \times 27 \times 256\)（\(2\) 组 \(27 \times 27 \times 128\)），每组在一个独立的 \(GPU\) 上运算。
激活函数：激活函数 \(ReLU\) 处理，生成激活像素层，尺寸为 \(27 \times 27 \times 256\)。
池化：池化窗口 \(3 \times 3\)，步长 \(2\)，则池化后图像的尺寸为 \(\frac{27-3}{2} + 1 = 13\)。池化后的像素层为 \(13 \times 13 \times 256\)。
归一化：尺寸为 \(5 \times 5\)。

反向传播时，每个卷积核对应一个偏差值。即第一层的 \(256\) 个卷积核对应上层输入的 \(256\) 个偏差值。

卷积运算：输入数据为 \(13 \times 13 \times 256\) 的像素层。上下左右都填充 \(1\) 个像素，卷积核尺寸 \(3 \times 3 \times 256\)，步长 \(1\)，每次卷积都生成一个新的像素，共有 \(256\)（\(2\) 个 \(128\)）个卷积核。卷积核在移动过程中生成 \(\frac{(13 + 1 \times 2-3)}{1} + 1 = 13\) 个像素。则卷积后的像素层为 \(13 \times 13 \times 384\)（\(2\) 组 \(13 \times 13 \times 192\)），每组在一个独立的 \(GPU\) 上运算。
激活函数：激活函数 \(ReLU\) 处理，生成激活像素层，尺寸为 \(13 \times 13 \times 384\)。

卷积运算：输入数据为 \(13 \times 13 \times 384\) 的像素层。上下左右都填充 \(1\) 个像素，卷积核尺寸 \(3 \times 3 \times 384\)，步长 \(1\)，每次卷积都生成一个新的像素，共有 \(384\)（\(2\) 个 \(192\)）个卷积核。卷积核在移动过程中生成 \(\frac{(13 + 1 \times 2-3)}{1} + 1 = 13\) 个像素。则卷积后的像素层为 \(13 \times 13 \times 384\)（\(2\) 组 \(13 \times 13 \times 192\)），每组在一个独立的 \(GPU\) 上运算。
激活函数：激活函数 \(ReLU\) 处理，生成激活像素层，尺寸为 \(13 \times 13 \times 384\)。

卷积运算：输入数据为 \(13 \times 13 \times 384\) 的像素层。上下左右都填充 \(1\) 个像素，卷积核尺寸 \(3 \times 3 \times 384\)，步长 \(1\)，每次卷积都生成一个新的像素，共有 \(384\)（\(2\) 个 \(192\)）个卷积核。卷积核在移动过程中生成 \(\frac{(13 + 1 \times 2-3)}{1} + 1 = 13\) 个像素。则卷积后的像素层为 \(13 \times 13 \times 256\)（\(2\) 组 \(13 \times 13 \times 128\)），每组在一个独立的 \(GPU\) 上运算。
激活函数：激活函数 \(ReLU\) 处理，生成激活像素层，尺寸为 \(13 \times 13 \times 256\)。
池化：池化窗口 \(3 \times 3\)，步长 \(2\)，则池化后图像的尺寸为 \(\frac{13-3}{2} + 1 = 6\)。池化后的像素层为 \(6 \times 6 \times 256\)。

第六层输出的 \(4096\) 个数据与第七层的 \(4096\) 个神经元进行全连接，然后经由 \(ReLU7\) 进行处理后生成 \(4096\) 个数据，再经过 \(Dropout7\) 处理后输出 \(4096\) 个数据。

第七层输出的 \(4096\) 个数据与第八层的 \(1000\) 个神经元进行全连接，经过训练后输出被训练的数值。

\(AlexNet\) 网络架构：

\(AlexNet\) 比 \(LeNet5\) 网络深。\(AlexNet\) 由 \(8\) 层组成：\(5\) 个卷积层、\(2\) 个全连接隐藏层和 \(1\) 全连接输出层。
- 第一个卷积层窗口形状 \(11 \times 11\)。
- 第二个卷积层窗口形状 \(5 \times 5\)。
- 第三、四、五个卷积层窗口形状 \(3 \times 3\)。
- 第一、第二和第五个卷积层之后都使用了窗口形状 \(3 \times 3\)、步幅 \(2\) 的最大池化层。
- \(AlexNet\) 卷积通道数是 \(LeNet\) 的十倍。
\(AlexNet\) 使用 \(ReLU\) 激活函数。原因：
1. \(ReLU\) 激活函数的计算更简单，没有求幂运算。
2. \(ReLU\) 激活函数在不同的参数初始化方法下使模型更容易训练。这是由于当 \(sigmoid\) 激活函数输出极接近 \(0\) 或 \(1\) 时，这些区域的梯度几乎为 \(0\)，从而造成反向传播无法继续更新部分模型参数；而 \(ReLU\) 激活函数在正区间的梯度恒为 \(1\)。因此，若模型参数初始化不当，\(sigmoid\) 函数可能在正区间得到几乎为 \(0\) 的梯度，从而令模型无法得到有效训练。
\(AlexNet\) 通过丢弃法控制全连接层的模型复杂度。而 \(LeNet\) 没有。