pytorch(10.4) 多层堆叠

发布时间 2023-10-23 16:57:07作者: MKT-porter

多层堆叠

多头得到到多个结果 z1 z2  

z1 z2经过 feed forward neural network网络 全连接层得到向量r1 r2.

既然是向量,就可以重复输入网络了

然后就可以重复堆积层了。

 

 

 

 

 

 

 

layernorm 应用了残差网络思想(确保加的层不会导致比原来系统差)

1 加操作:输出+输入,增加了输入有利于解决梯度消失

2 归一化:保证方差,均值稳定,减缓梯度爆炸