nn.Embedding torch.nn.Embedding-526互联

nn.Embedding

torch.nn.Embedding

随机初始化词向量矩阵：这种方式很容易理解，就是使用self.embedding = torch.nn.Embedding(vocab_size, embed_dim)命令直接随机生成个初始化的词向量矩阵，此时的向量值符合正态分布N(0,1)，这里的vocab_size是指词向量矩阵能表征的词的个数，这个数值即是词向量文件中词的数量加1（加1的原因是，如果某个词在词向量文件中不存在，则获取不到索引，也就无法在词向量矩阵中获取对应的向量，这时我们默认这个词的索引为0，即将词向量的第一行作为这个词的向量表征。使用预训练的词向量文件时，这个方法同样适用），embed_dim是指表征每个词时，向量的维度（可自定义，如256）。对于随机初始化词向量矩阵的方式，词向量文件的生成方式一般是将当前所有的文本数据（包括训练数据、验证数据、测试数据）进行切词，再对所有词进行聚合统计，保留词的数量大于某个阈值（比如3）的词，并进行索引编号（编号从1开始，0作为上面提到的不在词向量文件中的其他词的索引），进而生成词向量文件。顺便提一句，词向量矩阵的初始化的方式也有很多种，比如Xavier、Kaiming初始化方法。
使用预训练的词向量文件初始化词向量矩阵：本质上，词向量矩阵的作用是实现文本的向量表征，因此，如何用更合适的向量表示文本，逐渐成为了一个热门研究方向。预训练的词向量文件便是其中的一个研究成果，如通过word2vec、glove等预训练模型生成的词向量文件，通过大量的训练数据，来生成词的向量表征。以word2vec为例，训练后生成的词向量文件是以离线配置文件的形式存在，可通过gensim工具包进行加载，具体命令是wvmodel = gensim.models.KeyedVectors.load_word2vec_format(word2vec_file, binary=False, encoding='utf-8', unicode_errors='ignore')，加载后，可通过wvmodel.key_to_index获取词向量文件（要对词向量文件中的词索引进行重新编号，原索引从0开始，调整为从1开始，0作为不在词向量文件中的词的索引），通过wvmodel.get_vector("xxx")获取词向量文件中每个词对应的向量，将词向量文件中所有词对应的向量聚合在一起后（聚合的方式是，每个词的向量表征，按照词的索引，填充在词向量矩阵对应的位置），生成预训练词向量矩阵weight，再通过self.embedding = torch.nn.Embedding.from_pretrained(weight, freeze=False)完成词向量矩阵的初始化，参数freeze的作用，是指明训练时是否更新词向量矩阵的权重值，True为不更新，默认为True，等同于self.embedding.weight.requires_grad = False）。

还有个细节需要介绍下，在获取到预训练的词向量文件后，由于预训练的词向量文件很大，因此在后续的训练过程中，可能会出现内存不足的错误，此时可对词向量文件及预训练词向量矩阵进行调整，具体来说，先对我们本身任务的所有文本数据进行切词统计，保留数量超过一定阈值的词，作为词向量文件（就是随机初始化词向量矩阵时，词向量文件的生成方法），再利用这个词向量文件，配合wvmodel.get_vector("xxx")，获取预训练词向量矩阵weight，最后进行后续的词向量矩阵初始化过程。这样操作之后，由于词向量文件中词的数量减少，词向量矩阵的行数减少，内存占用会随之减少很多。另外，生成词向量的预训练方法还有很多，参见【通俗易懂的词向量】。

转自：

https://www.cnblogs.com/emanlee/p/17455844.html

https://blog.csdn.net/qq_39439006/article/details/126760701

nn functioinal parameter sequentia

bootstrap nn-svg svg nn

nn-stretch mobisys stretch nn

kldivloss损失pytorch nn

sequential modulelist moduledict nn