pytorch(9.7) keras-Embedding 嵌入层-526互联

https://www.tensorflow.org/text/guide/word_embeddings

将文本表示为数字

机器学习模型将向量（数字数组）作为输入。处理文本时，您必须做的第一件事是想出一种策略，将字符串转换为数字（或“矢量化”文本），然后再将其输入模型。

1独热编码

作为第一个想法，您可能会对词汇表中的每个单词进行“one-hot”编码。考虑一下“猫坐在垫子上”这句话。这句话中的词汇（或独特的单词）是（cat、mat、on、sat、the）。为了表示每个单词，您将创建一个长度等于词汇表的零向量，然后在与该单词对应的索引中放置一个 1。这种方法如下图所示。

要点：这种方法效率低下。one-hot 编码向量是稀疏的（意味着大多数索引为零）。想象一下您的词汇表中有 10,000 个单词。要对每个单词进行 one-hot 编码，您需要创建一个 99.99% 的元素为零的向量。

2用唯一的数字对每个单词进行编码

您可以尝试的第二种方法是使用唯一的数字对每个单词进行编码。继续上面的示例，您可以将 1 分配给“cat”，2 分配给“mat”，依此类推。然后，您可以将句子“The cat sat on the mat”编码为密集向量，如 [5, 1, 4, 3, 5, 2]。这种方法是有效的。现在您拥有一个密集向量（其中所有元素都已满），而不是稀疏向量。

然而，这种方法有两个缺点：