AI-14. 自然语言处理:预训练

发布时间 2023-08-16 17:12:33作者: 浪矢\n

14.1. 词嵌入(word2vec)

   词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。然独热向量很容易构建,但它们通常不是一个好的选择。一个主要原因是独热向量不能准确表达不同词之间的相似度,比如我们经常使用的“余弦相似度”,任意两个词源直接的相似度为0.

  word2vec工具是为了解决上述问题而提出的。它将每个词映射到一个固定长度的向量,这些向量能更好地表达不同词之间的相似性和类比关系。