文本张量（Text Tensor）

是一种将文本数据表示为多维数组（张量）的数据结构。文本张量通常用于深度学习和神经网络模型中，以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面：

词汇表：文本张量的一个重要维度是词汇表大小，即语料库中唯一单词的数量。这通常是一个整数值，表示模型可以处理的不同单词的数量。
文本序列长度：文本数据通常由一系列单词组成，每个单词可以表示为一个整数（对应词汇表中的位置）。文本序列的长度是一个重要维度，因为它决定了文本张量的形状。
嵌入维度：在深度学习中，通常会使用词嵌入（Word Embeddings）来将单词映射为连续向量。嵌入维度是这些向量的长度，通常是一个固定的值，例如100维或300维。

因此，文本张量可以看作是一个三维张量，其中维度包括词汇表大小、文本序列长度和嵌入维度。这种数据结构允许计算机以数字形式处理文本数据，将文本传递给神经网络等深度学习模型进行训练或推断。在处理文本分类、情感分析、机器翻译等自然语言处理任务时，文本张量是一个非常重要的输入数据形式。

文本向量（Text Vector）

是将文本数据表示为数学向量的方法，其实就是转为一维向量。在自然语言处理（NLP）和机器学习中，文本通常是以人类可读的形式存在，如文章、评论、书籍等，但计算机更喜欢处理数字数据。因此，为了在计算机上进行文本处理和分析，需要将文本转换为数值形式，这就是文本向量的作用。

文本向量化的方法有很多种，其中一些常见的包括：

词袋模型（Bag of Words，BoW）：将文本看作是一组词汇的无序集合，然后统计每个词汇出现的次数。每个文档都被表示为一个向量，其中每个维度对应一个词汇，值表示该词汇在文档中的出现次数。
TF-IDF（Term Frequency-Inverse Document Frequency）：TF-IDF是一种文本向量化方法，它考虑了词汇在文档集合中的重要性。它结合了词频（Term Frequency，TF）和逆文档频率（Inverse Document Frequency，IDF）来计算每个词汇的权重。
Word Embeddings（词嵌入）：这是一种更高级的文本向量化方法，如Word2Vec、GloVe和FastText。它们将每个词汇映射到一个低维连续向量空间，使得语义相似的词汇在向量空间中更接近。
词语级别的神经网络嵌入：使用神经网络，可以创建文本向量，其中每个词语都被嵌入到一个低维向量空间中，然后将这些嵌入向量组合成整个文本的表示。
文档嵌入：将整个文档表示为一个向量，通常通过词汇嵌入的平均或加权平均来实现。这种方法捕捉了整个文本的语义信息。