机器学习 | TF-IDF详解-526互联

什么是TF-IDF

TF-IDF是一种常用的文本处理技术，用以评估一个词对于一篇文章或语料库中一篇文章的重要性。TF代表词频(Term Frequency)，IDF代表逆文档频率(Inverse Document Frequency)。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的使用场景

TF-IDF常被用于文本分类、信息检索、关键词提取等领域。在文本分类中，可以根据TF-IDF值来计算文本与某个类别的相关程度；在信息检索中，可以根据用户输入的关键词的TF-IDF值来排序搜索结果；在关键词提取中，可以根据TF-IDF值来确定文本中的关键词。

TF-IDF原理

TF（全称TermFrequency）指的是某个词在文本中出现的频率。如果一个词在文本中出现的次数越多，那么它的TF值就越高。例如，在一篇文章中，词语“apple”出现了5次，而总词数为1000个，那么它的TF值为0.005。

这其中还有一个漏洞，就是 ”的“ ”是“ ”啊“ 等类似的词在文章中出现的此时是非常多的，但是这些大多都是没有意义词，对于判断文章的关键词几乎没有什么用处，我们称这些词为”停用词“，也就是说，在度量相关性的时候不应该考虑这些词的频率。

IDF（全称InverseDocumentFrequency）指的是一个词在文本集合中的重要程度。如果一个词在整个文本集合中出现的文档数越少，那么它的IDF值就越高，说明这个词在文本中的重要程度越高。例如，在一个由1000篇文章组成的文本集合中，词语“apple”只出现在10篇文章中，那么它的IDF值为log(1000/10) = 2。

TF-IDF 值就是将TF和IDF相乘得到的结果。它反映了一个词在文本中的重要性。如果一个词在文本中出现的次数越多，同时在整个文本集合中出现的文档数越少，那么它的TF-IDF值就越高，说明这个词在文本中的重要程度越高。

TF-IDF的计算公式为：

第一步，计算词频。

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

代码案例：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表，为列表List类型
# token_pattern过滤规则，正则表达式，如r"(?u)bw+b
# max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型，并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)