tf: term frequency
- 定义:
词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。 - term:
$tf_{i, j} = \frac{n_{i, j}}{\sum_k n_{k, j}}$ $n_{i, j}$表示词i在文件$d_j$里面出现的次数
inverse docment frequency
- 定义:
可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到 - term:
$idf_i = lg \frac{|D|}{|{j:t_i \in d_j}| + 1}$