tf-idf

tf: term frequency

  • 定义:
    词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。
  • term:
    $tf_{i, j} = \frac{n_{i, j}}{\sum_k n_{k, j}}$ $n_{i, j}$表示词i在文件$d_j$里面出现的次数

inverse docment frequency

  • 定义:
    可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到
  • term:
    $idf_i = lg \frac{|D|}{|{j:t_i \in d_j}| + 1}$