向量余弦夹角

  • TF-IDF:term frequency – inverse document frequency,常用的加权技术
    TF意思是词频(Term Frequency);
    IDF意思是逆向文件频率(Inverse Document Frequency);
  • 【向量余弦夹角】TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
    除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
  • 当两条新闻的向量夹角的余弦值为1时,两条信息完全相同,需要去重;
    当夹角的余弦值接近于1时,这两条信息相近,可以归为一类;
    夹角的余弦值越小,信息越不相关;

    推荐阅读