概率潜在语义分析(PLSA)

概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大特点是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析(PLSA)
文章图片

直观上,语义相近的单词和语义相近的文本会被聚到相同的“软类别”,话题表示的就是这样的“软类别”。图中三个框框各自表示一个话题。
1、生成模型 概率潜在语义分析(PLSA)
文章图片

概率潜在语义分析(PLSA)
文章图片

概率潜在语义分析(PLSA)
文章图片

2、共现模型 概率潜在语义分析(PLSA)
文章图片

概率潜在语义分析(PLSA)
文章图片

概率潜在语义分析(PLSA)
文章图片

3、PLSA参数估计的EM算法 【概率潜在语义分析(PLSA)】概率潜在语义分析(PLSA)
文章图片

    推荐阅读