概率潜在语义分析(PLSA)
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大特点是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
文章图片
直观上,语义相近的单词和语义相近的文本会被聚到相同的“软类别”,话题表示的就是这样的“软类别”。图中三个框框各自表示一个话题。
1、生成模型
文章图片
文章图片
文章图片
2、共现模型
文章图片
文章图片
文章图片
3、PLSA参数估计的EM算法 【概率潜在语义分析(PLSA)】
文章图片
推荐阅读
- 概率论/统计学|随机变量 的 分布函数 与 概率密度函数 的区别
- 内存管理
- 做学问
- 第170篇【20190830】跑步+股票+《包法利夫人》+心理概率+谈考研
- 选择题
- 概率机器人笔记|概率机器人(测距仪的地图匹配模型)
- 为小概率留下安全空间
- 【重构前端知识体系之HTML】讲讲对HTML5的一大特性——语义化的理解
- 效果提升28个点!基于领域预训练和对比学习SimCSE的语义检索
- 题库-CF|【Codeforces Round 370 (Div 2) E】【线段树 等比数列 区间合并】Memory and Casinos 赌场区间[l,r] l进r先出的概率