em算法java代码 em算法计算题( 六 ) _Crond

CachingCVB0Mapper整个过程如下图所示(清晰大图见附件)
在上面这个整体框架下,mahout程序应用了CVB0 Algorithm来计算LDA模型, 在map过程中通过对向量docTopic和矩阵docTopicModel的反复迭代求解，算出每个document的docTopicModel并且在update writeModel阶段将docTopicModel矩阵进行向量的相加操作，经历完所有的map过程后得到整个corpus的docTopicModel矩阵，最终在cleanup过程中将topic的index作为key ，矩阵docTopicModel作为value写入reduce 。该过程涉及到的算法如下所示
CVB0算法分析图解(清晰大图见附件)
4.利用生成的LDA模型推导出topic的概率分布
算法总结
可以看出算法本质上面就是bayes公式和EM算法的结合
E过程就是首先假定一个均匀分布且归一化的topic概率分布向量docTopics，利用该值通过贝叶斯公式算出单词 - 主题的概率分布矩阵 docTopicModel(见CVB0算法分析图解中的第一步)
M过程就是根据生成的docTopicModel进行CVB0算法分析图解中的2,3,4,5步重新计算得到新的docTopics
然后反复重复 E - M 过程n次，得到收敛后的docTopics和docTopicModel，其中docTopicModel可以用于lda模型的更新，而docTopics就是我们聚类需要的topic概率分布向量
算法后记
几点问题还没有得到解决
1.在mahout中是按照下面的式子计算docTopicModel的
double termTopicLikelihood =
(topicTermRow.get(termIndex) + eta) * (topicWeight + alpha)/ (topicSum + eta * numTerms);
疑问就是该式子比贝叶斯公式添加了几个平滑系数项，这样写的理论依据在哪里，来源于哪篇著作或者论文，平滑系数eta和alpha分别是代表什么含义，如何选取这两个系数。
2.CVB0算法分析图解中第2步进行归一化的理论依据，即为什么要进行归一化
3.update writeModel过程中对于topicTermCounts的计算
即为什么要在每次map时候对p(topic | term)进行累加，还没有完全想明白
项目运行环境
hadoop-1.2.1
sqoop-1.4.4
mahout-0.9
关于环境的安装部署请参考相关文章，这里不多加赘述。上面三个软件在我本机的都是部署在/home/hadoop-user/mahout_workspace/目录下。另外自己写的scout项目部署在/home/hadoop-user/scout_workspace/目录下
项目代码
项目代码已经放到Github上有兴趣的同学可以下载下来看下，重点查看bin目录下的脚本文件以及driver,export,analyzer等几个包下的java文件
整个项目架构分析
该项目的初始数据保存在MySQL中, 算法分析需要map/reduce过程以及hdfs文件系统的参与, 最后将结果更新至MySQL,整个过程如图所示
【em算法java代码 em算法计算题】em算法java代码的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于em算法计算题、em算法java代码的信息别忘了在本站进行查找喔。

em算法java代码 em算法计算题( 六 )

推荐阅读

抑郁症|抑郁症患者越来越多？4个方法，让“心伤”患者得到救赎

鹦鹉鱼多久产卵一次鹦鹉鱼产卵要捞出来吗

肥牛吃法酸汤肥牛炒肥牛

三文鱼紫菜饭卷儿的做法怎样做三文鱼紫菜饭卷儿

嘉隆通宝是什么时候的嘉隆通宝值多少钱一个

西虹市首富什么时候上映拍摄地点在哪里

下沉式卫生间标准做法

欧元哪里换比较划算美国的欧元换中国多少钱

qq坦白说怎么退出手机qq坦白说关闭方法介绍

科技布是什么材质做成的拉斐尔科技布的介绍

小学生安全教育论文范文小学生安全教育论文参考文献

看完《三体》后迷上了科幻小说,大佬们有没有很经典很好看的科幻小说推荐下？

英语学习用什么APP好用,基础比较差,主要联系听说？

浙江省法律援助条件浙江省法律援助服务规范

新车第二年续保怎么买汽车续保提前多久合适

李元芳的官大吗？为什么那么厉害？

关于外星人入侵的科幻小说有哪些好的推荐？

苹果12pro和苹果12promax的区别

2022快乐的五一劳动节征文 2021年五一国际劳动节快乐图片

微创去眼袋大概多少钱割眼袋需要多少钱一次