李航《统计学习方法》拾遗-朴素贝叶斯
记得之前在一次网易的笔试中,完全忘记了朴素贝叶斯的计算方法,这次决心要好好看一看,争取一遍就记住!
朴素贝叶斯是典型的生成模型,因此我们要估计的是X和Y的联合概率分布P(X,Y),估计联合概率分布,可以用我们之前学到的条件概率,即
P(X=x|Y=ck) = P(X=x,Y=ck) / P(Y=ck)。这里,我们可以直接得到的就是P(Y=ck),这被称为先验概率,在使用极大似然估计的情况下,我们可以认为样本集中每类出现的概率作为P(Y)的值,而P(X|Y)是随着X的特征数以及每种特征的取值的增加而增加的,假设有4个特征,没种特征有5个取值的话,那么X的可能取值有4^5种,这样的量级是指数级增加的,我们根本不可能直接估计,那么该如何估计呢??朴素贝叶斯算法给出了一种近似的答案:
文章图片
【李航《统计学习方法》拾遗-朴素贝叶斯】这里用到的假设是条件独立性假设,个人理解就是X中每一维度的特征独立影响Y的取值,X的特征之间不会对Y产生交叉影响。
所以,根据条件独立性假设,在给定一个样本x的时候,我们可以估计它属于每一类的概率,从而选择概率最大的一种类别作为他的类别判定:
文章图片
还有一个问题,我们为什么通过将实例x归类为后验概率最大的类中,就是期望风险最小化呢?
文章图片
推荐阅读
- 慢慢的美丽
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量
- 《跨界歌手》:亲情永远比爱情更有泪点
- 诗歌:|诗歌: 《让我们举起世界杯,干了!》
- 期刊|期刊 | 国内核心期刊之(北大核心)
- 《魔法科高中的劣等生》第26卷(Invasion篇)发售
- 人间词话的智慧
- 《一代诗人》37期,生活,江南j,拨动心潭的一泓秋水
- 广角叙述|广角叙述 展众生群像——试析鲁迅《示众》的展示艺术
- 书评——《小行星》