机器学习实战教程（四）（朴素贝叶斯基础篇之论过滤器（a））机器学习实战教程（四）：朴

一、前言

朴素贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。
二、朴素贝叶斯理论
朴素贝叶斯是贝叶斯决策理论的一部分，所以在讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。
1、贝叶斯决策理论假设现在我们有一个数据集，它由两类数据组成，数据分布如下图所示：

文章图片
免费视频教程：www.mlxs.top 我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率，用p2(x,y)表示数据点(x,y)属于类别2(图中蓝色三角形表示的类别)的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：
如果p1(x,y)>p2(x,y)，那么类别为1
如果p1(x,y)
也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。已经了解了贝叶斯决策理论的核心思想，那么接下来，就是学习如何计算p1和p2概率。
2、条件概率在学习计算p1 和p2概率之前，我们需要了解什么是条件概率(Conditional probability)，就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

文章图片
免费视频教程：www.mlxs.top 【机器学习实战教程（四）（朴素贝叶斯基础篇之论过滤器（a））】根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。

文章图片
免费视频教程：www.mlxs.top 这就是条件概率的计算公式。
3、全概率公式除了条件概率以外，在计算p1和p2的时候，还要用到全概率公式，因此，这里继续推导全概率公式。
假定样本空间S，是两个事件A与A'的和。

文章图片
免费视频教程：www.mlxs.top 上图中，红色部分是事件A，绿色部分是事件A'，它们共同构成了样本空间S。
在这种情况下，事件B可以划分成两个部分。

文章图片
免费视频教程：www.mlxs.top
文章图片
免费视频教程：www.mlxs.top 4、贝叶斯推断对条件概率公式进行变形，可以得到如下形式：

文章图片
我们把P(A)称为"先验概率"（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。
P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。
P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
所以，条件概率可以理解成下面的式子：
后验概率　＝　先验概率ｘ调整因子
这就是贝叶斯推断的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。
在这里，如果"可能性函数"P(B|A)/P(B)>1，意味着"先验概率"被增强，事件A的发生的可能性变大；如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。
为了加深对贝叶斯推断的理解，我们举一个例子。

文章图片
免费视频教程：www.mlxs.top 两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖来自一号碗的概率有多大？
我们假定，H1表示一号碗，H2表示二号碗。由于这两个碗是一样的，所以P(H1)=P(H2)，也就是说，在取出水果糖之前，这两个碗被选中的概率相同。因此，P(H1)=0.5，我们把这个概率就叫做"先验概率"，即没有做实验之前，来自一号碗的概率是0.5。
再假定，E表示水果糖，所以问题就变成了在已知E的情况下，来自一号碗的概率有多大，即求P(H1|E)。我们把这个概率叫做"后验概率"，即在E事件发生之后，对P(H1)的修正。
根据条件概率公式，得到

文章图片
免费视频教程：www.mlxs.top 这表明，来自一号碗的概率是0.6。也就是说，取出水果糖之后，H1事件的可能性得到了增强。
同时再思考一个问题，在使用该算法的时候，如果不需要知道具体的类别概率，即上面P(H1|E)=0.6，只需要知道所属类别，即来自一号碗，我们有必要计算P(E)这个全概率吗？要知道我们只需要比较 P(H1|E)和P(H2|E)的大小，找到那个最大的概率就可以。既然如此，两者的分母都是相同的，那我们只需要比较分子即可。即比较P(E|H1)P(H1)和P(E|H2)P(H2)的大小，所以为了减少计算量，全概率公式在实际编程中可以不使用。
5、朴素贝叶斯推断理解了贝叶斯推断，那么让我们继续看看朴素贝叶斯。贝叶斯和朴素贝叶斯的概念是不同的，区别就在于“朴素”二字，朴素贝叶斯对条件个概率分布做了条件独立性的假设。比如下面的公式，假设有n个特征：

文章图片
免费视频教程：www.mlxs.top 这样我们就可以进行计算了。如果有些迷糊，让我们从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。
某个医院早上来了六个门诊的病人，他们的情况如下表所示：

文章图片
免费视频教程：www.mlxs.top 现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？
根据贝叶斯定理：

文章图片
免费视频教程：www.mlxs.top 因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。
这就是贝叶斯分类器的基本方法：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。
同样，在编程的时候，如果不需要求出所属类别的具体概率，P(打喷嚏) = 0.5和P(建筑工人) = 0.33的概率是可以不用求的。免费视频教程：www.mlxs.top

机器学习实战教程（四）（朴素贝叶斯基础篇之论过滤器（a））

推荐阅读

vb.net操作硬件 vbnet implements

今日淘汰鸡全国价格今日鸡蛋价格

小宅vr眼镜好用吗小宅魔镜头盔使用说明

毕业季家长的感言美句家长对老师的感言简短

洛神花怎么养护洛神花怎么养能开花

鸿蒙3安全流畅，鸿蒙系统安全程度

2022三九天时间表三九天2021时间表图

暗杀动作手机游戏，暗杀系列游戏大全

ospf路由表分析,OSPF路由表的作用

植发3000个毛囊面积图植发三千个毛囊单位有多少面积

美股怎么选美股怎么选股

世界word安卓,如何使用安卓用手机打印pdf?

关于重阳节的诗词重阳节有哪些诗词

红豆薏米芡实茶哪些人不能喝

香辣帝王蟹的做法帝王蟹做法

万像素|荣耀X30 MAX，不只有大！

想减肥的人少吃鸡翅这些高热量食物减肥期间不要碰

郭德纲的麒麟剧社有发展前途吗？能不能最后收编主流京剧界？

传统的汽配公司在干什么汽配公司属于什么行业

桌游黑暗之魂好玩吗黑暗之魂游戏介绍和攻略