python朴素贝叶斯分类器_Python机器学习笔记之——朴素贝叶斯分类器
朴素贝叶斯分类器
朴素贝叶斯分类器的训练速度比线性模型更快。这种高效率所付出的代价是,朴素贝叶斯模型的泛化能力要比线性分类器(如 LogisticRegression 和 LinearSVC)稍差。
朴素贝叶斯模型如此高效的原因在于,它通过单独查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据。scikit-learn 中实现了三种朴素贝叶斯分类器:GaussianNB、BernoulliNB 和 MultinomialNB。GaussianNB 可应用于任意连续数据,而 BernoulliNB 假定输入数据为二分类数据,MultinomialNB 假定输入数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句子中出现的次数)。BernoulliNB 和 MultinomialNB 主要用于文本数据分类。
BernoulliNB 分类器计算每个类别中每个特征不为 0 的元素个数。用一个简单的例子来说明会很容易理解:
文章图片
【python朴素贝叶斯分类器_Python机器学习笔记之——朴素贝叶斯分类器】这里我们有 4 个数据点,每个点有 4 个二分类特征。一共有两个类别:0 和 1。对于类别 0(第 1、3 个数据点),第一个特征有 2 个为零、0 个不为零,第二个特征有 1 个为零、1 个不为零,以此类推。然后对类别 1 中的数据点计算相同的计数。计算每个类别中的非零元素个数:
文章图片
另外两种朴素贝叶斯模型(MultinomialNB 和 GaussianNB)计算的统计数据类型略有不同。MultinomialNB 计算每个类别中每个特征的平均值,而 GaussianNB 会保存每个类别中每个特征的平均值和标准差。参数
MultinomialNB 和 GaussianNB 都只有一个参数 alpha,用于控制模型复杂度。alpha 的工作原理是,算法向数据中添加 alpha 这么多的虚拟数据点,这些点对所有特征都取正值。这可以将统计数据 “平滑化”(smooyhing)。alpha 越大,平滑性越强,模型的复杂度就越低。
优点
GaussianNB 主要用于高维数据,而另外两种朴素贝叶斯模型则广泛用于稀疏计数数据,比如文本。MultinomialNB 的性能通常会高于 BernoulliNB,特别是在包含很多非零特性的数据集(即大型文档)上。原作者姓名:前丨尘忆·梦
原出处:CSDN
推荐阅读
- Python机器学习基础教程|Python机器学习日记7(朴素贝叶斯分类器(持续更新))
- 朴素贝叶斯分类器python_python实现高斯朴素贝叶斯分类器
- 朴素贝叶斯分类器python实现_python|朴素贝叶斯分类器python实现_python 实现朴素贝叶斯分类器(离散数据)
- python必背入门代码-python学习必备知识汇总
- 8月更新|8月更新 | Visual Studio Code Python
- 可视化|今年双庆的日子快到啦!你买月饼了吗(使用Python来分析一下今年月饼销售数据如何!)
- 可视化|偶然发现的Python自学宝藏地带!
- Python|Python分析淘宝月饼销售数据,五仁月饼王者地位不可动摇!
- 可视化|Python实战 | 送亲戚,送长辈,月饼可视化大屏来帮忙!
- 程序员|爬取某宝4000条数据,用Python做了一个 “月饼“ 可视化大屏,过中秋