机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

2022-08-16 机器学习支持向量机决策树

文章目录

一、SVM（支持向量机）
二、决策树（Decision Tree）
三、朴素贝叶斯（Decision Tree）
四、K- 最近邻算法（KNN）
五、K- 均值（K-means）
六、随机森林（RandomForest）
七、自适应增强算法（Adaboost）

一、SVM（支持向量机）

SVM是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线，它们之间的边距最大。
最优超平面具有最大的边界，可以对点进行分类，从而使最近的数据点与这两个类之间的距离最大化。

文章图片
例如，H1 没有将这两个类分开。但 H2 有，不过只有很小的边距。而 H3 以最大的边距将它们分开了。

文章图片
当面对线性不可分的数据进行分类，就要加入容错率保证大局上的正确性。

文章图片
当出现上述线性不可分的情况，只能使用三维来进行分类。

二、决策树（Decision Tree） 【机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost】

机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

文章图片

由图表可以看出，我们可以根据是动物吗？会飞吗？有羽毛吗？最终可以判断是否属于鸟类，而对于我们要进行分类的数据，例如待测样本羊，就可以根据是动物吗？会飞吗？有羽毛吗？三类数据及上述数据分类情况，而判断出不属于鸟类。

文章图片
决策树优点：模型更直观，如果模型样本得出的结果不符合常理，我们可以直观的看出哪里出了错误，就可以手动更新决策树的结构，避免误判。当出现预测错误时，可以回溯查看各个条件是否误判，这时可以进行改正或者删掉。

如何选择决策条件呢？？？

机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

文章图片

可以使用信息熵，信息熵越大，代表系统的不确定性越大，样本分类越平均，信息熵越小，样本越倾向于某一类样本。

文章图片

文章图片

文章图片

三、朴素贝叶斯（Decision Tree）

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理。它测量每个类的概率，每个类的条件概率给出 x 的值。这个算法用于分类问题，得到一个二进制“是 / 非”的结果。看看下面的方程式。

文章图片
朴素贝叶斯分类器是一种流行的统计技术，可用于过滤垃圾邮件！

四、K- 最近邻算法（KNN）环境会影响你的决策。

机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

文章图片

当身边大部分人都选择安卓，那么你大概率肯定也会选择安卓，

文章图片

为了准确的找出最近距离，使用欧氏距离公式。

文章图片

文章图片

文章图片
常用于推荐系统。比如有了用户的喜欢电影信息，可以根据类似用户喜欢的信息，推测待测用户是否喜欢最终电影。

文章图片

五、K- 均值（K-means）

通常两个样本越相似，距离也就越小。K- 均值（K-means）是通过对数据集进行分类来聚类的。例如，这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习，因此，我们只需使用训练数据 X，以及我们想要识别的聚类数量 K。
例如K=2，也就是将所有样本分成了两类，所有样本计算之间距离后，中心点不再变，此时就已经分类好了。当有新的样本D6，就可以计算D6与两类样本中心的点的距离，加入类别并更新中心样本点。

文章图片

文章图片

文章图片

六、随机森林（RandomForest）

机器学习|（8）机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

文章图片

随机森林就是利用了集成学习方法。
对每一棵树都进行训练，如何将待测样本放到每一棵树中进行预测，每一棵树都会给出决策结果，最终结果就是要将每一棵树的结果综合考虑。

文章图片
缺点提到了，当三个会语文、数学、英语的学霸，面对物理知识，就无法进行解答了。

七、自适应增强算法（Adaboost）

当样本正确分类，可以减少模型复杂度；当样本错误分类，增加模型复杂度。

推荐阅读

上一篇：机器学习|神经网络（二）回归与线性模型

下一篇：Dubbo源码(八)|Dubbo源码(八) - 负载均衡