文章目录
- 一、SVM(支持向量机)
- 二、决策树(Decision Tree)
- 三、朴素贝叶斯(Decision Tree)
- 四、K- 最近邻算法(KNN)
- 五、K- 均值(K-means)
- 六、随机森林(RandomForest)
- 七、自适应增强算法(Adaboost)
一、SVM(支持向量机)
- SVM是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线,它们之间的边距最大。
- 最优超平面具有最大的边界,可以对点进行分类,从而使最近的数据点与这两个类之间的距离最大化。
文章图片
- 例如,H1 没有将这两个类分开。但 H2 有,不过只有很小的边距。而 H3 以最大的边距将它们分开了。
文章图片
- 当面对线性不可分的数据进行分类,就要加入容错率保证大局上的正确性。
文章图片
- 当出现上述线性不可分的情况,只能使用三维来进行分类。
文章图片
- 由图表可以看出,我们可以根据是动物吗?会飞吗?有羽毛吗?最终可以判断是否属于鸟类,而对于我们要进行分类的数据,例如待测样本羊,就可以根据是动物吗?会飞吗?有羽毛吗?三类数据及上述数据分类情况,而判断出不属于鸟类。
文章图片
- 决策树优点:模型更直观,如果模型样本得出的结果不符合常理,我们可以直观的看出哪里出了错误,就可以手动更新决策树的结构,避免误判。当出现预测错误时,可以回溯查看各个条件是否误判,这时可以进行改正或者删掉。
文章图片
- 可以使用信息熵,信息熵越大,代表系统的不确定性越大,样本分类越平均,信息熵越小,样本越倾向于某一类样本。
文章图片
文章图片
文章图片
- 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。看看下面的方程式。
文章图片
- 朴素贝叶斯分类器是一种流行的统计技术,可用于过滤垃圾邮件!
文章图片
- 当身边大部分人都选择安卓,那么你大概率肯定也会选择安卓,
文章图片
为了准确的找出最近距离,使用欧氏距离公式。
文章图片
文章图片
文章图片
- 常用于推荐系统。比如有了用户的喜欢电影信息,可以根据类似用户喜欢的信息,推测待测用户是否喜欢最终电影。
文章图片
- 通常两个样本越相似,距离也就越小。K- 均值(K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习,因此,我们只需使用训练数据 X,以及我们想要识别的聚类数量 K。
- 例如K=2,也就是将所有样本分成了两类,所有样本计算之间距离后,中心点不再变,此时就已经分类好了。当有新的样本D6,就可以计算D6与两类样本中心的点的距离,加入类别并更新中心样本点。
文章图片
文章图片
文章图片
文章图片
- 随机森林就是利用了集成学习方法。
- 对每一棵树都进行训练,如何将待测样本放到每一棵树中进行预测,每一棵树都会给出决策结果,最终结果就是要将每一棵树的结果综合考虑。
文章图片
- 缺点提到了,当三个会语文、数学、英语的学霸,面对物理知识,就无法进行解答了。
- 当样本正确分类,可以减少模型复杂度;当样本错误分类,增加模型复杂度。
推荐阅读
- 机器学习|神经网络(二)回归与线性模型
- 机器学习|机器学习(八)KNN,SVM,朴素贝叶斯,决策树与随机森林
- 机器学习|神经网络(一)基本概念
- 深度学习|迁移学习 & 凯明初始化
- 关于点击率模型,你知道这三点就够了 点击率预估的几个经典模型简介
- 机器学习|机器学习之聚类算法②——DBSCAN
- 机器学习|机器学习-DBSCAN聚类算法
- 数据聚类|聚类——密度聚类(DBSCAN、OPTICS、DENCLUE)
- 人工智能大数据|聚类模型、聚类分析