包含python捷豹函数的词条( 四 )


(4)这些算法在数据探索中是有用的 。决策树隐式执行特征选择 , 这在预测分析中非常重要 。当决策树适合于训练数据集时,在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量,并且默认情况下完成特征选择 。
(5)决策树有助于节省数据准备时间,因为它们对缺失值和异常值不敏感 。缺少值不会阻止您拆分构建决策树的数据 。离群值也不会影响决策树,因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂 。
E.决策树的缺点
(1)树中决策的数量越多,任何预期结果的准确性越小 。
(2)决策树机器学习算法的主要缺点是结果可能基于预期 。当实时做出决策时 , 收益和产生的结果可能与预期或计划不同 。有机会,这可能导致不现实的决策树导致错误的决策 。任何不合理的期望可能导致决策树分析中的重大错误和缺陷,因为并不总是可能计划从决策可能产生的所有可能性 。
(3)决策树不适合连续变量,并导致不稳定性和分类高原 。
(4)与其他决策模型相比,决策树很容易使用,但是创建包含几个分支的大决策树是一个复杂和耗时的任务 。
(5)决策树机器学习算法一次只考虑一个属性,并且可能不是最适合于决策空间中的实际数据 。
(6)具有多个分支的大尺寸决策树是不可理解的,并且造成若干呈现困难 。
F.决策树机器学习算法的应用
(1)决策树是流行的机器学习算法之一,它在财务中对期权定价有很大的用处 。
(2)遥感是基于决策树的模式识别的应用领域 。
(3)银行使用决策树算法按贷款申请人违约付款的概率对其进行分类 。
(4)Gerber产品公司,一个流行的婴儿产品公司,使用决策树机器学习算法来决定他们是否应继续使用塑料PVC(聚氯乙烯)在他们的产品 。
(5)Rush大学医学中心开发了一个名为Guardian的工具,它使用决策树机器学习算法来识别有风险的患者和疾病趋势 。
Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习 。
R语言中的数据科学库实现决策树机器学习算法是插入符号 。
3.7 随机森林机器学习算法
让我们继续我们在决策树中使用的同样的例子,来解释随机森林机器学习算法如何工作 。提利昂是您的餐厅偏好的决策树 。然而 , 提利昂作为一个人并不总是准确地推广你的餐厅偏好 。要获得更准确的餐厅推荐,你问一对夫妇的朋友,并决定访问餐厅R,如果大多数人说你会喜欢它 。而不是只是问Tyrion,你想问问Jon Snow , Sandor,Bronn和Bran谁投票决定你是否喜欢餐厅R或不 。这意味着您已经构建了决策树的合奏分类器 - 也称为森林 。
你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据 。你也不确定你的餐厅偏好,是在一个困境 。你告诉提利昂你喜欢开顶屋顶餐厅,但也许,只是因为它是在夏天 , 当你访问的餐厅,你可能已经喜欢它 。在寒冷的冬天,你可能不是餐厅的粉丝 。因此 , 所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点,以提出他们的建议您的餐厅偏好 。
通过为您的朋友提供略微不同的餐厅偏好数据,您可以让您的朋友在不同时间向您询问不同的问题 。在这种情况下,只是稍微改变你的餐厅偏好,你是注入随机性在模型级别(不同于决策树情况下的数据级别的随机性) 。您的朋友群现在形成了您的餐厅偏好的随机森林 。
随机森林是一种机器学习算法,它使用装袋方法来创建一堆随机数据子集的决策树 。模型在数据集的随机样本上进行多次训练,以从随机森林算法中获得良好的预测性能 。在该整体学习方法中 , 将随机森林中所有决策树的输出结合起来进行最终预测 。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出 。

推荐阅读