python信息熵函数 python 熵值法( 九 )


没有解决缺失值的问题
即该算法出生时是没有带有连续特征离散化、剪枝等步骤的 。C4.5作为ID3的改进版本弥补列ID3算法不少的缺陷:
通过信息最大增益的标准离散化连续的特征数据
在选择特征是标准从“最大信息增益”改为“最大信息增益率”
通过加入正则项系数对决策树进行剪枝
对缺失值的处理体现在两个方面:特征选择和生成决策树 。初始条件下对每个样本的权重置为1 。
特征选择:在选取最优特征时,计算出每个特征的信息增益后 , 需要乘以一个**“非缺失值样本权重占总样本权重的比例”**作为系数来对比每个特征信息增益的大小
生成决策树:在生成决策树时,对于缺失的样本我们按照一定比例把它归属到每个特征值中,比例为该特征每一个特征值占非缺失数据的比重
关于C4.5和CART回归树
作为ID3的改进版本,C4.5克服了许多缺陷,但是它自身还是存在不少问题:
C4.5的熵运算中涉及了对数运算 , 在数据量大的时候效率非常低 。
C4.5的剪枝过于简单
C4.5只能用于分类运算不能用于回归
当特征有多个特征值是C4.5生成多叉树会使树的深度加深
————————————————
版权声明:本文为CSDN博主「Sarah Huang」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明 。
原文链接:
python信息熵函数的介绍就聊到这里吧,感谢你花时间阅读本站内容 , 更多关于python 熵值法、python信息熵函数的信息别忘了在本站进行查找喔 。

推荐阅读