没有解决缺失值的问题
即该算法出生时是没有带有连续特征离散化、剪枝等步骤的 。C4.5作为ID3的改进版本弥补列ID3算法不少的缺陷:
通过信息最大增益的标准离散化连续的特征数据
在选择特征是标准从“最大信息增益”改为“最大信息增益率”
通过加入正则项系数对决策树进行剪枝
对缺失值的处理体现在两个方面:特征选择和生成决策树 。初始条件下对每个样本的权重置为1 。
特征选择:在选取最优特征时,计算出每个特征的信息增益后 , 需要乘以一个**“非缺失值样本权重占总样本权重的比例”**作为系数来对比每个特征信息增益的大小
生成决策树:在生成决策树时,对于缺失的样本我们按照一定比例把它归属到每个特征值中,比例为该特征每一个特征值占非缺失数据的比重
关于C4.5和CART回归树
作为ID3的改进版本,C4.5克服了许多缺陷,但是它自身还是存在不少问题:
C4.5的熵运算中涉及了对数运算 , 在数据量大的时候效率非常低 。
C4.5的剪枝过于简单
C4.5只能用于分类运算不能用于回归
当特征有多个特征值是C4.5生成多叉树会使树的深度加深
————————————————
版权声明:本文为CSDN博主「Sarah Huang」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明 。
原文链接:
python信息熵函数的介绍就聊到这里吧,感谢你花时间阅读本站内容 , 更多关于python 熵值法、python信息熵函数的信息别忘了在本站进行查找喔 。
推荐阅读
- 电脑怎么看显示器多少寸的,电脑怎么看显示器多少寸的
- thinkphp2.2.1的简单介绍
- 电商培训如何赚钱,做电商培训需要什么条件
- 怎样用国外的服务器地址,国外服务器国内如何访问
- 包含ios9微信好友恢复系统的词条
- 游戏解谜密室逃脱攻略,游戏解谜密室逃脱攻略视频
- 无人直播小车,无人直播是怎么做的
- 如何推广景区门票团购,如何推销景区门票
- 直播雕刻的设备,直播雕刻的设备叫什么