python信息熵函数 python 熵值法( 九 ) _Rou

没有解决缺失值的问题
即该算法出生时是没有带有连续特征离散化、剪枝等步骤的。C4.5作为ID3的改进版本弥补列ID3算法不少的缺陷：
通过信息最大增益的标准离散化连续的特征数据
在选择特征是标准从“最大信息增益”改为“最大信息增益率”
通过加入正则项系数对决策树进行剪枝
对缺失值的处理体现在两个方面：特征选择和生成决策树。初始条件下对每个样本的权重置为1 。
特征选择：在选取最优特征时，计算出每个特征的信息增益后，需要乘以一个**“非缺失值样本权重占总样本权重的比例”**作为系数来对比每个特征信息增益的大小
生成决策树：在生成决策树时，对于缺失的样本我们按照一定比例把它归属到每个特征值中，比例为该特征每一个特征值占非缺失数据的比重
关于C4.5和CART回归树
作为ID3的改进版本，C4.5克服了许多缺陷，但是它自身还是存在不少问题：
C4.5的熵运算中涉及了对数运算，在数据量大的时候效率非常低。
C4.5的剪枝过于简单
C4.5只能用于分类运算不能用于回归
当特征有多个特征值是C4.5生成多叉树会使树的深度加深
————————————————
版权声明：本文为CSDN博主「Sarah Huang」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：
python信息熵函数的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于python 熵值法、python信息熵函数的信息别忘了在本站进行查找喔。

python信息熵函数 python 熵值法( 九 )

推荐阅读

手机充电|泪目，四大国产手机厂商开始统一快充协议，消费者更方便了

被骗钱了如何处理

汉兰达五座和七座的区别汉兰达5座和七座的区别

吃鸡场控什么意思

数学老师英语怎么说数学老师的英语是什么

怎么制作织梦网站如何用织梦仿制网站，如何用织梦仿一个网站

射手座有当明星的潜质你就是明星，射手座最想演的偶像剧

嵘字取名的寓意女孩嵘字取名的寓意

心情不好心烦的说说抒发心情不好的句子

骁龙835和苹果A11哪个好_骁龙835和苹果A11评测对比骁龙835和苹果A11哪个好_骁龙835和苹果A11评测对比

微信聊天记录过期了怎么恢复微信的聊天记录怎么恢复

一天24小时有多少分钟多少秒 24小时等于多少秒

简单实用经济实惠美白小偏方秀出鲜嫩靓丽肌肤

移动物联网需求分析,物联网工程需求分析的内容是什么

2021元旦给姐姐的祝福语集锦

伏罂而听的意思伏罂而听的意思和科学道理是什么

Photoshop制作一张卡通非常的教师节海报

茅台王子酒涨价原因

索尼A7II 深度评测

长江大学文理学院是几本