python|决策树——id3算法 python|决策树

我们假设训练集合包含10个样本：

文章图片

其中s、m和l分别表示小、中和大。
设L、F和H表示日志密度、好友密度、是否使用真实头像，下面计算各属性的信息增益。

# 从目标值看信息的分布熵是多少 # 3个no 7个yes info_D = -(.3*np.log(0.3)+.7*np.log(0.7)) info_D

输出：0.6108643020548935

# 从日志密度这一个特征来看账号是否真实有多难熵是多少 # s 2+1 # l 0+3 # m 1+3 info_log = -.3*(1/3*np.log2(1/3)+2/3*np.log2(2/3)) -\ .4*(3/4*np.log2(3/4)+1/4*np.log2(1/4)) info_log

输出：0.6

# 信息是有增益的 # 不带任何信息 - 带有信息 info_D - info_log

输出：0.010864302054893527

# 从好有密度这一个特征来看账号是否真实有多难熵是多少 # s m l 3+1 0+4 0+2 info_f = -.4*(3/4*np.log2(3/4)+1/4*np.log(1/4)) info_f

输出：0.26314068589564216

info_D - info_f

输出：0.34772361615925135

# 从是否使用真实头像这一个特征来看账号是否真实有多难熵是多少 # no yes 2+3 1+4 info_t = -.5*(2/5*np.log(2/5)+3/5*np.log(3/5)) - .5*(1/5*np.log(1/5)+ 4/5*np.log(4/5)) info_t

【python|决策树——id3算法】输出：0.5867070452737222

info_D - info_t

输出：0.02415725678117131
注意：哪条信息增益比较大哪条信息更具有价值

python|决策树——id3算法

推荐阅读

降价|双11降价哪家强？iqoo：降900，三星：我降1300，荣耀：未知？

下厨房app菜单收藏方法

爱书签的孩子会有额外奖赏

金华个人所得税专项附加扣除指的是什么？

英语句法分析树

有哪些卖茶叶的天猫旗舰店值得推荐？

高仿尼康相机推荐高仿尼康相机

蛤蜊的营养功效

射手座女生喜欢什么样的礼物射手座女生漂亮吗

温州怎么查社保卡里有多少钱，怎么查社保余额

怎么用豆浆机打豆浆怎么用豆浆机打豆浆好喝

ps怎么给图像加影子详细教程

阳台种什么植物阳台种什么植物最旺风水

南极之恋是在南极拍的吗

vb.net设定为粗体 vb字体加粗代码后还原代码

快餐盒是什么材质的

孩子不阳光自信怎么办

榴莲,菠萝蜜,谁是你的最爱？

佳能35和50 佳能ef35与50

万答#13，MySQL自增键用完后，插入数据会发生什么情况