机器学习实战----信息增益、信息增益率和基尼指数机器学习

一什么是信息熵对信息的一种度量。
物品可以用重量度量，长度可以用尺子度量。那信息用什么度量呢？《机器学习实战》这本书的信息量是多少呢？用什么度量呢？直到1948年香农提出了“信息熵”的概念，才解决了对信息的量化度量问题。信息熵是消除不确定性所需信息量的度量。一件事情的信息熵越高说明它需要的信息越多，来消除它的不确定性。
二信息增益 1 概念解析通过名字也能猜测出来，添加了信息之后能增加多少收益。也就是说增加信息之后能减少多少不确定性。
条件熵：H(X|A) 在已知随机变量A的条件下随机变量Y的不确定性。
信息增益：特征A对数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定的条件下D的经验熵H(D|A)之差
g(X,A)=H(X)-H(X|A)。由于特征A而使得对数据D的分类的不确定性减少的程度。显然，对于数据集而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

文章图片

文章图片

2 举例计算
文章图片

根据信息增益选择最优的特征，构建决策树。
(1)计算数据集的经验熵H(D)

文章图片
=
文章图片

(2)计算各个特征对数据集的信息增益，分别以A1,A2,A3,A4表示年龄、有工作、有自己的房子和信贷情况4个特征

文章图片

文章图片

文章图片

比较4个特征的信息增益，由于A3的信息增益最大，所以选择特征A3为数据集D的最优特征
3 弊端信息增益作为划分特征集的特征，存在偏向于选择特征值较多的特征。比如计算特征ID的信息增益，一条数据一个ID，那么计算这些数据的条件熵H(D|ID) :

文章图片

在经验熵相同的情况下，条件熵越小，最后的信息增益越大，所以ID这一特征自然被选为了对数据集D最优的特征。但是这个特征的选取并不是最优的，所以需要另一种计算方式对这种方法进行校正，这就是信息增益率。
三信息增益率 1 概念解析特征A对数据集D的信息增益比：

文章图片

其中g(D,A)是特征A对数据集D的信息增益。
文章图片
：对于数据集D，将当前特征A最为随机变量，得到的经验熵
2 举例计算根据表5.1计算特征A年龄的信息增益率：

3 弊端缺点：信息增益比偏向取值较少的特征
原因：当特征取值较少时HA(D)的值较小，信息增益比较大。A的特征值越少，A的不确定相对越低，A的经验熵越小。因而偏向取值较少的特征。
使用信息增益比：基于以上缺点，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。
四是基尼指数 1 概念解析数据集D的纯度也可以用基尼指数来，基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。
假设有K个类，样本点属于第k类的概率为pi，则概率分布的基尼指数为：

对于二分类问题，若样本点属于第一类的概率为p，属于第二类的概率为（1-p），则概率分布基尼指数为：

文章图片

如果样本集合D根据特征A是否取某一可能值被分割为两部分，则在特征A条件下，集合D的基尼指数：

文章图片

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经过特征A的某个值分割集合后D的不确定性。基尼指数越大，集合的不确定想越大，这一点与熵相似。
2 举例计算根据表5.1的数据计算特征A1年龄的基尼指数

五总结：
1 每种方法都有自己的侧重点和弊端，根据数据的特征选择合适的方法，现在sklearn中决策树分类模型默认的是基尼指数
2 多总结，让学习有质感

参考资料：
决策树--信息增益，信息增益比，Geni指数的理解
【机器学习实战----信息增益、信息增益率和基尼指数】《统计学习方法》----李航

机器学习实战----信息增益、信息增益率和基尼指数

推荐阅读

电子烟的好处

做什么行业会利润高又赚钱？

乳胶内衣怎么清洗晾晒

梦见买枕巾是什么意思梦见枕巾是怎么回事

涉嫌非法种植毒品原植物法定刑罚内容是多少

自己读书感悟的名言

投稿|何时起数码玩家已不再期待Android新版本？

支付宝基金过年期间休市吗

犯七是什么意思,有什么讲究犯七是什么意思

如何选购新鲜白萝卜

米兔|小米新品儿童手表发售，米兔儿童电话手表5C入手体验

秦书记青岛高速公路青岛高速公路最新消息今天

法院对串通投标罪规定定罪量刑标准是怎样

嵌怎么读嵌字是什么意思

苹果11网络特别差是什么原因

贵阳市少年儿童图书馆春节活动一览

solidworks2012热分析

2023年南四湖禁渔/禁采时间南四湖鱼馆怎么样

奥迪车质量怎么样? 奥迪车质量怎么样

2021送同事元宵节祝福语