特征选择之信息增益
在文本分类中利用信息增益进行特征提取
信息增益体现了特征的重要性,信息增益越大说明特征越重要
假设数据中有k类:
文章图片
每类出现的概率是:
文章图片
各类的信息熵计算公式:
文章图片
对某个词汇word需要计算word在所有类别中出现的概率:
文章图片
就是:出现word的文件数 除以总文件数
word不出现的概率:
文章图片
就是没有出现word的文件数 除以总文件数
条件熵的计算:
文章图片
这里我们用到了T表示word这个特征
其中
文章图片
表示:出现word的文件的信息熵
计算方式:
文章图片
其中:
文章图片
表示出现word的情况下是Ci类的概率,计算方式:Ci类中出现word的文件数 除以 总的出现word的文件数
文章图片
表示不出现word的条件熵
计算方式
文章图片
其中
文章图片
表示没有出现word的情况下是Ci类的概率,计算方式:Ci类中没有出现word的次数 除以 总类中没有出现word的次数
总的信息增益计算公式
文章图片
信息熵体现了信息的不确定程度,熵越大表示特征越不稳定,对于此次的分类,越大表示类别之间的数据差别越大
条件熵体现了根据该特征分类后的不确定程度,越小说明分类后越稳定
【特征选择之信息增益】信息增益=信息熵-条件熵,越大说明熵的变化越大,熵的变化越大越有利于分类
推荐阅读
- vant组件库之tag渐变色不起作用的原因及解决
- 也来聊聊红楼梦的癞僧、跛道
- 一个setTimeout问题小探索
- ios拓展35-Cell创建方法
- 力扣之只出现一次的数字&多数元素
- python|python playwright之元素定位示例详解
- 2.选择存亡
- 【连载】巍峨章山,神奇洛水之一《紫皮大蒜传奇》
- 【菜菜系列3】菜菜的付费社群之旅(一如真实的人生)
- 刚毕业就失业,普通月光族的“致富”之路