特征选择之信息增益

在文本分类中利用信息增益进行特征提取
信息增益体现了特征的重要性,信息增益越大说明特征越重要
假设数据中有k类:
特征选择之信息增益
文章图片
每类出现的概率是:


特征选择之信息增益
文章图片
各类的信息熵计算公式:


特征选择之信息增益
文章图片


对某个词汇word需要计算word在所有类别中出现的概率:



特征选择之信息增益
文章图片
就是:出现word的文件数 除以总文件数
word不出现的概率:


特征选择之信息增益
文章图片
就是没有出现word的文件数 除以总文件数
条件熵的计算:



特征选择之信息增益
文章图片
这里我们用到了T表示word这个特征
其中


特征选择之信息增益
文章图片
表示:出现word的文件的信息熵
计算方式:


特征选择之信息增益
文章图片
其中:
特征选择之信息增益
文章图片
表示出现word的情况下是Ci类的概率,计算方式:Ci类中出现word的文件数 除以 总的出现word的文件数


特征选择之信息增益
文章图片
表示不出现word的条件熵
计算方式


特征选择之信息增益
文章图片
其中
特征选择之信息增益
文章图片
表示没有出现word的情况下是Ci类的概率,计算方式:Ci类中没有出现word的次数 除以 总类中没有出现word的次数
总的信息增益计算公式


特征选择之信息增益
文章图片
信息熵体现了信息的不确定程度,熵越大表示特征越不稳定,对于此次的分类,越大表示类别之间的数据差别越大
条件熵体现了根据该特征分类后的不确定程度,越小说明分类后越稳定
【特征选择之信息增益】信息增益=信息熵-条件熵,越大说明熵的变化越大,熵的变化越大越有利于分类

    推荐阅读