单个随机变量的熵为该随机变量的不确定度
。 对于属性
A
,它的熵由以下公式计算: (4) 其中,
P(a)
是属性
A
的概率分布。对于分类信息的信息熵
H(class)
同样由公式
(4)
计算得出。
在属性
A
在
class
条件下的熵,条件熵
H(class|A)
由以下公式计算:
(5) 其中,
P(l,a)
为
class
与
A
的联合概率分布,
P(l|a)
为
class
与
A
的条件概率分布。 信息增益是由另一随机变量导致的原随机变量不确定度的缩减量。信息增益率是不确定度的缩减量占自身信息熵的比例。属性
A
相对于
class
的信息增益率
GainRatio(class,A)
由以下公式计算:
(6)
推荐阅读
- r语言|手把手(R语言文本挖掘和词云可视化实践)
- R语言从入门到机器学习|R语言rename重命名dataframe的列名实战:rename重命名dataframe的列名(写错的列名不会被重命名)
- R下载安装,Linux版
- R|不同方法的正态性检验及R语言实现
- jiebaR - 中文分词
- 模型评估
- R - dplyr 包
- r语言|R中处理空间面板模型的包spdep的用法
- R语言|电力窃漏电用户自动识别 细节