信息增益率

单个随机变量的熵为该随机变量的不确定度 。 对于属性 A ,它的熵由以下公式计算: (4) 其中, P(a) 是属性 A 的概率分布。对于分类信息的信息熵 H(class) 同样由公式 (4) 计算得出。
在属性 A 在 class 条件下的熵,条件熵 H(class|A) 由以下公式计算: (5) 其中, P(l,a) 为 class 与 A 的联合概率分布, P(l|a) 为 class 与 A 的条件概率分布。 信息增益是由另一随机变量导致的原随机变量不确定度的缩减量。信息增益率是不确定度的缩减量占自身信息熵的比例。属性 A 相对于 class 的信息增益率 GainRatio(class,A) 由以下公式计算:
(6)

    推荐阅读