信息熵与基尼指数的关系
序
熵的概念中有信息熵、信息增益、信息增益比、基尼指数,这些统统作为决策树分裂的依据,其中,我们需要知道信息熵与基尼指数的关系。
信息熵与基尼指数的关系
- 首先看二者的定义:
文章图片
将 f(x) = ?lnx 在 x = 1 处进行一阶泰勒展开(忽略高阶无穷小):
文章图片
因此,熵可近似转化为:
文章图片
文章图片
基尼指数是信息熵中﹣logP 在P = 1处一阶泰勒展开后的结果!所以两者都可以用来度量数据集的纯度,用于描述决策树节点的纯度!
推荐阅读
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- Docker应用:容器间通信与Mariadb数据库主从复制
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量
- 第326天
- Shell-Bash变量与运算符
- 逻辑回归的理解与python示例
- 书评——《小行星》
- Guava|Guava RateLimiter与限流算法
- 我和你之前距离
- CGI,FastCGI,PHP-CGI与PHP-FPM