机器学习|决策树算法(DecisionTree) python|决策树|决策树算法|机器

手动实现决策树算法

算法使用如下数据集（来自统计学习方法）：
https://github.com/xu1995yong/ml/tree/master/python%E5%AE%9E%E7%8E%B0
代码：

from pandas import Series import numpy as npclass DecisionTree: def __init__(self): self.tree = None def entropy(self,data,y): ''' 求经验熵 ''' m = data.shape[0] yType = Series(y).unique() count = [] for v in yType: sub_data = https://www.it610.com/article/data[np.where(y == v)] count.append(sub_data.shape[0]) p = np.array(count) / m s = np.dot(-1 * p,np.log2(p)) return sdef conditionalEntropy(self,xi,y):''' 计算特征A对数据集D的经验条件熵 ''' m = xi.shape[0] s = 0 for i in Series(xi).value_counts().index: sub_xi = xi[np.where(xi == i)] sub_y = y[np.where(xi == i)] p = self.entropy(sub_xi,sub_y) #计算特征A的某个取值的经验熵 s += 1.0 * sub_xi.shape[0] / m * p return sdef infoGain(self,x,y): n = x.shape[1] index = None g = None for i in range(n): t = self.entropy(y,y) - self.conditionalEntropy(x[:,i],y)#计算每个特征的信息增益 if i == 0: g = t index = 0 if t > g: g = t index = i return index,gdef train(self,x,y,theta): if np.sum(y == y[0]) == y.shape[0]:#y中只有同一类样本 return y[0] [i,g] = self.infoGain(x,y)#返回信息增益最大的特征的索引、信息增益值tree = {str(i):{}}if g < theta:#特征x的信息增益小于阈值theta,则返回y中数量最多的类 returnVal = Series(y).value_counts().index[0] return returnVal else : #根据（信息增益最大的）特征的取值，划分数据集，并递归求每一部分数据集的信息增益 uniqueVal = Series(x[:,i]).unique() for val in uniqueVal: xi = x[np.where(x[:,i] == val)] yi = y[np.where(x[:,i] == val)] xi = np.hstack((xi[:,0:i],xi[:,i+1:xi.shape[1]+1])) returnVal = self.train(xi,yi,theta) tree[str(i)][val] = returnVal self.tree = tree return tree if __name__ == '__main__': x = np.loadtxt('x.txt') y = np.loadtxt('y.txt') dt = DecisionTree() dt.train(x,y,0) print(dt.tree)
输出结果：
{‘2’: {0.0: {‘1’: {0.0: 0.0, 1.0: 1.0}}, 1.0: 1.0}}
树的可视化：
【机器学习|决策树算法(DecisionTree)】

机器学习|决策树算法(DecisionTree)

推荐阅读

家里来qie了怎么写 qiu怎么写

甘肃男人性功能好不好甘肃人怎么样

crocodile是什么意思 crocodile的意思

古代的取火方式有哪些图片古代的取火方式有哪些

星巴克宣布员工14薪,西贝贾国龙提议715(网友：没对比就没伤害

首保一般要做哪些项目

智能手机|iPhone诞生15年越做越垃圾？苹果周年纪念版“神机”要大改

三国志14三顾茅庐后期娱乐玩法心得三顾茅庐后期怎么打_网

怎样区分野生黑鱼和家养黑鱼图片怎样区分野生黑鱼和家养黑鱼

mysql用户本host

使用SQL|使用SQL SERVER存储过程实现历史数据迁移方式

如何交到更多的男性朋友知乎如何交到更多的男性朋友，如何交到更多的男性朋友呢

博世洗衣机显示时间怎么看,滚筒洗衣机怎么设置时间

如何表白不会被拒绝怎么表白才不会被拒绝

增值电信服务有哪些

word中如何加载endnote 我来分享在word2010里加载endnote的详细操作

oled|腾讯红魔游戏手机6S Pro 9月6日正式发布

如何引导孩子改掉坏的毛病作文如何引导孩子改掉坏的毛病

Photoshop调出外景人物照片柔和的秋色

生榨芹菜汁能天天喝吗