如何用python实现随机森林分类大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测 。其中讲的比较好的是各个参数的具体用途 。
这里我给出我的理解和部分翻译:
参数说明:
最主要的两个参数是n_estimators和max_features 。
n_estimators:表示森林里树的个数 。理论上是越大越好 。但是伴随着就是计算时间的增长 。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数 。
max_features:随机选择特征集合的子集合,并用来分割节点 。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快 。根据较好的实践经验 。如果是回归问题则:
max_features=n_features,如果是分类问题则max_features=sqrt(n_features) 。
如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1 。
同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True 。但在extra-trees中,bootstrap=False 。
这里也给出一篇老外写的文章:调整你的随机森林模型参数
这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:
[python] view plain copy
【python随机森林函数 python sklearn随机森林】from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import numpy as np
from sklearn.datasets import load_iris
iris=load_iris()
#print iris#iris的4个属性是:萼片宽度 萼片长度 花瓣宽度 花瓣长度 标签是花的种类:setosa versicolour virginica
print iris['target'].shape
rf=RandomForestRegressor()#这里使用了默认的参数设置
rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练
#
#随机挑选两个预测不相同的样本
instance=iris.data[[100,109]]
print instance
print 'instance 0 prediction;',rf.predict(instance[0])
print 'instance 1 prediction;',rf.predict(instance[1])
print iris.target[100],iris.target[109]
返回的结果如下:
(150,)
[[ 6.33.36.2.5]
[ 7.23.66.12.5]]
instance 0 prediction; [ 2.]
instance 1 prediction; [ 2.]
2 2
在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的 。但是之前我写的决策树博客中是可以将决策树给显示出来 。但是随机森林却做了黑盒处理 。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁 。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献 。所以对于贡献不大的 , 甚至是负贡献的我们可以考虑删除这一列的特征值 , 避免做无用的分类 。
[python] view plain copy
from sklearn.cross_validation import cross_val_score, ShuffleSplit
X = iris["data"]
Y = iris["target"]
names = iris["feature_names"]
rf = RandomForestRegressor()
scores = []
for i in range(X.shape[1]):
score = cross_val_score(rf, X[:, i:i+1], Y, scoring="r2",
cv=ShuffleSplit(len(X), 3, .3))
scores.append((round(np.mean(score), 3), names[i]))
print sorted(scores, reverse=True)
显示的结果如下:
[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]
这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width 。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构 。
python 机器学习随机森林怎么存起来用你说python随机森林函数的问题叫模型持久化python随机森林函数 , 就是把学习好的模型保存起来,以后只要调用这个文件就可以python随机森林函数了 。
推荐阅读
- 虚拟diy主机,如何做虚拟主机
- pythonmysql数据库操作,用python操作数据库
- 战略游戏教程,战略游戏大作
- phpcmsv9登陆页面,phpcms
- python函数与类同名 python 同名函数
- 电脑为什么截屏的图很模糊,电脑为什么截屏的图很模糊呢
- phpcmsv9视频不播放,phpcms v9视频插件
- jquery公共库,jquery工具函数
- java加油代码 java加减法代码