2019/07/17
以往都是直接使用了混淆矩阵直接查看数据,没有具体看过到底是什么样子,今天想起了kaggle上他们使用图形的方式来展现这部分内容。
文章图片
混淆矩阵 这部分的代码是直接使用了官网这部分的示例,将原来的代码稍加修改就可以了。
但是因为画出来的图非常小,所以就直接在subplot
中添加了figsize=(12,10)
的参数。
一开始的时候,添加的是(10,12),导致的结果就是颜色条非常高,很不协调,之后改成了上面的参数,就有了上图。
具体的关于颜色条的编程可以看文献[2],目前还没有具体看,不过我感觉应该是非常详细的对这部分进行控制的。
2019/07/17
想起来了之前用过sns对这部分绘画,
sns.heatmap(cm,annot=True,cmap="BuPu",fmt="d")
其中cm
就是函数直接输出的混淆矩阵。但是因为没有标签,全都是数字,看到其起一个参数可以为df
,然后名字会自动采用index/columns,所以把这个东西转化为df。df_cm = pd.DataFrame(cm, index = enc.classes_, columns =enc.classes_)
,enc
为之前进行编码得到的一个编码器。
然后横轴标签默认是竖直的字符串,再使用fig.autofmt_xdate()
进行自动优化。
这样基本上一个图就算完成了。
对于这部分的内容的话,可以参考流量里面的feature Explore
,里面包括官方和自己的两个实现都有,后面自己的实现也调整了DPI。
文章图片
sns的混淆矩阵 【混淆矩阵画图】主要参考了[3][4][5]
参考文献
[1]Confusion matrix
[2]解决python画图中colorbar设置刻度和标签字体大小
[3]seaborn.heatmap
[4]混淆矩阵的绘制(Plot a confusion matrix)(看它的参考资料)
[5]how-can-i-plot-a-confusion-matrix