scikit-learn|scikit-learn 多分类混淆矩阵 scikit-learn多分类混淆矩阵

注：有些markdown语法没渲染出来，可以简书查看：scikit-learn 多分类混淆矩阵
前面
sklearn.metrics.multilabel_confusion_matrix 是 scikit-learn 0.21 新增的一个函数。看名字可知道是用来计算多标签的混淆矩阵的。不过也可以用它来计算多分类的混淆矩阵。MCM将多分类数据转化为2分类问题，采用one-vs-rest策略，即某一类为正样本，其余类别为负样本。每一类都作为正样本，计算混淆矩阵。按标签的顺序返回所有。
MCM 返回的每一个二分类混淆矩阵中，TN 在 [0, 0] ，FN 在 [1, 0] , TP 在[1,1], FP 在 [0, 1] , 即
| TN | FP |
|--|--|
| FN | TP |
官方例子

## 如果导入报错，检查一下 sk-learn version >= 0.21 >>> from sklearn.metrics import multilabel_confusion_matrix >>> y_true = ["cat", "ant", "cat", "cat", "ant", "bird"] >>> y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"] >>> mcm = multilabel_confusion_matrix(y_true, y_pred, ...labels=["ant", "bird", "cat"]) >>> mcm array([[[3, 1], [0, 2]], [[5, 0], [1, 0]], [[2, 1], [1, 2]]])

以第一个类别 ‘ant’ 为例，预测对的有2个，它的负样本，'bird' 和 'cat' 预测对的有3个（‘bird’ 预测成 ‘cat’，也算对的，因为它们是一类，都是负样本。）负样本预测成正样本的有一个。
评估指标
每一类的TP, FP等可以提取通过：

>>> tp = mcm[:, 1, 1] >>> tn = mcm[:, 0, 0] >>> fn = mcm[:, 1, 0] >>> tp, tn (array([2, 0, 2], dtype=int64), array([3, 5, 2], dtype=int64))

这里有几个常用的评估指标：

敏感性（sensitivity）也叫召回率（recall），也叫查全率。这个指标是看一下正样本中预测对的占总正样本的比例。也可以说成预测器对正样本的敏感性，越大，说明预测器对正样本越敏感。
$$ sn=\frac{tp}{tp+fn} $$
特异性（specificity）这个和敏感性相反，敏感性算正样本的，而特异性算的是负样本的。换句话说，它是指负样本的敏感性。毕竟你的预测器，不能仅仅是对正样本敏感，负样本，就随意了。所以需要评估一下预测器对负样本的敏感性。
$$sp=\frac{tn}{tn+fp}$$
查准率（precision), 这是看你预测为正样本中预测正确的占总的预测为正样本的比例。
$$precision=\frac{tp}{tp+fp}$$
f1值，一般而言，查全率和查准率是不能同时都很大的。举个例子：你现在有100个A和100个B，你用现在训练好的模型去预测A，预测到有80个A。但是这其中75个是正确的A。也就是说查准率是$75/80=0.9375%$，查全率是$75/100=0.75$。你觉得查全率太低，你继续改进模型。又进行了一次预测，这次预测到了95个A。其中预测正确的有85个，即查全率：$85/100=0.85$,增加了0.1，但是查准率：$85/95=0.895$下降了。你想查得越多，就更容易产生误差。为了照顾两头，使得两个指标都有不错得值，就有了f1值：
$$F1 = \frac{2 * (precision * recall)}{ (precision + recall)}$$

很容易通过代码获得多分类中每一类的评价指标值：