机器学习-分类问题评估方法数据挖掘和机器学习

本文目的机器学习模型中，最常见的一种问题是分类问题。对于分类问题实现之后，如果对算法的性能和正确性做一番评估，这里我们有必要总结下。
常用的衡量指标 【机器学习-分类问题评估方法】对于分类问题的结果评估，主要评估手段见下面表格

指标	描述	Scikit-learn函数
Precision	精准度	from sklearn.metrics import precision_score
Recall	召回率	from sklearn.metrics import recall_score
F1	F1值	from sklearn.metrics import f1_score
Confusion Matrix	混淆矩阵	from sklearn.metrics import confusion_matrix
ROC	ROC曲线	from sklearn.metrics import roc
AUC	ROC曲线下的面积	from sklearn.metrics import auc

ROC和AUC定义 ROC全称是“受试者工作特征”（Receiver Operating Characteristic）。ROC曲线的面积就是AUC（Area Under the Curve）。AUC用于衡量“二分类问题”机器学习算法性能（泛化能力）。
计算ROC需要知道的关键概念首先，解释几个二分类问题中常用的概念：True Positive(TP), False Positive(FP), True Negative(TN), False Negative(FN)。它们是根据真实类别与预测类别的组合来区分的。
假设有一批test样本，这些样本只有两种类别：正例和反例。机器学习算法预测类别如下图（左半部分预测类别为正例，右半部分预测类别为反例），而样本中真实的正例类别在上半部分，下半部分为真实的反例。
预测值为正例，记为P（Positive）
预测值为反例，记为N（Negative）
预测值与真实值相同，记为T（True）
预测值与真实值相反，记为F（False）
TP：预测类别是P（正例），真实类别也是P
FP：预测类别是P，真实类别是N（反例）
TN：预测类别是N，真实类别也是N
FN：预测类别是N，真实类别是P
样本中的真实正例类别总数即TP+FN。TPR即True Positive Rate，TPR = TP/(TP+FN)。
同理，样本中的真实反例类别总数为FP+TN。FPR即False Positive Rate，FPR=FP/(TN+FP)。
还有一个概念叫”截断点”。机器学习算法对test样本进行预测后，可以输出各test样本对某个类别的相似度概率。比如t1是P类别的概率为0.3，一般我们认为概率低于0.5，t1就属于类别N。这里的0.5，就是”截断点”。
总结一下，对于计算ROC，最重要的三个概念就是TPR, FPR, 截断点。
截断点取不同的值，TPR和FPR的计算结果也不同。将截断点不同取值下对应的TPR和FPR结果画于二维坐标系中得到的曲线，就是ROC曲线。横轴用FPR表示。
心得用下面描述表示TPR和FPR的计算过程，更容易记住
TPR：真实的正例中，被预测正确的比例
FPR：真实的反例中，被预测正确的比例
最理想的分类器，就是对样本分类完全正确，即FP=0，FN=0。所以理想分类器TPR=1，FPR=0。
参考 https://blog.csdn.net/shenxiaoming77/article/details/72627882