【算法岗面试知识点】模型评估(混淆矩阵,准确率,精准率,召回率,ROC,AUC)

【【算法岗面试知识点】模型评估(混淆矩阵,准确率,精准率,召回率,ROC,AUC)】1. 混淆矩阵

混淆矩阵
真实类别1 真实类别0
预测类别1 TP(True Positive)真阳
FP(False Positive) 伪阳
预测类别0 FN(False Negative)伪阴 TN(True Negative)真阴
2. 各种率
  • 准确率:Accuracy = (TP+TN)/(TP+FP+FN+TN)
  • 精准率:Precision = TP/(TP+FP)#预测为正样本,有多少是真实的正样本
  • 召回率:Recall = TP/(TP+FN)#真实正样本中,有多少正样本预测对了
3. ROC与AUC
  • 真阳率:TPRate = TP/(TP+FN)
  • 伪阳率:FPRate = FP/(FP+TN)
ROC曲线的横轴是FPRate,纵轴是TPRate;AUC是ROC曲线下的面积。
横轴:FPR越大,预测正类中实际负类越多
纵轴:TPR越大,预测正类中国实际正类越多
  • ROC的曲线意义:
(1)ROC曲线能够很容易查出任何阈值对学习器的泛化性能影响
(2)有助于选择最佳的阈值,ROC曲线越靠近左上角,模型的准确率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其中假正例和假负例总数最少。
(3)可以对不同学习器比较性能,将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优势,靠近左上角的ROC曲线所代表的的学习器准确性最高。
  • AUC面积的由来:
如果两条ROC曲线没有相交,我们可以根据哪条曲线最靠近左上角代表的学习性能最好来判断。但实际任务中,情况很复杂,如果两条ROC曲线发生了交叉,则很难判断,所以引入AUC面积。
  • AUC面积的意义:
    • AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率。
    • 具体来说,AUC就是从所有正样本中随机选择一个样本,从所有负样本中随机选择一个样本,然后根据你的学习器对两个随机样本进行预测,把正样本预测为正例的概率p1,把负样本预测为正例的概率p2,p1>p2的概率就等于AUC。所以AUC反映的是分类器对样本的排序能力。
  • 为什么使用Roc和Auc评价分类器
既然已经这么多标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。
  • 为啥AUC对正负样本比例不敏感
主要是:AUC可以看做随机从正负样本中选取一对正负样本,其中正样本的得分大于负样本的概率




    推荐阅读