机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域评价指标一般有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。同时深度学习目标检测领域的评价指标更注重平均精确率(Mean Average Precision),召回率(Recall),以及速度(rate)。在介绍上面三个参数之前,首先介绍混淆矩阵。
~ | Positive | Negative |
---|---|---|
True | True Positive (TP) | True Negative(TN) |
False | False Positive (FP) | False Negative (FN) |
True Positive (TP) | 将正类正确的预测为正类数. (真正) |
---|---|
True Negative(TN) | 将负类正确的预测为负类数.(真负) |
False Positive (FP) | 将负类错误的预测为正类数(误报) |
False Negative (FN) | 将正类错误的预测为负类数(漏报) |
IOU(Precision) 在目标检测中IOU的定义为:
文章图片
如图所示蓝色的框是:Ground Truth 、黄色的框是:Detection Result 、绿色的框是:Detection Result ? Ground Truth 即Area of overlap、红色的框是:Detection Result ? Ground Truth即Area of union
文章图片
对应到混淆矩阵中:
True Positive (TP) | 绿色的框 |
---|---|
True Negative(TN) | 红框之外的图像部分 |
False Positive (FP) | 黄色的框-绿色的框 |
False Negative (FN) | 蓝色的框-绿色的框 |
文章图片
准确率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分类的A,B两样本数 与被分类的总样本数 之比。在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷,较少使用。对应到上图中就是当蓝色框人太小的时候,背景太大,即使预测的黄色框和蓝色框不重合的时候,由于红框之外的图像部分非常大,导致准确度依然很高:
文章图片
精确率(Precision)
文章图片
精确率可表示:假设要检测A类目标,对于给定的测试数据集,分类器正确分类为A类的样本数TP与被分为A类的样本数TP+FP之比。对应上图就是
文章图片
召回率(Recall)
文章图片
召回率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分为A类的样本数TP占所有应该被检测为A类的样本数的比例。对应上图就是:
文章图片
F-Measure
文章图片
文章图片
Measure可表示:精确率和召回率的调和均值,相当于精确率和召回率的综合评价指标,计算方法如上式。
MAP 在多分类问题中,上述的精确度定义不足以描述多分类器的性能,于是又引入了平均精确率(Mean Average Precision):
文章图片
其中Q是样本的种类,P是每种样本的检测精确度,上式表示计算所有样本种类的精确度的均值。
推荐阅读
- paddle|动手从头实现LSTM
- 人工智能|干货!人体姿态估计与运动预测
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- 读书笔记|《白话大数据和机器学习》学习笔记1
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- Python机器学习基础与进阶|Python机器学习--集成学习算法--XGBoost算法
- 深度学习|深度学习笔记总结
- 机器学习|机器学习Sklearn学习总结
- 机器学习|线性回归原理与python实现