机器学习|分类效果评价

一个分类器最主要的评测指标就是查准率(正确率)和查全率(召回率)。为了评价二分分类问题的性能,先做以下约定:
a:正例测试文档被正确分类为该类的数量;
b:负例测试文档被错误分类为属于该类的数量;
c:正例测试文档被错误分类为不属于该类的数量;
d:负例测试文档被正确分类为不属于该类的数量;
基于上面四个值,就可以定义下面的一些评价指标:
机器学习|分类效果评价
文章图片

其中,查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率,可以得到新的评价指标F1测试值,也称为综合分类率:
机器学习|分类效果评价
文章图片
【机器学习|分类效果评价】为了综合多个类别的分类情况,评测系统整体性能,经常采用的还有微平均F1(micro-averaging)和宏平均F1(macro-averaging )两种指标。宏平均F1与微平均F1是以两种不同的平均方式求的全局的F1指标。其中宏平均F1的计算方法先对每个类别单独计算F1值,再取这些F1值的算术平均值作为全局指标。而微平均F1的计算方法是先累加计算各个类别的a、b、c、d的值,再由这些值求出F1值。由两种平均F1的计算方式不难看出,宏平均F1平等对待每一个类别,所以它的值主要受到稀有类别的影响,而微平均F1平等考虑文档集中的每一个文档,所以它的值受到常见类别的影响比较大。

    推荐阅读