好记性不如烂笔头——关于精确度、召回率、F值、准确率开发语言

【好记性不如烂笔头——关于精确度、召回率、F值、准确率】将数据挖掘中这些评测指标的基本概念做一整理，忘了的时候还可以来查一查。

精确度，有时也叫正确率，是英文中的precision而不是accuracy。表示正确识别为此类的样本数目（TP）/识别为此类的样本总数目（TP+FP）。FP就是那些原本不是此类但被错误的分为此类的样本数目。

召回率，这个名称容易使人把它和召回缺陷产品的比率联想到一起，完全不是一码事。所以另外一种翻译的名称更合适：查全率。表示正确识别为此类的样本数目（TP）/真实情况下的此类的样本数目（TP+FN）。那么真实情况包括哪些呢？一部分自然是正确分类的TP，另一部分就是那些被错误地分到了其他类的样本数目（FN）

所以，公式：
P=TP/(TP+FP)
R=TP/(TP+FN)

还是举个例子吧。网上多数介绍仅用两个分类举例，所以容易把FP和FN错误的当成一个数，其实应该是多个数的和。这里我举个3分类的例子。假定我们有24个样本，真实情况是10个red类，8个yellow类，6个blue类。

用weka做了个例子，假定系统给出的结果如下：
a b c<-- classified as
9 1 0 | a = red
1 7 0 | b = yellow
1 1 4 | c = blue

是这样看的：横向为真实情况，纵向为工具分类结果。即：有11个样本被当作red类。而这11个样本中，有9个确实是red类，还有一个其实是yellew，另一个其实是blue；有9个样本被当作yellow类。这9个样本当中，有7个确实是yellow，还有一个其实是red，另一个其实是blue；有4个样本被当作blue类。而这4个样本也确实是blue。

那么根据前面的公式，可以对red、yellow、blue分别计算正确率和查全率了。

P(red)=9/11R(red)=9/10
P(yellow)=7/9R(yellow)=7/8
P(blue)=4/4R(blue)=4/6

那么我们从直观上感觉一下分类的好坏，正确率虽然很关键，但光有正确率是不够的。比如blue，正确率是100%，但其实只是把2/3的数据挑出来了，还有1/3搞错了。那么更极端的假想一下，如果某一类实际上有10000个样本，最后只分出一个，对是对了。此时正确率还是100%，但我们能认为这个分类结果是可以接受吗？显然不行。所以P值和R同时要比较高才好。于是有了F指标：

F=2*P*R/(P+R)

最后再来说说accuracy，这个通常翻译成准确率。也是一个综合指标：
A=(TP + TN)/(P+N)，表示正确分类的样本数目/所有样本总数目。同样，这个分子的写法也容易让人误认为是两个数的和，其实不止。
对于上面那个例子来说，准确率应该是:
A=(9+7+4)/(10+8+6)

好记性不如烂笔头——关于精确度、召回率、F值、准确率

推荐阅读

绮字五行属什么绮的组词

电线如何选择几方电线选2.5方还是4方

怎么才能把金牛座的男生追到手？

尼康fm2常见问题尼康FM2怎么启动电源

烤鸭架子汤怎么做好吃

qq空间怎么设置仅自己可见

百度网盘Svip如何购买便宜百度网盘vip共享

国际和平日手抄报文字国际宽容日手抄报内容

无症状感染者|广州新疫情传播力强，市民通宵排队打疫苗，专家：10天后可产生保护力

让你的打印机重获新生佳能MG6150废墨清零方法详解

新手开网店怎样开呢网店怎么样

核桃仁冷冻了三年还能吃吗

菲斯曼壁挂炉怎么调水压？

acl会议含金量,acl2023什么时候出结果

三角战略试玩版队友怎么招募三角战略试玩版队友招募方法

世界足球日小孩踢足球简笔画

郑州公租房在等待分房期间居住证换地址有影响吗？

如何正确清洗羽绒服？

iphone13第一次充电注意事项

一花一世界|一花一世界|小说连载