General|异常值outlier剔除方法

当遇到一组数据中需要剔除一下有明显异常的值,如[14.1 , 15.3, 13.8 ,14.0, 15.2, 15.7, 100.5, 13.9, 14.0, 16.0]对于这一组数据中很明显100.5数据值过大,需要将其剔除。
异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。
遇到这一类问题常用的方法有:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。
1)拉依达准则法(3δ准则):简单,无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数<=10次时,该准则失效。如果实验数据值的总体x是服从正态分布的,则异常值(outlier)的判别与剔除(rejection)式中,μ与σ分别表示正态总体的数学期望和标准差。此时,在实验数据值中出现大于μ+3σ或小于μ—3σ数据值的概率是很小的。因此,根据上式对于大于μ+3σ或小于μ—3σ的实验数据值作为异常值,予以剔除。
General|异常值outlier剔除方法
文章图片


2)中值剔除法:先对一组数据进行排序后取中值middle_value,对于这一中值适当扩大或者缩小,如保留0.8middle_value与1.2middle_value之间的值。这一方法适用于剔除大众数据变化不大,小部分差异非常大的数据。
【General|异常值outlier剔除方法】

    推荐阅读