R小姐(数据探索之数据质量分析)

广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。
如此军中尽是热血男儿,便攻无不克,战无不胜。
数据质量分析中的缺失值便是如此,或删除、或替换、或插补。
1
缺失值分类
统计学中将缺失数据分为三类:
1.完全随机缺失
某变量的缺失数据与其他任何观测或未观测变量都不相关。
【R小姐(数据探索之数据质量分析)】2.随机缺失
某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。
3.非随机缺失

不属于上述两种情况的数据便为非随机缺失。

2
总览缺失值
#与缺失值处理相关的两个包 install.packages('VIM') install.packages('mice') library('VIM') library('mice')

#所有缺失值的个数 sum(is.na(sleep)) #所有缺失值占的比例 mean(is.na(sleep)) #以行为单位,不完整样本的个数 sum(!complete.cases(sleep)) #不完整样本的比例 mean(!complete.cases(sleep))

结果:
sum(is.na(sleep))
[1] 38
所有缺失值占的比例
mean(is.na(sleep))
[1] 0.06129032
以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
[1] 20
不完整样本的比例
mean(!complete.cases(sleep))
[1] 0.3225806
3
列表显示缺失值
md.pattern(sleep) 真的是一行代码
R小姐(数据探索之数据质量分析)
文章图片
image 4
图表显示缺失值
#计数列图 aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))

R小姐(数据探索之数据质量分析)
文章图片
image
#显示缺失值的比例 aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))

R小姐(数据探索之数据质量分析)
文章图片
image 识别缺失值的方法便是如此,下期介绍处理缺失值的方法。
下期再见。
你可能还想看
  • R小姐:绘图总结 + 下一阶段计划
  • 古同:我的大学生活之摄影篇
  • 免费图片网站资源
  • P公子、R小姐实战:爬取言情小说并做词云分析
等你很久啦,长按加入古同社区
R小姐(数据探索之数据质量分析)
文章图片
image

    推荐阅读