R小姐(数据探索之数据质量分析)
广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。
如此军中尽是热血男儿,便攻无不克,战无不胜。
数据质量分析中的缺失值便是如此,或删除、或替换、或插补。
1
缺失值分类
统计学中将缺失数据分为三类:
1.完全随机缺失
某变量的缺失数据与其他任何观测或未观测变量都不相关。
【R小姐(数据探索之数据质量分析)】2.随机缺失
某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。
3.非随机缺失
不属于上述两种情况的数据便为非随机缺失。
2
总览缺失值
#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')
#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))
结果:
sum(is.na(sleep))[1] 38
所有缺失值占的比例
mean(is.na(sleep))[1] 0.06129032
以行为单位,不完整样本的个数
sum(!complete.cases(sleep))[1] 20
不完整样本的比例
mean(!complete.cases(sleep))[1] 0.3225806
3
列表显示缺失值
md.pattern(sleep)
真的是一行代码
文章图片
image 4
图表显示缺失值
#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))
文章图片
image
#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))
文章图片
image 识别缺失值的方法便是如此,下期介绍处理缺失值的方法。
下期再见。
你可能还想看
- R小姐:绘图总结 + 下一阶段计划
- 古同:我的大学生活之摄影篇
- 免费图片网站资源
- P公子、R小姐实战:爬取言情小说并做词云分析
文章图片
image
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- 使用协程爬取网页,计算网页数据大小
- 读书笔记:博登海默法理学|读书笔记:博登海默法理学 —— 正义的探索(1)
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)
- Jsr303做前端数据校验
- 探索免费开源服务器tomcat的魅力
- Spark|Spark 数据倾斜及其解决方案
- 数据库设计与优化
- 惠子小姐的花期很短香味很长