利用Python|利用Python Pandas进行数据预处理-数据清洗利用PythonPandas进行数据预处理

数据缺失

数据缺失在大部分数据分析应用中都很常见，Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据，他只是一个便于被检测出来的数据而已。

文章图片
Python内置的None值也会被当作NA处理

文章图片
处理NA的方法有四种：dropna,fillna,isnull,notnull

is(not)null，这一对方法对对象做出元素级的应用，然后返回一个布尔型数组，一般可用于布尔型索引。
dropna，对于一个Series，dropna返回一个仅含非空数据和索引值的Series。
问题在于DataFrame的处理方式，因为一旦drop的话，至少要丢掉一行（列）。这里解决方法与前面类似，还是通过一个额外的参数：dropna(axis=0,how=’any’,thresh=None)，how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型，eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
fillna,fillna(value=https://www.it610.com/article/None,method=None,axis=0)中的value除了基本类型外，还可以使用字典，这样可以实现对不同列填充不同的值。
【利用Python|利用Python Pandas进行数据预处理-数据清洗】

文章图片
另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据，可以用thresh参数实现此目的：

文章图片
不想滤除缺失的数据，而是通过其他方式填补“空洞”，fillna是最主要的函数。

通过一个常数调用fillna就会将缺失值替换为那个常数值：

文章图片
若是通过一个字典调用fillna，就可以实现对不同列填充不同的值。

文章图片
可以利用fillna实现许多别的功能，比如可以传入Series的平均值或中位数：

文章图片

检测和过滤异常值

异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组：

文章图片

文章图片
DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行。

文章图片
与此相关的还有一个drop_duplicated方法，它用于返回一个移除了重复行的DataFrame：

文章图片
上面的两个方法会默认判断全部列，也可以指定部分列进行重复项判断，假设还有一列值，而只希望根据k1列过滤重复项。duplicates和drop_duplicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个

文章图片

利用Python|利用Python Pandas进行数据预处理-数据清洗

推荐阅读

家庭教育的重要性有哪些家庭教育的重要性介绍

steam错误代码-7解决方法

赵丽颖和冯绍峰为什么离婚？

mongodb中文网 mongodb搜索中文

微博怎么上广场

入户地垫丝圈还是皮革好

金立手机儿童模式怎么退出

拳皇三神技和三神器各指的是什么

苍蝇在腊肉上呆后会产生蛆吗

做自媒体拍摄视频怎样能做的比较连贯？

怎样理解哲学典籍《道德经》中的“挫其锐,解其纷；和其光,同其尘”？

峰米r1|激光时代全面到来峰米科技发布家用激光投影新品

新车装潢都该装什么新车装饰哪些是必须的

前锋热水器报错-前锋燃气热水器故障_6

尼康18—55mm镜头拍什么尼康18-55镜头够不够用

详解1500打印机清零步骤 1500打印机清零方法

京东购买血氧仪流程步骤图解血氧仪怎么操作

2020最新互砍微信群免费海骊名字打分111分

三伏天晒背的好处

曾国潘家书对诸第的期望是什么