Pandas（数据清洗） Pandas（数据清洗）

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这工作会占到分析师时间的80%或更多。
pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规整为想要的格式。
处理缺失数据检测缺失数据

文章图片
检测在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。当进行数据清洗以进行分析时，好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。
Python内置的None值在对象数组中也可以作为NA：

文章图片
None 滤除缺失数据

文章图片
滤除缺失 DataFrame对象，dropna默认丢弃任何含有缺失值的行

文章图片
丢弃含有缺失值的行传入how=‘all’将只丢弃全为NA的行

文章图片
丢弃全为NA的行将特殊值置为NA之后进行相关操作

文章图片
根据非NA的个数决定是否删除填充缺失数据 fillna方法是主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值。

文章图片
常数替换通过一个字典调用fillna，就可以实现对不同的列填充不同的值。

文章图片
字典参数，实现分列填值 fillna默认会返回新对象，但也可以对现有对象进行就地修改。

文章图片
默认返回对象，也可以就地修改对reindexing有效的那些插值方法也可用于fillna

文章图片
插值方法传入Series的平均值或中位数

文章图片
传入平均值数据转换移除重复数据

文章图片
重复数据 DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行

文章图片
判断是否是重复行 drop_duplicates方法，它会返回一个DataFrame，重复的数组会标为False

文章图片
返回无重复行的数组只希望根据k1列过滤重复项

文章图片
指定列去重 duplicated和drop_duplicates默认保留的是第一个出现的值组合。传入keep=‘last’则保留最后一个

文章图片
指定多列去重并选择保留值利用函数或映射进行数据转换根据数组、Series或DataFrame列中的值来实现转换工作

文章图片
数据准备添加一列表示该肉类食物来源的动物类型。我们先编写一个不同肉类到动物的映射

文章图片
映射使用Series的str.lower方法，将各个值转换为小写

文章图片
完成映射也可以传入一个能够完成全部这些工作的函数

文章图片
一个函数搞定替换值

文章图片
数据准备 -999这个值可能是一个表示缺失数据的标记值。要将其替换为pandas能够理解的NA值

文章图片
替换缺失数据一次性替换多个值

文章图片
替换多个缺失数据 【Pandas（数据清洗）】让每个值有不同的替换值，可以传递一个替换列表

文章图片
对应替换多个缺失数据

Pandas（数据清洗）

推荐阅读

治疗高血压|最新研究：肠道健康竟然与高血压、抑郁症有关？

追风酒怎么样为什么追风酒这么便宜

尼康四代大钢炮怎么样尼康四代大钢炮

D600刷机教程

日立立式空调过滤网灯闪烁是什么原因，日立空调滤网灯亮如何消除 ,一定有你不知道的

甄程11.4工作总结

西门子HB557GES0W烤箱不加热维修多少钱

油炸过的油还能用吗

银行卡挂失补办还是原来的卡号吗

vivo手机一共有几种类型的呢？

教你WIN10系统鼠标光标怎样会消失系统鼠标光标消失的处理操作步骤

牛肉羹面的制作方法牛肉羹面怎么做

出现威能锅炉显示大写c怎么办,故障原因说明与3种解决方法

小米手机能接收短信但是发不出去手机能接收短信但是发不出去

黄酒炖蛋这样做简单好吃黄酒炖蛋这样做简单好吃视频

redis为什么是16384 redis为什么这么快

对自己的女人好，是一个男人得修养《2》

原发性高血压|防控高血压三部曲：知晓、治疗、达标

家里进蝙蝠是什么预兆

1u等于多少mm,1u单位换算