python数据清洗函数 python做数据清洗( 二 )


data1=pd.read_excel('C:\Users\xn084037\Desktop\副本三代核心系统入账金额.xlsx')#将两个表格输出到一个excel文件里面
writer=pd.ExcelWriter('D:新表.xlsx')
data1.to_excel(writer,sheet_name='sheet1')
data2.to_excel(writer,sheet_name='sheet2') #必须运行
writer.save()#不然不能输出到本地writer.save()
Python第19课:数据清洗之去错、去空、去重Python第19课:数据清洗之去错、去空、去重
时间 2019-02-01 下午3:30
主讲 刘培富
地点 四楼电教室
数据清洗是数据治理的关键环节,是指对获取的原始数据(也称“脏数据”)进行审查、校验、加工的过程,目的在于删除重复信息、纠正错误信息,保持数据一致性 。
一般来说,数据清洗,主要是对数据进行去错、去空、去重处理 。
针对一张包含姓名、身份证号码、车牌号码的数据表 , 建立纠错规则如下:
1.车牌号既不包含汉字赣,且不包含汉字饶 。
2.身份证号码的年份既不等于19也不等于20,身份证号码的月份大于12,身份证号码的日期大于31 。
3.身份证号码位数不等于18 。
4.姓名的长度小于等于1 。
二、去空
对于关键性数据 , 不允许为空,对于这类数据,要查询是否存在空值 。
三、去重
在一张表中,有的数据列允许重复,有的数据列则不允许重复 。例如,对于一张车主信息表来说,姓名、身份证号可以重复 , 因为存在一人登记多辆车的情形,这种重复,不能认为是错误 。但是,车牌号则不允许重复 , 否则就存在业务逻辑的错误 。所以,针对车牌号数据列,要进行去重 。
通过以下SQL语句,可以列出重复的数据:
综上,数据清洗,既要懂技术 , 更要懂业务,否则无法正确制定清洗规则,导致数据清洗流于形式,达不到清洗的效果 。
python数据清洗excelpython清洗excel的数据还是很简单的
这里就列举例子说一下
这是原始数据,这里要处理的是地区和薪水两个字段 。
主要把薪资处理成以千/月为单位 。保留城市 。
处理后的数据:
python数据清洗函数的介绍就聊到这里吧 , 感谢你花时间阅读本站内容,更多关于python做数据清洗、python数据清洗函数的信息别忘了在本站进行查找喔 。

推荐阅读