pandas数据清洗
读取csv文件
df =pd.read_csv(self,csvdir,sheet_name=0)
所有空值替换
df=df.fillna("此处未填写")
特殊字符替换
df["产品系列"].replace(regex={r"\(.+":"",r"(.+":"",r"\[.+":""},inplace = True)
df["产品系列"].replace(regex={r"/":""},inplace = True)
分割日期获取月份
df["维修月份"]=df["制单日期"].str.split(r"/",expand=True)[1]
用正则+字典替换
df["故障"].replace(regex=dict2,inplace = True)
把不常见的分类统一替换为其他
df["故障分类"]=np.where(df.故障分类.isin(faultcategory),df["故障分类"],"其他故障")
删除list包含的列 【pandas数据清洗】
df.drop(droplist,axis=1,inplace = True)
客户数量小于等于5
df["客户分类1"]=np.where(df.客户来源计数.isin(range(5)),"终端用户",df["客户来源计数"])
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- 使用协程爬取网页,计算网页数据大小
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)
- Jsr303做前端数据校验
- Spark|Spark 数据倾斜及其解决方案
- 数据库设计与优化
- 爬虫数据处理HTML转义字符
- 数据库总结语句
- MySql数据库备份与恢复