pandas数据清洗

读取csv文件

df =pd.read_csv(self,csvdir,sheet_name=0)

所有空值替换 df=df.fillna("此处未填写")
特殊字符替换
df["产品系列"].replace(regex={r"\(.+":"",r"(.+":"",r"\[.+":""},inplace = True) df["产品系列"].replace(regex={r"/":""},inplace = True)

分割日期获取月份
df["维修月份"]=df["制单日期"].str.split(r"/",expand=True)[1]

用正则+字典替换
df["故障"].replace(regex=dict2,inplace = True)

把不常见的分类统一替换为其他
df["故障分类"]=np.where(df.故障分类.isin(faultcategory),df["故障分类"],"其他故障")

删除list包含的列 【pandas数据清洗】df.drop(droplist,axis=1,inplace = True)
客户数量小于等于5
df["客户分类1"]=np.where(df.客户来源计数.isin(range(5)),"终端用户",df["客户来源计数"])

    推荐阅读