Python|Python 八个数据清洗实例代码详解

数据清洗小工具箱 在下面的代码片段中,数据清洗代码被封装在了一些函数中,代码的目的十分直观。你可以直接使用这些代码,无需将它们嵌入到需要进行少量参数修改的函数中。
1. 删除多列数据

def drop_multiple_col(col_names_list, df): '''AIM-> Drop multiple columns based on their column names INPUT-> List of column names, dfOUTPUT -> updated df with dropped columns ------'''df.drop(col_names_list, axis=1, inplace=True)return df

2. 转换 Dtypes
def change_dtypes(col_int, col_float, df): '''AIM-> Changing dtypes to save memoryINPUT-> List of column names (int, float), dfOUTPUT -> updated df with smaller memory------'''df[col_int] = df[col_int].astype('int32')df[col_float] = df[col_float].astype('float32')

当我们面对更大的数据集时,我们需要对「dtypes」进行转换,从而节省内存。如果你有兴趣学习如何使用「Pandas」来处理大数据,我强烈推荐你阅读「Why and How to Use Pandas with Large Data」这篇文章(。
3. 将分类变量转换为数值变量
def convert_cat2num(df):# Convert categorical variable to numerical variablenum_encode = {'col_1' : {'YES':1, 'NO':0},'col_2': {'WON':1, 'LOSE':0, 'DRAW':0}}df.replace(num_encode, inplace=True)

4. 检查缺失的数据
def check_missing_data(df):# check for any missing data in the df (display in descending order)return df.isnull().sum().sort_values(ascending=False)

5. 删除列中的字符串
def remove_col_str(df):# remove a portion of string in a dataframe column - col_1df['col_1'].replace('\n', '', regex=True, inplace=True)# remove all the characters after &# (including &#) for column - col_1df['col_1'].replace(' &#.*', '', regex=True, inplace=True)

有时你可能会看到一行新的字符,或在字符串列中看到一些奇怪的符号。你可以很容易地使用 df[‘col_1’].replace 来处理该问题,其中「col_1」是数据帧 df 中的一列。
6. 删除列中的空格
def remove_col_white_space(df):# remove white space at the beginning of string df[col] = df[col].str.lstrip()

7. 将两列字符串数据(在一定条件下)拼接起来
def concat_col_str_condition(df):# concat 2 columns with strings if the last 3 letters of the first column are 'pil'mask = df['col_1'].str.endswith('pil', na=False)col_new = df[mask]['col_1'] + df[mask]['col_2']col_new.replace('pil', ' ', regex=True, inplace=True)# replace the 'pil' with emtpy space

8. 转换时间戳(从字符串类型转换为日期「DateTime」格式)
def convert_str_datetime(df): '''AIM-> Convert datetime(String) to datetime(format we want)INPUT-> dfOUTPUT -> updated df with new datetime format ------'''df.insert(loc=2, column='timestamp', value=, format='%Y-%m-%d %H:%M:%S.%f'))

【Python|Python 八个数据清洗实例代码详解】到此这篇关于Python 八个数据清洗实例代码详解的文章就介绍到这了,更多相关Python 数据清洗内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
