Python|Python pandas读取CSV文件的注意事项（适合新手） Pythonpandas读取CSV文件的注意事

前言
示例文件
文件编码
空值
日期错误
函数映射

方法1：直接使用labmda表达式
方法二：使用自定义函数
方法三：使用数值字典映射

总结

前言
本文是给使用pandas的新手而写，主要列出一些常见的问题，根据笔者所踩过的坑，进行归纳总结，希望对读者有所帮助。

示例文件
将以下内容保存为文件 people.csv。

id,姓名,性别,出生日期,出生地,职业,爱好
1,张小三,m,1992-10-03,北京,工程师,足球
2,李云义,m,1995-02-12,上海,程序员,读书下棋
3,周娟,女,1998-03-25,合肥,护士,音乐，跑步
4,赵盈盈,Female,2001-6-32,,学生,画画
5,郑强强,男,1991-03-05,南京(nanjing),律师,历史-政治

如果一切正常的话，在Jupyter Notebook 中应该显示以下内容：

文章图片

文件编码
文件编码格式是最容易出错的问题之一。如果编码格式不正确，就会完全读取不出文件内容，出现类似于以下的错误，让人完全不知所措：

---------------------------------------------------------------------------
UnicodeDecodeErrorTraceback (most recent call last)
in
----> 1 pd.read_csv('people.csv', encoding='gb2312')
C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
683)
684
--> 685return _read(filepath_or_buffer, kwds)
686
687parser_f.__name__ = name
C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
455
456# Create the parser.
--> 457parser = TextFileReader(fp_or_buf, **kwds)
458
459if chunksize or iterator:
C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, f, engine, **kwds)
893self.options["has_index_names"] = kwds["has_index_names"]
894
--> 895self._make_engine(self.engine)
896
897def close(self):
C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _make_engine(self, engine)
1133def _make_engine(self, engine="c"):
1134if engine == "c":
-> 1135self._engine = CParserWrapper(self.f, **self.options)
1136else:
1137if engine == "python":
C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, src, **kwds)
1915kwds["usecols"] = self.usecols
1916
-> 1917self._reader = parsers.TextReader(src, **kwds)
1918self.unnamed_cols = self._reader.unnamed_cols
1919
pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader.__cinit__()
pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._get_header()
UnicodeDecodeError: 'gb2312' codec can't decode byte 0x93 in position 2: illegal multibyte sequence

目前对于中文而言，最常使用的有 utf-8 和 gb2312 两种格式，只需要指定正确的编码。在不知道编码的情况下，只需要尝试两次即可。padas默认的文件编码格式是 utf-8，所以如果出现以上错误，只需使用 encoding=gb2312 再尝试一下即可，如 pd.read_csv(file, encoding='gb2312')。

空值
空值是csv中也非常常见，比如以下内容：

import pandas as pddf = pd.read_csv('people.csv')v1=df['出生地'][3]print(v1, type(v1))

输出为：

nan

由此可见，空值也是有数据类型的，为 float 类型。
如何判断空值有两种方法，可以使用 math.isnan(x) 也可以使用 isinstance(float)。我们知道，DateFrame对象是包括Series对象，而在一个Series对象中，所有的数据类型默认是一样的，所以如果其数据类型推断为字符串(str)，那么直接使用 math.isnan(x) 则会报错 TypeError: must be real number, not str 错误，即必需为实数，不能是字符串。所以，这时我们还需要使用 isinstance(x, flaot) 方法。
具体请看这个示例：

df.出生地=df.出生地.map(lambda x: '其他' if isinstance(x, float) else x)df

文章图片

日期错误
出生日期中，有的数据错误，如赵盈盈的出生日期是6月32号，所以报错了。对于这样类似的错误，我们可以使用函数判断的方式进行处理，具体如下。
首先，编写 isDate 函数用于判断日期是否合法。

def isDate(adate):try:sects = adate.split('-')year = int(sects[0])month = int(sects[1])day = int(sects[2])days = [0, 31, 29 if year % 4 == 0 else 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31]return year > 0 and year < 9999 and month > 0 and month <= 12 and day > 0 and day <= days[month]except:return False

然后使用以下代码进行判断：

for id in df.index:if not isDate(df.loc[id, '出生日期']):print(df.loc[id, '出生日期'])df.loc[id, '出生日期'] = '2000-01-01'

输出结果如下，可见错误的日期被修改成了2020年1月1日。

2001-6-32
id姓名性别出生日期出生地职业爱好
01张小三m1992-10-03北京工程师足球
12李云义m1995-02-12上海程序员读书下棋
23周娟女1998-03-25合肥护士音乐，跑步
34赵盈盈Female2000-01-01NaN学生画画
45郑强强男1991-03-05南京(nanjing)律师历史-政治

函数映射

方法1：直接使用labmda表达式

【Python|Python pandas读取CSV文件的注意事项（适合新手）】需要对数据列进行复杂操作的时候，我们可以使用以下函数时行相应的操作。

df=df.fillna('未知')df.爱好=df.爱好.map(lambda x: x.split(' ')[0].split('-')[0].split('，')[0])df

文章图片

方法二：使用自定义函数

在进行映射时，如果操作比较简单，可以使用字典的方式进行数值映射映射(参见下文）。但是如果操作比较复杂，则需要使用函数进行映射。请看这个示例，读取到性别时，内容有 ‘m', ‘M', ‘Female' 等内容，现在需要其全部转换为男或女：

def set_sex(s):if s.lower() == 'm' or s.lower() == 'male':return '男'elif s.lower() == 'female':return '女'return sdf = pd.read_csv('people.csv', converters={'性别': lambda x : set_sex(x)})df