官方文档 。
1 df=pd.DataFrame(pd.read_csv(‘name.csv’,header=1))
2 df=pd.DataFrame(pd.read_excel(‘name.xlsx’))
创建数据表
另一种方法是通过直接写入数据来生成数据表,excel 中直接在单元格中输入数据就可以,python 中通过下面的代码来实现 。生成数据表的函数是 pandas 库中的 DateFrame 函数,数据表一共有 6 行数据,每行有 6 个字段 。在数据中我们特意设置了一些 NA 值和有问题的字段,例如包含空格等 。后面将在数据清洗步骤进行处理 。后面我们将统一以 DataFrame 的简称 df 来命名数据表 。
1 df = pd.DataFrame({‘id’:[1001,1002,1003,1004,1005,1006],
2 ‘date’:pd.date_range(‘20130102’, periods=6),
3 ‘city’:['Beijing ', ‘SH’, ’ guangzhou ', ‘Shenzhen’, ‘shanghai’, 'BEIJING '],
4 ‘age’:[23,44,54,32,34,32],
5 ‘category’:[‘100-A’,‘100-B’,‘110-A’,‘110-C’,‘210-A’,‘130-F’],
6 ‘price’:[1200,np.nan,2133,5433,np.nan,4432]},
7 columns =[‘id’,‘date’,‘city’,‘category’,‘age’,‘price’])
这是刚刚创建的数据表,我们没有设置索引列,price 字段中包含有 NA 值,city 字段中还包含了一些脏数据 。
数据表检查
python 中处理的数据量通常会比较大,所以就需要我们对数据表进行检查 。比如我们之前的文章中介绍的纽约出租车数据和 Citibike 的骑行数据,数据量都在千万级,我们无法一目了然的了解数据表的整体情况,必须要通过一些方法来获得数据表的关键信息 。数据表检查的另一个目的是了解数据的概况,例如整个数据表的大小,所占空间,数据格式,是否有空值和重复项和具体的数据内容 。为后面的清洗和预处理做好准备 。
数据维度(行列)
Excel 中可以通过 CTRL 向下的光标键,和 CTRL 向右的光标键来查看行号和列号 。Python 中使用 shape 函数来查看数据表的维度,也就是行数和列数 , 函数返回的结果(6,6)表示数据表有 6 行 , 6 列 。下面是具体的代码 。
1 #查看数据表的维度
2 df.shape
3 (6, 6)
数据表信息
使用 info 函数查看数据表的整体信息,这里返回的信息比较多,包括数据维度,列名称,数据格式和所占空间等信息 。
1 #数据表信息
2 df.info()
4 class ‘pandas.core.frame.DataFrame’
5 RangeIndex: 6 entries, 0 to 5
6 Data columns (total 6 columns):
7 id 6 non-null int64
8 date 6 non-null datetime64[ns]
9 city 6 non-null object
10 category 6 non-null object
11 age 6 non-null int64
12 price 4 non-null float64
13 dtypes: datetime64ns, float64(1), int64(2), object(2)
14 memory usage: 368.0 bytes
查看数据格式
Excel 中通过选中单元格并查看开始菜单中的数值类型来判断数据的格式 。Python 中使用 dtypes 函数来返回数据格式 。
Dtypes 是一个查看数据格式的函数,可以一次性查看数据表中所有数据的格式,也可以指定一列来单独查看 。
1#查看数据表各列格式
2df.dtypes
3
4id int64
5date datetime64[ns]
6city object
7category object
8age int64
9price float64
10dtype: object
11
12#查看单列格式
13df[‘B’].dtype
14
15dtype(‘int64’)
查看空值
Excel 中查看空值的方法是使用“定位条件”功能对数据表中的空值进行定位 。“定位条件”在“开始”目录下的“查找和选择”目录中 。
Isnull 是 Python 中检验空值的函数 , 返回的结果是逻辑值,包含空值返回 True,不包含则返回 False 。可以对整个数据表进行检查,也可以单独对某一列进行空值检查 。
推荐阅读
- 窗外飘雪直播视频素材,窗外飘雪的诗句
- 公众号怎么添加名师,公众号管理员怎么添加
- 视频号怎么制作全屏,视频号怎么制作全屏壁纸
- 蟑螂会有什么毒害吗视频,蟑螂有毒?
- python查看包函数 python如何查看包的用法
- 66kv电缆gis终端头,66kv电缆终端头制作
- 收纳师傅角色扮演游戏,收纳师父
- 快手怎么横屏看直播,快手如何设置横屏直播
- go语言len转文本 go语言文档