Pandas核心用法


目录

  • Numpy和Pandas
    • Numpy科学计算
    • Pandas数据分析
  • 安装jupyter notebook
  • Numpy语法
    • 创建和基本使用
    • 切片索引
    • 布尔索引
    • 对位运算
    • 矩阵的乘除
    • 其他方法
  • Pandas语法
    • Pandas-Series
    • Pandas-Dataframe
      • 读取文件
    • Pandas数据清洗

Numpy和Pandas
Numpy科学计算 Numpy 是一个专门用于矩阵化运算、科学计算的开源Python
Pandas数据分析 pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能
pandas含有使数据分析工作变得更快更简单的高级数据结构和操 作工具,它是基于Numpy构建的,有很多操作是类似的
安装jupyter notebook
可以查看当前安装了哪些包
Pandas核心用法
文章图片

进行安装
Pandas核心用法
文章图片

直接输入命令台输入 jupyter notebook即可跳转到web界面
创建Python项目
Pandas核心用法
文章图片

Numpy语法
【Pandas核心用法】基本数据结构 ndarray,是一个二维矩阵
创建和基本使用 Pandas核心用法
文章图片

切片索引 Pandas核心用法
文章图片

Pandas核心用法
文章图片

Pandas核心用法
文章图片

布尔索引 Pandas核心用法
文章图片

对位运算 指 ndarray 进行加减乘除运算时,使对应位置的数值进行加减乘除运算
Pandas核心用法
文章图片

矩阵的乘除 Pandas核心用法
文章图片

其他方法 Pandas核心用法
文章图片

Pandas语法
Pandas-Series Series是一种类似于一维数组的对象,由数据(各种NumPy数据 类型)以及与之相关的数据标签(即索引)组成
可以通过字典构建Series对象,Series对象的索引也是可以修改的
Pandas核心用法
文章图片

Pandas-Dataframe DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)
DataFrame既有行索引也有列索引,可以看做由Series组成的字典
Pandas核心用法
文章图片

读取文件 Pandas核心用法
文章图片

Pandas核心用法
文章图片

Pandas核心用法
文章图片

Pandas核心用法
文章图片

Pandas数据清洗 1.加载数据
Pandas核心用法
文章图片

2.处理缺失数据
2.1 添加默认值
Pandas核心用法
文章图片

Pandas核心用法
文章图片

2.2 删除不完整的行
Pandas核心用法
文章图片

Pandas核心用法
文章图片

2.3 改变不完整的列
Pandas核心用法
文章图片

2.4 删除不完整的列
我们可以上面的操作应用到列上。我们仅仅需要在代码上使用 axis=1 参数。这个意思就是操作列而不是行。
(我们已经在行的例子中使用了 axis=0,因为如果我们不传参数 axis,默认是axis=0)
删除一整列为NA的列::data.dropna(axis=1, how='all')
删除任何包含空值的列:data.dropna(axis=1,how='any')
  1. 必要的变换
    人工录入的数据可能都需要进行一些必要的变换,例如:
  • 错别字
  • 英文单词时大小写的不统一
  • 输入了额外的空格
更换字符串
data.loc[4,'color']='Color'
Pandas核心用法
文章图片

转大写
data.movie_title=data.movie_title.str.upper()
Pandas核心用法
文章图片

去掉首尾的空格等等
data.movie_title=data.movie_title.str.strip()
Pandas核心用法
文章图片

重命名列名
data = https://www.it610.com/article/data.rename(columns={'title_year':'年份',
'movie_title':'电影年份'})
Pandas核心用法
文章图片

  1. 保存文件
    data.to_csv('data/cleanfile.csv',index=None,header=None,encoding='utf-8')
    表示不保存索引,不保存标题,编码格式utf8
    Pandas核心用法
    文章图片

    推荐阅读