#yyds干货盘点#数据分析从零开始实战，Pandas读写CSV数据 _从零开始

大鹏一日同风起，扶摇直上九万里。这篇文章主要讲述#yyds干货盘点#数据分析从零开始实战，Pandas读写CSV数据相关的知识，希望能为你提供帮助。
这是我参与11月更文挑战的第14天。
一、写在前面
本系列学习笔记参考书籍：《数据分析实战》托马兹·卓巴斯，会将自己学习本书的笔记分享给大家，同样开成一个系列『数据分析从零开始实战』。
二、知识点概要
1.创建一个虚拟python运行环境，专门用于本系列学习；
2.数据分析常用模块pandas安装
3.利用pandas模块读写CSV格式文件
三、开始动手动脑
1.创建虚拟环境我平时比较喜欢Pycharm，所以本系列打算完全用Pycharm做，Pycharm安装可以直接到官网上下载，使用社区版即可。
【#yyds干货盘点#数据分析从零开始实战，Pandas读写CSV数据】【注】我之前很喜欢Pycharm，现在比较喜欢VS Code，你还可以使用jupyter notebook。
（1）好的正式开始，打开Pycharm，点击File-> New Project,基本配置说明见下图。
特别说明：python里面项目路径里不要出现中文，同时项目名称也不要出现中文，名称尽量能够概括项目内容。

文章图片

（2）创建成功后，我们会在对应目录下面发现多了项目文件和虚拟环境文件。
2.数据分析常用模块Pandas安装（1）零基础教程，首先教大家怎么进入虚拟环境：进入到目录I:\\pyCoding\\Frame\\Data_analysis\\Scripts(我的虚拟环境目录)，按住shift+鼠标右键，打开powershell或者cmd(如果是powershell就先输入cmd)，再输入activate，进入虚拟环境，你会发现在路径前面多了一个括号里面是你的虚拟环境名称，表示你进入了虚拟环境。具体看下面：

PS I:\\pyCoding\\Frame\\Data_analysis\\Scripts> cmd Microsoft Windows [版本 10.0.17134.112] (c) 2018 Microsoft Corporation。保留所有权利。I:\\pyCoding\\Frame\\Data_analysis\\Scripts> activate (Data_analysis) I:\\pyCoding\\Frame\\Data_analysis\\Scripts>

不知道大家有没有觉得很麻烦，我是觉得特别麻烦，每次进入虚拟环境都要先到指定文件路径，然后再输入指令，不符合程序员的风格啊！
【注】之前我是用的virtualenvwrapper进行虚拟环境管理，现在我更喜欢使用pipenv进行虚拟环境管理。
（2）安装pandas模块
使用快捷方式进入虚拟环境后，直接pip指令安装

# cmd下直接操作 C:\\Users\\82055> workonPass a name to activate one of the following virtualenvs: ============================================================================== Data_analysis spiderenvC:\\Users\\82055> workon Data_analysis (Data_analysis) C:\\Users\\82055> pip install pandas

安装结果：

文章图片

安装过程大概1分钟左右，完成后会显示

Installing collected packages: pytz, numpy, six, python-dateutil, pandas Successfully installed numpy-1.15.4 pandas-0.23.4 python-dateutil-2.7.5 pytz-2018.7 six-1.11.0

很明显看出，这个过程不仅安装了pandas包，还安装了numpy，pytz，six，python-dateutil这些附加包，后面我们也会用上。
3.利用pandas模块读写CSV格式文件（1）数据文件下载点击这里下载,本系列按书上来的数据都是这里面的，《数据分析实战》书中源代码也在这个代码仓库中，当然后面我自己也会建一个代码仓库，记录自己的学习过程，大家可以先从这里下载好数据文件。
（2）pandas基本介绍pandas为Python编程语言提供高性能，是基于NumPy 的一种易于使用的数据结构和数据分析工具,pandas为我们提供了高性能的高级数据结构（比如：DataFrame）和高效地操作大型数据集所需的工具，同时提供了大量能使我们快速便捷地处理数据的函数和方法。
(3)利用pandas读取CSV文件读取代码：

# 导入数据处理模块 import pandas as pd import os# 获取当前文件父目录路径 father_path = os.getcwd()# 原始数据文件路径 rpath_csv = father_path+r\\data01\\city_station.csv # 读取数据 csv_read = pd.read_csv(rpath_csv) # 显示数据前10条 print(csv_read.head(10))

运行结果：

文章图片

函数解析：
read_csv(filepath_or_buffer,sep,header,names,skiprows,na_values,encoding,nrows)
按指定格式读取csv文件。
常见参数解析：

filepath_or_buffer:字符串，表示文件路径；
sep: 字符串，指定分割符，默认是’,’;
header:数值，指定第几行作为列名(忽略注解行)，如果没有指定列名，默认header=0; 如果指定了列名header=None;
names: 列表，指定列名，如果文件中不包含header的行，应该显性表示header=None。
skiprows：列表，需要忽略的行数（从0开始），设置的行数将不会进行读取。
na_values：列表，设置需要将值替换成NAN的值，pandas默认NAN为缺省，可以用来处理一些缺省、错误的数值。
encoding：字符串，用于unicode的文本编码格式。例如，" utf-8" 或" gbk" 等文本的编码格式。
nrows：需要读取的行数。

(4)利用pandas写入CSV文件写入CSV文件：

import pandas as pd import os# 获取当前文件父目录路径 father_path = os.getcwd()# 保存数据文件路径 path_csv = father_path+r\\data01\\temp_city.csv # 写入数据（列名+列值） data = https://www.songbingjia.com/android/{"站点名": ["北京北", "北京东", "北京", "北京南", "北京西"], "代号": ["VAP", "BOP", "BJP", "VNP", "BXP"]} # 数据初始化为DataFrame对象 df = pd.DataFrame(data) # 数据写入 df.to_csv(path_csv)

运行结果：