使用Python进行数据分析和可视化

Python是一种用于数据分析的伟大语言,主要是因为以数据为中心的Python包形成了一个奇妙的生态系统。Pandas就是这些包中的一个,它使导入和分析数据变得更加容易。在这篇文章中,我使用了Pandas来分析Country data .csv文件中的数据,该文件来自一个流行的“statweb.stanford.edu”网站的联合国公共数据集。
由于我已经分析了印度国家的数据,我将Pandas的关键概念介绍如下。在阅读本文之前,先大致了解一下matplotlib和csv的基础知识。
安装
安装Pandas的最简单方法是使用pip:

pip install pandas

或者, 从这里下载:https://pypi.python.org/pypi/pandas/#downloads
【使用Python进行数据分析和可视化】在Pandas中创建一个DataFrame
dataframe的创建是通过使用pd将多个系列传递到dataframe类来完成的。系列方法。这里,它传入两个系列对象,s1作为第一行,s2作为第二行。
例子:
# assigning two series to s1 and s2 s1 = pd.Series([ 1 , 2 ]) s2 = pd.Series([ "Ashish" , "Sid" ]) # framing series objects into data df = pd.DataFrame([s1, s2]) # show the data frame df# data framing in another way # taking index and column values dframe = pd.DataFrame([[ 1 , 2 ], [ "Ashish" , "Sid" ]], index = [ "r1" , "r2" ], columns = [ "c1" , "c2" ]) dframe# framing in another way # dict-like container dframe = pd.DataFrame({ "c1" : [ 1 , "Ashish" ], "c2" : [ 2 , "Sid" ]}) dframe

输出如下:
用Pandas导入数据
第一步是读取数据。数据存储为逗号分隔的值或csv文件,其中每一行由新行分隔,每列由逗号(,)分隔。为了能够在Python中处理数据,需要将csv文件读入Pandas数据帧。数据帧是一种表示和处理表格数据的方法。表格数据有行和列,就像这个csv文件一样(单击下载:http://data.un.org/countryData/Data/ShowDetail/IND)。
例子:
# Import the pandas library, renamed as pd import pandas as pd# Read IND_data.csv into a DataFrame, assigned to df df = pd.read_csv( "IND_data.csv" )# Prints the first 5 rows of a DataFrame as default df.head()# Prints no. of rows and columns of a DataFrame df.shape

输出如下:
29, 10

可以使用pandas.DataFrame.iloc方法建立索引。iloc方法允许根据位置检索尽可能多的行和列。
例子:
# prints first 5 rows and every column which replicates df.head() df.iloc[ 0 : 5 , :] # prints entire rows and columns df.iloc[:, :] # prints from 5th rows and first 5 columns df.iloc[ 5 :, : 5 ]

可以使用panda.dataframe.loc方法对标签进行索引,该方法允许使用标签而不是位置进行索引。
例子:
# prints first five rows including 5th index and every columns of df df.loc[ 0 : 5 , :] # prints from 5th rows onwards and entire columns df = df.loc[ 5 :, :]

上面的内容实际上与df.iloc [0:5 , :]并没有太大不同。这是因为尽管行标签可以采用任何值, 但我们的行标签与位置完全匹配。但是, 列标签可以使处理数据时变得更加容易。例:
# Prints the first 5 rows of Time period # value df.loc[: 5 , "Time period" ]

DataFrame Math与Pandas
数据帧的计算可以通过使用pandas工具的统计功能来完成。
例子:
# computes various summary statistics, excluding NaN values df.describe() # for computing correlations df.corr() # computes numerical data ranks df.rank()

Pandas图
这些示例中的图是使用用于引用matplotlib API的标准约定制作的, 该API提供了Pandas的基础知识, 可轻松创建美观的图。
例子:
# import the required module import matplotlib.pyplot as plt # plot a histogram df[ 'Observation Value' ].hist(bins = 10 )# shows presence of a lot of outliers/extreme values df.boxplot(column = 'Observation Value' , by = 'Time period' )# plotting points as a scatter plot x = df[ "Observation Value" ] y = df[ "Time period" ] plt.scatter(x, y, label = "stars" , color = "m" , marker = "*" , s = 30 ) # x-axis label plt.xlabel( 'Observation Value' ) # frequency label plt.ylabel( 'Time period' ) # function to show the plot plt.show()

使用Python进行数据分析和可视化|套装2
参考:
  • http://pandas.pydata.org/pandas-docs/stable/tutorials.html
  • https://www.srcmini.com
如果发现任何不正确的地方, 或者想分享有关上述主题的更多信息, 请写评论。
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。

    推荐阅读