数据的探索性分析（EDA）天池竞赛

Task2 数据的探索性分析（EDA）

1、EDA的作用
2、内容介绍
3、代码示例

3.1 载入各种数据科学以及可视化库
3.2 载入数据

3.2.1 简略观察数据head()+shape

3.3 总览数据概况

3.3.1 通过describ()来熟悉数据的相关统计量
3.3.2 通过info()来熟悉数据类型

3.4 判断数据缺失和异常

3.4.1 查看每列nan的存在情况
3.4.2 查看异常值检测

3.5 了解预测值的分布

3.5.1 总体分布概况（无界约翰逊分布等）

3.6 特征分为类别特征和数字特征，并对类别特征查看unique分布
3.7 数字特征分析
3.8 类别特征分析
3.9 用pandas_profiling生成数据报告

总结

1、EDA的作用

EDA的作用主要在于熟悉并了解数据集，对数据集进行处理，以便接下来机器学习或者深度学习使用
了解数据集之后，接下来就是了解数据集中各变量间的相互关系，变量与预测值之间的关系
引导数据科学从业者进行数据处理以及后面特征工程的部分，使得数据集的结构和特征集让接下来的预测问题更加可靠
完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。

2、内容介绍 1、载入各种数据科学以及可视化库

数据科学库：pandas、numpy、scipy
可视化库：matplotlib、seabon
2、载入数据
载入训练集和测试集
简略观察数据（head()+shape、tail()+shape）
3、数据总览
通过describe()来查看数据的相关统计量
通过info()来查看数据类型
4、判断数据缺失和异常
查看每列nan的情况
异常值检测
5、了解预测值的分布
总体分布概况（无界约翰逊分布等）
查看skewness、kurtosis
查看预测值的具体频数
6、特征分为数字特征和类别特征，并对类别特征查看unique分布
7、数字特征分析
相关性分析
查看几个特征的偏度和峰值
每个数字特征得分可视化
数字特征相互之间的关系可视化
多变量相互回归关系可视化
8、类型特征分析
unique分布
类别特征箱型图可视化
类别特征的小提琴图可视化
类别特征的柱形图可视化类别
特征的每个类别频数可视化（count_plot）
9、用pandas_profiling生成数据报告

3、代码示例 3.1 载入各种数据科学以及可视化库

#coding:utf-8 #导入warnings包，利用过滤器来实现忽略警告语句。 import warnings warnings.filterwarnings('ignore')import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns#图形可视化包 import missingno as msno#缺失值可视化包

数据科学库
Numpy
Numpy(Numerical Python)：提供了一个在Python中做科学计算的基础库，重在数值计算，主要用于多为数据（矩阵）处理的库。用来存储和处理大型矩阵，比python自身的嵌套列表结构要高效得多。Python其余的科学计算扩展大部分都是以此为基础。

import numpy as np

Scipy
Scipy：基于Numpy提供了一个在Python中做科学计算的工具包。主要应用于统计，优化，整合，线性代数模块，傅利叶变换，信号和图像处理，常微分方程求解，稀疏矩阵等，在数学系或工程系相对用的多一些。

import scipy as sp

Pandas
Pandas:纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

import pandas as pd

可视化库
matplotlib
matplotlib：是一个python的2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形

import matplotlib as mpl
import matplotlib.pyplot as plt

seaborn
seaborn:是在matplotlit的基础上进行了更高级的API封装，从而使得做图更加容易，在大多数情况下使用seaborn就能制作出很具有吸引力的图，而是用matplotlib就能制作具有更多特色的图。应该把seaborn视为matplotlib的补充，而不是替代物。

import seaborn as sns

missingno
missingo：是一个可视化缺失值库，方便使用。

import missingno as msno

3.2 载入数据

# 1、载入训练集和测试集： path = './datalab/' train_data = https://www.it610.com/article/pd.read_csv(path +'used_car_train_20200313.csv',sep = ' ') test_data = https://www.it610.com/article/pd.read_csv(path +'used_car_testA_20200313.csv',sep = ' ')

3.2.1 简略观察数据head()+shape
因为数据集很大，直接点开CSV文件查看很不方便，所以，要养成使用head()以及shape来快速查看数据集。
pandas的表格可以使用head()方法和tail()方法来查看整个数据的前几行和后几行的数据。参数可以填写具体的数字来表示具体要显示多少行，默认为5。

# 要养成看数据的head()、tail()、shape的习惯 train_data.head().append(train_data.tail())

train_data.shape

test_data.head().append(test_data.tail())

test_data.shape

这里我们将表格的前5行和后5行合并在一起进行显示。另外，考虑到数据特征比较多，所以先将表格按列切分然后再进行显示。具体代码如下：

train_df.iloc[:, : 11].head().append(train_df.iloc[:, : 11].tail())

train_df.iloc[:, 11: 22].head().append(train_df.iloc[:, 11: 22].tail())

train_df.iloc[:, 22: ].head().append(train_df.iloc[:, 22: ].tail())

3.3 总览数据概况 1、describe() 查看每列的统计量，个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值max，看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断，比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式，有的时候需要注意下
2、info() 通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常
3.3.1 通过describ()来熟悉数据的相关统计量

#describe中有每列的统计量：count、mean、std、min、max、中位数25% 50% 75% train_data.describe()

test_data.describe()

3.3.2 通过info()来熟悉数据类型

# info来了解数据每列的type train_data.info()

test_data.info()

3.4 判断数据缺失和异常 3.4.1 查看每列nan的存在情况

train_data.isnull().sum()

test_data.isnull().sum()

Notes：

查看 NAN 存在的情况，如果很小一般选择填充。填充方法：均值，众数，机器学习预测等，如果使用 LGB 等树模型可以直接空缺，让树自己去优化；
但如果 NAN 存在过多，可以考虑删除这个特征

可视化展示的几种方式：9

Matrix：使用最多的函数，能快速直观地看到数据集的完整性情况，矩阵显示
如果数据是时序的，那可以用freq参数最多支持50列
Bar：简单的展示无效数据的条形图
Heatmap：两个变量的无效相关范围从-1（如果一个变量出现，另一个肯定没有）到 0（出现或不出现的变量对彼此没有影响）到1（如果一个变量出现，另一个肯定也是），大于-1和小于1表示有强烈的正相关和负相关。图方便观察两个变量间的相关性，但是当数据集变大，这种结论的解释性会变差

missingno是一个专门用来将缺失值进行可视化的库。这个库有很多种方式对数据的缺失值情况进行可视化描述。这里我们用分别采用矩阵和条形图的方式来显示缺失值的情况。

# nan可视化 missing = train_data.isnull().sum() missing = missing[missing > 0] missing.sort_values(inplace=True) missing.plot.bar()

文章图片

Matrix是使用最多的函数，能快速直观地看到数据集的完整性情况，矩阵显示

# 可视化看一下缺省值 msno.matrix(train_data.sample(250))

文章图片

msno.bar可以简单的展示无效数据的条形图

msno.bar(train_data.sample(1000))

文章图片

同样看一下测试集的缺省值情况

# 可视化看下缺省值 msno.matrix(test_data.sample(250))

msno.bar(test_data.sample(1000))

结果：测试集和训练集的情况差不多，可视化有三列缺省。
3.4.2 查看异常值检测
pandas中有一种数据类型叫做object。实际上这是一种字符串类型。在我们的数据里面只有一个特征是object类型，就是notRepairedDamage。有时候，一些object类型的空值是用某种特殊字符来替代的。因此我们需要观察这种特征数据中是否存在这种特殊字符，并把它转化成空值。
这里通过info()查看数据类型，可以发现除了notRepairedDamage 为object类型其他都为数字，这里我们把它的几个不同的值都进行显示

train_data['notRepairedDamage'].value_counts()

然后使用.replace()将其他的字符用nan替换掉。这里可以看出来‘ - ’也为空缺值，因为很多模型对nan有直接的处理，这里我们先不做处理，先替换成nan

train_data['notRepairedDamage'].replace('-', np.nan, inplace=True) train_data['notRepairedDamage'].value_counts()

测试集也做相应处理

test_data['notRepairedDamage'].replace('-', np.nan, inplace=True) test_data['notRepairedDamage'].value_counts()

使用.value_counts()查看每个特征中值的情况，将类别特征严重倾斜的特征先删掉，因为这种数据一般对预测没有什么帮助

train_data["seller"].value_counts()

train_data["offerType"].value_counts()

这里经过对每一个特征进行查看得出，如上两个类别特征严重倾斜的特征。所以删除这两个特征。

del train_data["seller"] del train_data["offerType"] del test_data["seller"] del test_data["offerType"]

3.5 了解预测值的分布

#有多少种价格 train_data['price']

#每种价格的数量 train_data['price'].value_counts()

3.5.1 总体分布概况（无界约翰逊分布等）
总体分布概况（无界约翰逊分布等）
约翰逊分布
这部分需要导入scipy.stats模块。它提供的各种概率分布模型

import scipy.stats as st y = train_data['price'] plt.figure(1); plt.title('Johnson SU') sns.distplot(y, kde=False, fit=st.johnsonsu) plt.figure(2); plt.title('Normal') sns.distplot(y, kde=False, fit=st.norm) plt.figure(3); plt.title('Log Normal') sns.distplot(y, kde=False, fit=st.lognorm)

文章图片

由上可知，价格不服从正态分布，所以在进行回归之前，它必须进行转换。虽然对数变换做得很好，但最佳拟合是无界约翰逊分布。
观察这三幅图可以发现价格不服从正太分布。因此需要对其进行转换，使其服从正态分布。至于为什么一定要转换成正态分布，以及如何进行转换，可以参考数据不符合正态分布的处理方法。另外，关于seaborn的绘图方法以及各类图示的含义可以参考seaborn的绘图方法。
查看skewness and kurtosis(偏度和峰度)
我们一般会拿偏度和峰度来看数据的分布形态，而且一般会跟正态分布做比较，我们把正态分布的偏度和峰度都看做零。如果我们在实操中，算到偏度峰度不为0，即表明变量存在左偏右偏，或者是高顶平顶这么一说。

偏度skewness
Definition:是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，简单来说就是数据的不对称程度。
（1）Skewness = 0 ，分布形态与正态分布偏度相同。
（2）Skewness > 0 ，正偏差数值较大，为正偏或右偏。长尾巴拖在右边，数据右端有较多的极端值。
（3）Skewness < 0 ，负偏差数值较大，为负偏或左偏。长尾巴拖在左边，数据左端有较多的极端值。
（4）数值的绝对值越大，表明数据分布越不对称，偏斜程度大。
峰度kurtosis
Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量，简单来说就是数据分布顶的尖锐程度。峰度是四阶标准矩计算出来的。
（1）Kurtosis=0 与正态分布的陡缓程度相同。
（2）Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
（3）Kurtosis<0 比正态分布的高峰来得平台——平顶峰

sns.distplot(train_data['price']); print("Skewness: %f" % train_data['price'].skew()) print("Kurtosis: %f" % train_data['price'].kurt())

文章图片

sns.distplot(train_data.skew(),color='blue',axlabel ='Skewness')

文章图片

sns.distplot(train_data.kurt(),color='orange',axlabel ='Kurtness')

文章图片

## 3) 查看预测值的具体频数 plt.hist(train_data['price'], orientation = 'vertical',histtype = 'bar', color ='red') plt.show()

文章图片

查看频数, 由上图可知，大于20000的值极少，其实这里也可以把这些当作特殊的值（异常值）直接用填充或者删掉(在前面进行)
log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick（技巧）

# log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick（技巧） plt.hist(np.log(train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red') plt.show()

文章图片

3.6 特征分为类别特征和数字特征，并对类别特征查看unique分布

# 分离label即预测值 Y_train = train_data['price']

numeric_features = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' ]categorical_features = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage', 'regionCode',]

pandas的序列的nunique()方法可以统计序列中每一个不同的值出现的次数。

# 特征nunique分布 for cat_fea in categorical_features: print(cat_fea + "的特征分布如下：") print("{}特征有{}个不同的值".format(cat_fea, train_data[cat_fea].nunique())) print(train_data[cat_fea].value_counts())

3.7 数字特征分析将价格添加到数组中，接下来分析各特征和价格的相关性

numeric_features.append('price') numeric_features

## 1) 相关性分析 price_numeric = train_data[numeric_features] correlation = price_numeric.corr()#相关系数矩阵，即给出了任意两个变量之间的相关系数 print(correlation['price'].sort_values(ascending = False),'\n')

f , ax = plt.subplots(figsize = (7, 7)) plt.title('Correlation of Numeric Features with Price',y=1,size=16) sns.heatmap(correlation,square = True,vmax=0.8)

文章图片

删除价格特征，分析其他数字特征的性质

del price_numeric['price']

## 3) 每个数字特征的分布可视化 f = pd.melt(train_data, value_vars=numeric_features) g = sns.FacetGrid(f, col="variable",col_wrap=2, sharex=False, sharey=False) g = g.map(sns.distplot, "value")

文章图片

由上可以看出，匿名特征相对分布均匀
数字特征相互之间的关系可视化：sns.pairplot() 的参数及其用法

kind：用于控制非对角线上的图的类型，可选"scatter"与"reg"（非对角线上的散点图拟合出一条回归直线，更直观地显示变量之间的关系）
diag_kind：控制对角线上的图的类型，可选"hist"与"kde"
hue ：针对某一字段进行分类，不同类别的点会以不同的颜色显现出来
markers：控制散点的样式 markers=["+", “s”, “D”]
当我们想单独研究某两个（或多个）变量的关系时，我们只需要通过vars参数指定你想研究的变量 vars, x_vars, y_vars：选择数据中的特定字段，以list形式传入

## 4) 数字特征相互之间的关系可视化 sns.set() columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5','v_2', 'v_6', 'v_1', 'v_14'] sns.pairplot(train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde') plt.show()

文章图片

由上图可以看出，v_1和v_6线性相关，所以留下一个特种证即可
多变量之间的关系可视化

## 5) 多变量互相回归关系可视化 fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2, figsize=(24, 20)) # ['v_12', 'v_8' , 'v_0', 'power', 'v_5','v_2', 'v_6', 'v_1', 'v_14'] v_12_scatter_plot = pd.concat([Y_train,train_data['v_12']],axis = 1) sns.regplot(x='v_12',y = 'price', data = https://www.it610.com/article/v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)v_8_scatter_plot = pd.concat([Y_train,train_data['v_8']],axis = 1) sns.regplot(x='v_8',y = 'price',data = https://www.it610.com/article/v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)v_0_scatter_plot = pd.concat([Y_train,train_data['v_0']],axis = 1) sns.regplot(x='v_0',y = 'price',data = https://www.it610.com/article/v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)power_scatter_plot = pd.concat([Y_train,train_data['power']],axis = 1) sns.regplot(x='power',y = 'price',data = https://www.it610.com/article/power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)v_5_scatter_plot = pd.concat([Y_train,train_data['v_5']],axis = 1) sns.regplot(x='v_5',y = 'price',data = https://www.it610.com/article/v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)v_2_scatter_plot = pd.concat([Y_train,train_data['v_2']],axis = 1) sns.regplot(x='v_2',y = 'price',data = https://www.it610.com/article/v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)v_6_scatter_plot = pd.concat([Y_train,train_data['v_6']],axis = 1) sns.regplot(x='v_6',y = 'price',data = https://www.it610.com/article/v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)v_1_scatter_plot = pd.concat([Y_train,train_data['v_1']],axis = 1) sns.regplot(x='v_1',y = 'price',data = https://www.it610.com/article/v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)v_14_scatter_plot = pd.concat([Y_train,train_data['v_14']],axis = 1) sns.regplot(x='v_14',y = 'price',data = https://www.it610.com/article/v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)v_13_scatter_plot = pd.concat([Y_train,train_data['v_13']],axis = 1) sns.regplot(x='v_13',y = 'price',data = https://www.it610.com/article/v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)

文章图片

由上图可以看出，v_13与价格的相关性很差，所以可以删除这个特征
3.8 类别特征分析

## 1) unique分布 for fea in categorical_features: print(train_data[fea].nunique())

文章图片

categorical_features

由unique分布结果可知， name和 regionCode的类别太稀疏了，这里我们把不稀疏的几类画一下
箱型图显示定量数据的分布情况。框显示数据集的四分位数，线显示分布的其余部分，它能显示出一组数据的最大值、最小值、中位数及上下四分位数，使用四分位数范围函数的方法可以确定“离群值”的点seaborn常见绘图总结。
在我们使用的数据中，name和regionCode的值分布的十分稀疏，因此没有必要也最好不要画出它们的箱型图（过于稀疏的数据绘制箱型图需要相当长的时间而且也没有意义）。

## 2) 类别特征箱形图可视化 categorical_features = ['model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage'] for c in categorical_features: train_data[c] = train_data[c].astype('category') if train_data[c].isnull().any(): train_data[c] = train_data[c].cat.add_categories(['MISSING']) train_data[c] = train_data[c].fillna('MISSING')def boxplot(x, y, **kwargs): sns.boxplot(x=x, y=y) x=plt.xticks(rotation=90)f = pd.melt(train_data, id_vars=['price'], value_vars=categorical_features) g = sns.FacetGrid(f, col="variable",col_wrap=2, sharex=False, sharey=False, size=5) g = g.map(boxplot, "value", "price")

文章图片

train_data.columns

小提琴图与箱型图类似。不像箱形图中所有绘图组件都对应于实际数据点，小提琴绘图以基础分布的核密度估计为特征，通过小提琴图可以知道哪些位置的密度较高。在图中，白点是中位数，黑色盒型的范围是下四分位点到上四分位点，细黑线表示须。外部形状即为核密度估计

## 3) 类别特征的小提琴图可视化 catg_list = categorical_features target = 'price' for catg in catg_list : sns.violinplot(x=catg, y=target, data=https://www.it610.com/article/train_data) plt.show()

文章图片

categorical_features = ['model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage']

## 4) 类别特征的柱形图可视化 def bar_plot(x, y, **kwargs): sns.barplot(x=x, y=y) x=plt.xticks(rotation=90)f = pd.melt(train_data, id_vars=['price'], value_vars=categorical_features) g = sns.FacetGrid(f, col="variable",col_wrap=2, sharex=False, sharey=False, size=5) g = g.map(bar_plot, "value", "price")

文章图片

##5) 类别特征的每个类别频数可视化(count_plot) def count_plot(x,**kwargs): sns.countplot(x=x) x=plt.xticks(rotation=90)f = pd.melt(train_data,value_vars=categorical_features) g = sns.FacetGrid(f, col="variable",col_wrap=2, sharex=False, sharey=False, size=5) g = g.map(count_plot, "value")

文章图片

3.9 用pandas_profiling生成数据报告用pandas_profiling生成一个较为全面的可视化数据报告（较为简单、方便）最终打开html文件即可

import pandas_profiling pfr = pandas_profiling.ProfileReport(Train_data) pfr.to_file("./example.html")

文章图片

总结数据探索在机器学习中我们一般称为EDA（Exploratory Data Analysis）：

是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
数据探索有利于我们发现数据的一些特性，数据之间的关联性，对于后续的特征构建是很有帮助的。
对于数据的初步分析（直接查看数据，或.sum(), .mean()，.descirbe()等统计函数）可以从：样本数量，训练集数量，是否有时间特征，是否是时序问题，特征所表示的含义（非匿名特征），特征类型（字符类型，int，float，time），特征的缺失情况（注意缺失的在数据中的表现形式，有些是空的有些是”NAN”符号等），特征的均值方差情况。
分析记录某些特征值缺失占比30%以上样本的缺失处理，有助于后续的模型验证和调节，分析特征应该是填充（填充方式是什么，均值填充，0填充，众数填充等），还是舍去，还是先做样本分类用不同的特征模型去预测。
对于异常值做专门的分析，分析特征异常的label是否为异常值（或者偏离均值较远或者事特殊符号）,异常值是否应该剔除，还是用正常值填充，是记录异常，还是机器本身异常等。
对于Label做专门的分析，分析标签的分布情况等。
【数据的探索性分析（EDA）】进步分析可以通过对特征作图，特征和label联合做图（统计图，离散图），直观了解特征的分布情况，通过这一步也可以发现数据之中的一些异常值等，通过箱型图分析一些特征值的偏离情况，对于特征和特征联合作图，对于特征和label联合作图，分析其中的一些关联性。