import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris() #载入鸢尾花 数据集,存入变量iris中(数据结构可理解为字典)
iris.keys()
【加载 sklearn datasets中的数据,并可视化,对数据有一个简单的了解】dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
iris.DESCR #可以查看一些数据的信息
#Number of Instances: 150 (50 in each of three classes)
#Number of Attributes: 4 numeric, predictive attributes and the class
#Attribute Information:
# - sepal length in cm
# - sepal width in cm
# - petal length in cm
# - petal width in cm
# Class Information:
# - Iris-Setosa
# - Iris-Versicolour
# - Iris-Virginica
iris.data #查看iris 中的数据
iris.data.shape
# (150,4)data 形状 ,即Number of Instances: 150 (50 in each of three classes),每个样本都有4个特征
iris.feature_names #查看数据集特征的名称
iris.target #查看数据集的标签(0,1,2)(因为该数据集中总共分三类鸢尾花),与样本一一对应,iris.target.shape 为(150,)
iris.target_names #标签的名称或实际意思(鸢尾花的不同种类,'setosa', 'versicolor', 'virginica')
#将数据可视化(由于总共有四个特征,故我们先取出前两种特征,画二维图,大致的看一下数据)
X = iris.data[:,:2]
plt.scatter(X[:,0],X[:,1]) #两个特征之间没什么现行关系,故用散点图
plt.show()
文章图片
#上图中不能很好的看出,哪个点属于哪一类鸢尾花,故设置,不同类别的鸢尾花显示不同的颜色
y = iris.target
plt.scatter(X[y==0,0],X[y==0,1],color = 'r',marker='o')
plt.scatter(X[y==1,0],X[y==1,1],color = 'b',marker='*')
plt.scatter(X[y==2,0],X[y==2,1],color = 'g',marker='+')
plt.show()
文章图片
#这样图就清晰多了,但是第二类和第三类好像还混合在一起,别担心,我们还有后两个特征没有使用
Y = iris.data[:,2:]
plt.scatter(Y[y==0,0],Y[y==0,1],color = 'r',marker='o')
plt.scatter(Y[y==1,0],Y[y==1,1],color = 'b',marker='*')
plt.scatter(Y[y==2,0],Y[y==2,1],color = 'g',marker='+')
plt.show()
文章图片
#这样,我们就可以大致的对数据有一个认识,后两个特征对数据的分类更重要。
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- Python绘制小红花
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- python|8. 文件系统——文件的删除、移动、复制过程以及链接文件
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- java|微软认真聆听了开源 .NET 开发社区的炮轰( 通过CLI 支持 Hot Reload 功能)