直方图在堆积效应下会被覆盖大多数细节 , 同时表达聚合、离散效应的箱线图在此类问题上或许是更好的选择 。
通过 sns.boxplot 接口绘制加州和纽约州全年各月降雨量分布箱线图.
从箱线图上,我们可以清晰地对比每个月两个州的降雨量分布,既可以看到集中程度,例如七月的加州降雨量集中在 0.1 - 0.5 mm 的窄区间 , 说明此时很少会有大雨;又可以看到离散情况,例如一月的加州,箱线图箱子(box)部分分布较宽,且上方 10 mm 左右存在一个离散点 , 说明此时的加州可能偶尔地会出现大到暴雨 。
视觉上更为美观且简约的是摆动的误差线图,实验 「美国全境降雨量月度分布」 将所有类别标签的 x 位置均放于同一处,导致误差线高度重合 。可通过调节 x 坐标位置将需要对比的序列紧凑排布 。
从输出结果可以看出,加州冬季的降雨量不确定更强,每年的的十一月至次年的三月,存在降雨量大,且降雨量存在忽多忽少的现象(误差线长) 。
上面的实验均在研究单变量的分布 , 但经常性地,我们希望知道任意两个变量的联合分布有怎样的特征 。
核密度估计,是研究此类问题的主要方式之一,sns.kdeplot接口通过高斯核函数计算两变量的核密度函数并以等高线的形式绘制核密度 。
从运行结果可知:
加州在高温区和低降雨期存在一个较为明显的高密度分布区(高温少雨的夏季);
纽约州在高温及低温区均存在一个高密度的分布区,且在不同温区降雨量分布都较为均匀 。
将美国全境的降雨量与空气温度通过 plt.hist2d 接口可视化 。
从运行结果可知:
美国全境最高密度的日均高温温度区域和降雨量区间分别为 , 78 F (约等于 25 C)和 2.2 mm 左右,属于相对舒适的生活气候区间 。
美国全境降雨量与空气温度的关系-核密度估计
在上面实验基础上,在 x, y 轴上分别通过 sns.rugplot 接口绘制核密度估计的一维分布图 , 可在一张绘图平面上同时获取联合分布和单变量分布的特征 。
美国全境降雨量与空气温度的关系-散点分布和直方分布
sns.jointplot 接口通过栅格的形式 , 将单变量分布用子图的形式进行分别绘制,同时通过散点图进行双变量关系的展示,也是一种较好的展现数据分布的方式 。
上面两个实验研究了双变量分布的可视化,以下研究 3 变量聚合结果的可视化 。
通过 sns.heatmap 接口可实现对透视数据的可视化,其原理是对透视结果的值赋予不同的颜色块,以可视化其值的大小,并通过颜色条工具量化其值大小 。
上面的两个实验可视化了各州随年份日均最高温度的中位数变化趋势,从图中并未看出有较为显著地变化 。
以下通过 t 检验的方式查看统计量是否有显著性差异 。stats.ttest_ind 接口可以输出 1980 年 与 2010 年主要气候指数的显著性检验统计量及 p 值 。
从运行结果可以看出:
检验结果拒绝了降雨量相等的原假设,即 1980 年 与 2010 年两年间,美国降雨量是不同的,同时没有拒绝日均日照、日均最大气温两个变量相等的原假设 , 说明气温未发生显著性变化 。
2020-05-22 第十三章 支持向量机模型(python)SVM 是 Support Vector Machine 的简称,它的中文名为支持向量机,属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测 。通常情况下,该算法相对于其他单一的分类算法(如 Logistic 回归、决策树、朴素贝叶斯、 KNN 等)会有更好的预测准确率,主要是因为它可以将低维线性不可分的空间转换为高维的线性可分空间 。
推荐阅读
- 电子产品直播带货话术技巧,直播卖电子产品怎么样
- 毕业设计的app有哪些软件,毕业设计下载免费
- go语言程序设计书籍 go语言开发书籍
- 在网上怎么找GIS所需要的地理数据,gis数据查询
- 模拟大自然有哪些游戏,模拟大自然手游
- ios如何在游戏里用微信,ios如何在游戏里用微信支付
- c语言speed函数怎样 c语言squeeze函数
- 拍摄视频为什么糊,为什拍摄视频模糊
- 安卓手机哈罗单车怎么预约,哈罗单车app怎么预约