函数型数据分析部分省市新冠疫情数据
全文链接:http://tecdat.cn/?p=28716
作者:Mingji Tang
统计学中传统的数据类型有截面数据和时间序列数据。这两者都只能在某一纵向或横向上探究数据,且部分前提条件又很难满足。而函数型数据连续型函数与离散型函数长期以来的分离状态,实现了离散和连续的过度。它很少依赖于模型构建及假设条件。通过使用函数型数据,我们可以发掘新冠疫情数据中更多的信息。
一、数据的收集与整理
选择人口流动较大的北京、上海、广东,以及与武汉相邻的重庆、湖南、江西、安徽、河南,一共八个省级行政区的确诊人数变化数据作为样本。
文章图片
考虑到各省市人口数量差异较大,使用确诊人数和总人数的比例作为数据研究对象更加合理。
文章图片
二、建立函数型数据对象
采用B样条基线性函数拟合离散的数据。使用最小二乘法得到系数。
文章图片
然后通过粗糙惩罚来提高函数的光滑性。设置惩罚项为
文章图片
。
则新的需要最小化的式子为:
文章图片
可以得到光滑化之后的函数型数据。
文章图片
三、函数型数据描述
得到数据之后可以计算数据的均值,方差,协方差,以及研究二次导数和导数的关系可以得到相位图。
四、函数型数据主成分分析
模仿传统数据的主成分分析,可以找到离散型数据的主成分分析方法。权函数满足
文章图片
某一数据关于这个权函数的得分记为
文章图片
我们寻找第一个权函数为
文章图片
后面的权函数为
文章图片
且
文章图片
项目结果
文章图片
文章图片
文章图片
文章图片
以上分别为函数型数据的均值,方差,协方差以及相位图。(其中粗线部分是由均值绘制的相位图。)疫情的发展可以看作一个由平稳态逐渐发展为不平稳态,最后再回到平稳态的过程。相位图中,我们通常把加速度称为势能,而把速度称为动能。在第一象限阶段,病毒的传播自身的传播力度为主要势能,人们的防疫措施尚未建立完全,因此势能为正,不断转化为动能;在第12天左右的位置,势能由正变成负,函数的凹凸性发生了变化,也就是说人们的防疫管控力度已经成为了主要势能,疫情的传播达到了拐点,增长速度得到了控制;在第22天左右的位置,动能由正变成负,函数的单调性发生了变化,疫情的传播达到了极值点,感染人数从增长变为了减少;轨迹进入三四象限之后,疫情就逐渐缓解,当感染人数逐渐接近0的时候,减少的速度也会逐渐放缓,也就是加速度会回到一个较小的正值,最终当动能回到0时,也就意味着疫情的基本结束。
文章图片
文章图片
以上为前两个主成分,并可以绘制二维的主成分得分图。可以看到前两个主成分包含的数据信息已经超过了92%。
文章图片
可以看到,从横坐标来看,右侧的北京,重庆,江西三省市的第一主成分得分较高,也就意味着和第一主成分函数正向吻合,在中期的值较大,即疫情巅峰时期的感染人口比例较大;反之,河南,广东,湖南,上海四省市第一主成分得分较低,疫情巅峰时期感染人口比例较小。再观察纵坐标,主要反映了后期即3月之后的疫情感染人口比例,可以发现北京,广东两地仍处于较高的水平,这也与两地人口密度大,人口流量大有关。而广西,安徽等地感染人口比例已经基本趋于0。
关于作者
文章图片
在此对Mingji Tang对本文所作的贡献表示诚挚感谢,他专长时间序列、机器学习、回归分析。
文章图片
最受欢迎的见解
1.R语言结合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络时间序列
2.Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数
3.MATLAB用高斯曲线拟合模型分析疫情
4.疫情下的新闻数据观察
5.MATLAB用高斯曲线拟合模型分析疫情
6.在R语言中使用航空公司复杂网络对疫情进行建模
7.R软件SIR模型网络结构扩散过程模拟
8.R语言和Stan,JAGS:用rstan,rjag建立多元贝叶斯线性回归预测选举
【函数型数据分析部分省市新冠疫情数据】9.R语言和JAGS:用rjag建立多元贝叶斯线性回归预测选举
推荐阅读
- 数学建模|2022 数学建模C题 高教社杯 含半成品论文 部分代码 全部数学模型 和全套思路
- 数学建模|2022 数学建模B题 高教社杯 含半成品论文 部分代码 全部数学模型 和全套思路
- 【数据分析-学术前沿趋势分析】 Task4 论文种类分类
- #|【Task04】前沿学术数据分析AcademicTrends-论文种类分类
- python|Python数据分析课程笔记·嵩天
- 8个Python高效数据分析的技巧
- 数据分析也能Freestyle | 不一样的Smartbi Insight
- 我们大部分人,活的还没凤姐洒脱(附原文)
- iOS版本兼容以及部分iOS|iOS版本兼容以及部分iOS 11适配
- Kaggle-TMDB电影数据分析