数学建模笔记|数学建模笔记-第五讲-相关系数数学建模|pearson相关系数|相关

文章目录

相关系数
pearson相关系数
- 相关性可视化
- 误区
- 相关系数大小的解释
- 例题
- 描述性统计
- - matlab
  - excel
  - SPSS
- 矩阵散点图
- 计算相关系数
- - 热力图美化结果
- 对相关系数进行假设检验
- - 假设检验知识点简单记录
  - 皮尔逊相关系数的假设检验
  - 更好的方法：P值判断法
  - 皮尔逊相关系数假设检验的条件
正态分布检验
- 大样本JB检验
- 小样本Shapiro-wilk检验
- QQ图
第一个总结
斯皮尔曼spearman相关系数
- 定义
- 另一种定义
- MATLAB计算
- 斯皮尔曼相关系数的假设检验
- - 小样本n<=30
  - 大样本
  - MARLAB中假设检验
第二个总结：两种相关系数比较
课后作业

相关系数衡量两个变量之间相关性大小的指标

文章图片

通过样本统计量来估计总体统计量

pearson相关系数

文章图片

协方差与量纲有关
pearson相关系数可以看作是变量标准化之后的协方差
- 文章图片
- 这里框框里应该还要减一个（标准化后变量的）均值的，而这个均值是0
总体pearson相关系数

文章图片

pearson相关系数绝对值<1
样本pearson相关系数
基本一样，就是把总体的均值和标准差变成了样本的均值和标准差
- 而样本的方差分母为n-1，这就是最大的区别，无偏估计
- 概率论与数理统计的知识点

文章图片

相关性可视化

文章图片

绝对值越接近1，越有线性
误区很重要！必须要画出散点图，证明变量之间是有线性关系的，才能用皮尔逊相关系数来说明线性相关性

文章图片

重点

文章图片

四个错误
非线性相关也会导致皮尔逊相关系数很大
离群点影响很大
皮尔逊相关系数大也不能说明了两者相关
相关系数为0可能也存在非线性关系，不能说没关系

文章图片

总结

文章图片

写论文时先画出散点图，证明有线性关系，再用皮尔逊相关系数说明其相关性。
相关系数大小的解释

文章图片

这个强弱根据具体的题目来定，需要精密的时候可以定严格一点，比如>0.9的才算强相关性
例题

文章图片

描述性统计论文中我们需要把这些数组的描述性统计做成表格写出来
特别是标粗的统计量

文章图片

这些函数默认是按列计算的
若要按行，函数第二个参数改为1

matlab

文章图片

clear; clc load 'physical fitness test.mat'%文件名如果有空格隔开，那么需要加引号 % https://ww2.mathworks.cn/help/matlab/ref/corrcoef.html %% 统计描述 MIN = min(Test); % 每一列的最小值 MAX = max(Test); % 每一列的最大值 MEAN = mean(Test); % 每一列的均值 MEDIAN = median(Test); %每一列的中位数 SKEWNESS = skewness(Test); %每一列的偏度 KURTOSIS = kurtosis(Test); %每一列的峰度 STD = std(Test); % 每一列的标准差 RESULT = [MIN; MAX; MEAN; MEDIAN; SKEWNESS; KURTOSIS; STD]%将这些统计量放到一个矩阵中表示

文件名如果有空格隔开，那么需要加引号

excel
excel数据分析描述统计勾选汇总统计结果需要精简处理

文章图片

文章图片

SPSS

文章图片

矩阵散点图当需要变量两两组合看是否有线性关系时，可以用SPSS做矩阵散点图

文章图片

计算相关系数

文章图片

热力图美化结果

excel

文章图片

matlab、python也有相应的方法，自行查阅

对相关系数进行假设检验假设检验知识点简单记录

关于假设检验的知识
在概率论与数理统计和统计学两门课，我已经学过有关知识了，就没听清风的这部分
双侧检验步骤

文章图片

单侧检验步骤大差不差
实际上构造什么分布是最难的，涉及到非常复杂的证明
用的时候只要知道怎么用就行，对于什么检验统计量用什么分布，是数学家探索发现的
如何变成实现
- 这样判断还是挺麻烦的，要求导啥的
- 用p值是推荐的
- 双侧检验的p值是单侧检验的两倍，要乘2再跟0.05比较（95%）
步骤
- 确定原假设和备择假设
- 原假设成立条件下构造统计量
- 计算检验值（带入计算的值），以及对应的P值
- 比较P值与0.05的关系
  - 大于0.05，接受H0
  - 小于0.05，拒绝H0

皮尔逊相关系数的假设检验
我们通过检验相关系数的显著性，来说明相关系数有没有意义

文章图片

原假设H0:r=0
构造符合某一分布的统计量（要检验的量的一个函数，不包含其他随机变量），这里用的是t分布
n趋于无穷的时候，t分布实际上就是标准正态分布

文章图片

计算检验值，然后要看检验值落在接受域，还是拒绝域
画图：tpdf()函数就是t分布的函数，第一个参数是自变量，第二个参数是自由度(n-2)

文章图片

链接：t分布查表文档
双侧检验，置信水平α=0.05
那么要找 t 1 ? α 2 = t 0.975 t_{1-\frac{α}{2}}=t_{0.975} t1?2α??=t0.975?这一列，再按自由度28找到行。找到临界值2.048

得到结论

文章图片

更好的方法：P值判断法
前面的过程还是太为繁琐了，我们用P值更好的检验显著性

文章图片

tcdf():t分布的累计密度函数
这里乘2是因为双侧检验
得到最后计算的P值
说明能否拒绝原假设
论文中:显著性标记
- 没有*：不显著
- *：90%水平上显著
- **：95%水平上显著
- ***：99%水平上显著

文章图片

MATLAB计算p值

一行代码：[R,P] = corrcoef(Test)
R返回的是相关系数表，P返回的是对应于每个相关系数的p值

%% 计算各列之间的相关系数 % 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系 % 这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图R = corrcoef(Test)% correlation coefficient%% 假设检验部分 x = -4:0.1:4; y = tpdf(x,28); %求t分布的概率密度值 28是自由度 figure(1) plot(x,y,'-') grid on% 在画出的图上加上网格线 hold on% 保留原来的图，以便继续在上面操作 % matlab可以求出临界值，函数如下 tinv(0.975,28)%2.0484 % 这个函数是累积密度函数cdf的反函数 plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-') plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')%% 计算p值 x = -4:0.1:4; y = tpdf(x,28); figure(2) plot(x,y,'-') grid on hold on % 画线段的方法 plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-') plot([3.055,3.055],[0,tpdf(3.055,28)],'r-') disp('该检验值对应的p值为：') disp((1-tcdf(3.055,28))*2)%双侧检验的p值要乘以2%% 计算各列之间的相关系数以及p值 [R,P] = corrcoef(Test) % 在EXCEL表格中给数据右上角标上显著性符号吧 P < 0.01% 标记3颗星的位置 (P < 0.05) .* (P > 0.01)% 标记2颗星的位置 (P < 0.1) .* (P > 0.05) % % 标记1颗星的位置 % 也可以使用Spss操作哦看我演示

SPSS中操作：分析->相关->双变量->选中指标->勾选皮尔逊相关系数、勾选双尾(双侧检验)、勾选显著相关性(显著性标记)

最后要加上*** p<0.01, ** p<0.05, * p<0.1

Matlab计算的是双侧检验的p值，如果需要单侧的话只
需要除以2即可。

皮尔逊相关系数假设检验的条件
一个重要的部分：进行假设检验的前提

文章图片

第一个正态分布检验是要进行的
后两个是默认的

正态分布检验

偏度和峰度

文章图片

%% 正态分布检验 % 正态分布的偏度和峰度 x = normrnd(2,3,100,1); % 生成100*1的随机向量，每个元素是均值为2，标准差为3的正态分布 skewness(x)%偏度 kurtosis(x)%峰度 qqplot(x)

大样本JB检验

雅克—贝拉检验

【数学建模笔记|数学建模笔记-第五讲-相关系数】

文章图片

步骤
- 确定样本量>30
- 确定原假设和备择假设
- 计算偏度和峰度，带入计算统计量，计算相应p值
- 得出结论

文章图片

MATLAB中操作
- [h,p] = jbtest(x,alpha)
- 这里x只能是向量，所以只能一列一列进行检验
- 写一个循环

% 检验第一列数据是否为正态分布 [h,p] = jbtest(Test(:,1),0.05) [h,p] = jbtest(Test(:,1),0.01)% 用循环检验所有列的数据 n_c = size(Test,2); % number of column 数据的列数 H = zeros(1,6); % 初始化节省时间和消耗 P = zeros(1,6); for i = 1:n_c [h,p] = jbtest(Test(:,i),0.05); H(i)=h; P(i)=p; end disp(H) disp(P)% Q-Q图 qqplot(Test(:,1))

初始化保存结果的矩阵，可以节省运行时间
我们计算出来发现，每列都拒绝原假设，说明每列数据全都不满足正态分布，说明前面假设检验那些显著性是没用的

小样本Shapiro-wilk检验小样本才能用
该检验原理较为复杂，我们只要会用就习惯

文章图片

matlab没有这个相关函数，所以用spss
分析 - 描述统计 - 探索
QQ图用QQ图来看是否符合正态分布
? 在统计学中，Q‐Q图（Q代表分位数Quantile）是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
? 首先选定分位数的对应概率区间集合，在此概率区间上，点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。
? 这里，我们选择正态分布和要检验的随机变量，并对其做出QQ图，可想而知，如果要检验的随机变量是正态分布，那么QQ图就是一条直线。
? 要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。（要求数据量非常大）