大数据分析方法五种 数据如何分析

一.描述性统计
描述性统计是指用制表和分类、图表和汇总数据来描述数据的集中趋势、离散趋势、偏度和峰度 。
1.缺失值填充:常用方法:消元法、平均法、最小近邻法、比率\回归法、决策树法 。
2.正态检验:很多统计方法要求数值服从或近似服从正态分布,所以之前需要进行正态检验 。常用方法:K-数量检验、P-P图、Q-Q图、W检验和非参数检验的动态差分法 。
第二 , 假设检验
1.参数检查
参数检验是对一些主要参数(如均值、百分比、方差、相关系数等)的检验 。)在已知总体分布的条件下(一个要求总体服从正态分布) 。
1)U检验条件:当样本含量n较大时,样本值符合正态分布 。
2)T检验条件:当样本含量N较小时,样本值符合正态分布 。
单样本t检验:推断该样本的总体平均值是否不同于已知的总体平均值0(通常是理论值或标准值);
配对样本B的t检验:当总均值未知且两个样本可以配对时,同一对中的两个样本在各种可能影响处理效果的条件下相似;
c .两个独立样本t-检验:当找不到两个各方面都非常相似的样本进行配对比较时使用 。
2.非参数检验
非参数检验不考虑总体分布是否已知 , 往往不是针对总体参数,而是检验总体的一些一股假设(如总体分布的位置是否相同,总体分布是否正态) 。
应用:顺序数据,其分布通常是未知的 。
A虽然是连续数据,但总体分布未知或非正态;
虽然B体分布正态 , 数据连续,但样本量极小,如不到10个;
方法主要包括:卡方检验、秩和检验、二项式检验、游程检验、K-数量检验等 。
第三 , 可靠性分析
检查测量的可靠性,如问卷的真实性 。
分类:
1.外部信度:量表在不同时间测得的一致程度,用常用方法对信度进行重测 。
2.内部可靠性;每个量表是否测量单个概念 , 两个量表的内部项目有多一致,常用的方法是分半信度 。
四 。列联表分析
用于分析离散变量或固定变量之间是否存在相关性 。
二维表可以进行卡方检验,三维表可以进行门特尔-汉斯泽尔分层分析 。
列联表分析还包括成对计数资料的卡方检验和行列为序列变量的相关性检验 。
动词 (verb的缩写)相关分析
研究现象之间是否存在某种依赖关系 , 探究具体依赖现象的相关方向和程度 。
1.单相关:两个因素之间的相关称为单相关,即研究中只涉及一个自变量和一个因变量;
2.多重相关:三个或三个以上因素之间的相关称为多重相关,即研究中涉及两个或两个以上自变量和因变量之间的相关;
3.偏相关:当某一个现象与多个现象相关时,在假设其他变量不变的情况下,两个变量之间的相关称为偏相关 。
不及物动词方差分析
使用条件:所有样本应为独立随机样本;所有样本来自正态分布总体;所有总体方差都是相等的 。
分类
1.单因素方差分析:当一个实验只有一个影响因素或多个影响因素时 , 只分析其中一个因素与响应变量的关系 。
2.多元方差分析:首先,实验中的影响因素很多 。分析多个影响因素与响应变量之间的关系,考虑多个影响因素之间的关系 。
3.多因素非交互方差分析:分析多个影响因素与响应变量之间的关系 , 但影响因素之间没有影响关系或影响关系被忽略 。
4.协方差祈祷:传统的方差分析有明显的弊端,分析中的一些随机因素无法控制,影响祈祷结果的准确性 。协方差分析是一种线性回归和方差分析相结合的分析方法,主要是在排除协变量的影响后,对修正主效应的方差进行分析 。
七 。回归分析
分类:
1.一元线性回归分析:自变量X只有一个与因变量Y相关,X和Y都必须是连续变量 , 因变量Y或其残差必须服从正态分布 。
2.多次线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X和Y都必须是连续变量 , 因变量Y或其残差必须服从正态分布 。
1)变换筛选法:选择最优回归方程的变换筛选法有全横向法(CP法)、逐步回归法、向前引入法和向后消去法 。
2)横向诊断法:
残差检验:观察值和估计值之间的差异很难服从正态分布 。
b强影响点判断:搜索方法一般分为标准误法和马氏距离法 。
共线性诊断:
【大数据分析方法五种 数据如何分析】诊断方法:容差、方差展开因子法(也叫展开系数VIF)、特征根确定法、条件指针CI、方差比 。

推荐阅读