大数据分析方法五种 数据如何分析

一.描述性统计
描述性统计是指用制表和分类、图表和汇总数据来描述数据的集中趋势、离散趋势、偏度和峰度 。
1.缺失值填充:常用方法:消元法、平均法、最小近邻法、比率\回归法、决策树法 。
2.正态检验:很多统计方法要求数值服从或近似服从正态分布,所以之前需要进行正态检验 。常用方法:K-数量检验、P-P图、Q-Q图、W检验和非参数检验的动态差分法 。
第二,假设检验
1.参数检查
参数检验是对一些主要参数(如均值、百分比、方差、相关系数等)的检验 。)在已知总体分布的条件下(一个要求总体服从正态分布) 。
1)U检验条件:当样本含量n较大时,样本值符合正态分布 。
2)T检验条件:当样本含量N较小时,样本值符合正态分布 。
单样本t检验:推断该样本的总体平均值是否不同于已知的总体平均值0(通常是理论值或标准值);
配对样本B的t检验:当总均值未知且两个样本可以配对时,同一对中的两个样本在各种可能影响处理效果的条件下相似;
c .两个独立样本t-检验:当找不到两个各方面都非常相似的样本进行配对比较时使用 。
2.非参数检验
非参数检验不考虑总体分布是否已知,往往不是针对总体参数,而是检验总体的一些一股假设(如总体分布的位置是否相同,总体分布是否正态) 。
应用:顺序数据,其分布通常是未知的 。
A虽然是连续数据,但总体分布未知或非正态;
虽然B体分布正态,数据连续,但样本量极小,如不到10个;
方法主要包括:卡方检验、秩和检验、二项式检验、游程检验、K-数量检验等 。
第三,可靠性分析
【大数据分析方法五种 数据如何分析】检查测量的可靠性,如问卷的真实性 。
分类:
1.外部信度:量表在不同时间测得的一致程度,用常用方法对信度进行重测 。
2.内部可靠性;每个量表是否测量单个概念,两个量表的内部项目有多一致,常用的方法是分半信度 。
四 。列联表分析
用于分析离散变量或固定变量之间是否存在相关性 。
二维表可以进行卡方检验,三维表可以进行门特尔-汉斯泽尔分层分析 。
列联表分析还包括成对计数资料的卡方检验和行列为序列变量的相关性检验 。
动词 (verb的缩写)相关分析
研究现象之间是否存在某种依赖关系,探究具体依赖现象的相关方向和程度 。
1.单相关:两个因素之间的相关称为单相关,即研究中只涉及一个自变量和一个因变量;
2.多重相关:三个或三个以上因素之间的相关称为多重相关,即研究中涉及两个或两个以上自变量和因变量之间的相关;
3.偏相关:当某一个现象与多个现象相关时,在假设其他变量不变的情况下,两个变量之间的相关称为偏相关 。
不及物动词方差分析
使用条件:所有样本应为独立随机样本;所有样本来自正态分布总体;所有总体方差都是相等的 。
分类
1.单因素方差分析:当一个实验只有一个影响因素或多个影响因素时,只分析其中一个因素与响应变量的关系 。
2.多元方差分析:首先,实验中的影响因素很多 。分析多个影响因素与响应变量之间的关系,考虑多个影响因素之间的关系 。
3.多因素非交互方差分析:分析多个影响因素与响应变量之间的关系,但影响因素之间没有影响关系或影响关系被忽略 。
4.协方差祈祷:传统的方差分析有明显的弊端,分析中的一些随机因素无法控制,影响祈祷结果的准确性 。协方差分析是一种线性回归和方差分析相结合的分析方法,主要是在排除协变量的影响后,对修正主效应的方差进行分析 。
七 。回归分析
分类:
1.一元线性回归分析:自变量X只有一个与因变量Y相关,X和Y都必须是连续变量,因变量Y或其残差必须服从正态分布 。
2.多次线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X和Y都必须是连续变量,因变量Y或其残差必须服从正态分布 。
1)变换筛选法:选择最优回归方程的变换筛选法有全横向法(CP法)、逐步回归法、向前引入法和向后消去法 。
2)横向诊断法:
残差检验:观察值和估计值之间的差异很难服从正态分布 。
b强影响点判断:搜索方法一般分为标准误法和马氏距离法 。
共线性诊断:
诊断方法:容差、方差展开因子法(也叫展开系数VIF)、特征根确定法、条件指针CI、方差比 。
方法:增加样本量或选择另一种回归如主成分回归和岭回归 。
3.逻辑回归分析
线性回归模型要求因变量是连续的正态分布变量,自变量和因变量具有线性关系,而Logistic回归模型不要求因变量的分布,一般在因变量离散时使用 。
分类:
Logistic回归模型可分为条件模型和非条件模型 。条件Logistic回归模型和无条件Logistic回归模型的区别在于参数估计中是否使用了条件概率 。
4.其他回归方法:非线性回归、有序回归、Probit回归、加权回归等 。
八 。聚类分析
将样本或指标变量按其特征进行分类,从而找到合理的统计量来衡量事物的相似性 。
1.财产分类:
q-聚类分析:对样本进行分类,也称为样本聚类 。距离系数作为一种度量相似性的统计量,如欧氏距离、极端距离、绝对距离等 。
r型聚类分析:对指标进行分类,也称指标聚类分析,以相似系数为统计量,衡量相似性、相关系数、列联系数等 。
2.方法分类:
1)系统聚类法:适用于小样本的样本聚类或指数聚类 。一般采用系统聚类的方法对指标进行聚类,也称为层次聚类 。
2)逐步聚类法:适用于大样本聚类 。
3)其他聚类方法:两步聚类、K-means聚类等 。
九 。判别分析
1.判别分析:根据一批分类良好的样本,建立判别函数,以尽量减少误判的情况,进而判断给定的新样本来自哪个总体 。
2.与聚类分析的区别
1)聚类分析可以对样本和指标进行分类;判别分析只能应用于样本
2)聚类分析事先不知道事物的类别,也不知道如何把事物分成几类;判别分析一定要事先知道事物的类别,也要知道如何把事物分成几类 。
3)聚类分析不需要分类的历史数据,直接对样本进行分类;判别分析需要对历史数据进行分类,建立判别函数,然后才能对样本进行分类 。
3.分类:
1)Fisher判别分析:
分类是以距离为准则,即把样本归入与哪个类的距离最短的哪个类,适用于两种判别;
分类是基于概率的,即样本被归入哪个类别的概率最高,适用于
适用于多类判别 。
2)贝叶斯判别分析:
BAYES判别分析比FISHER判别分析更加完善和先进 。既能解决多种判别分析,又能考虑数据的分布,所以一般用的比较多 。
X.主成分分析
将一组相互关联的指标改编成一组新的独立指标,并用少数几个新指标综合反映原指标所包含的主要信息 。
XI 。要素分析
多元统计分析方法旨在发现隐藏在多元数据中的潜在因素,这些因素不能直接观察到,但影响或支配可测量变量,并估计潜在因素对可测量变量的影响程度以及潜在因素之间的相关性 。
与主成分分析相比:
相同:都可以起到调节多个原始变量内部结构关系的作用 。
区别:主成分分析侧重于综合原始的适应信息,而因子分析侧重于解释原始变量之间的关系,是比主成分分析更深入的多元统计方法 。
用途:
1)减少分析变量的数量
2)通过检测变量之间的相关性,对原始变量进行分类
十二 。时间序列分析
动态数据处理的统计方法,研究随机数据序列的统计规律,解决实际问题;时间序列通常由四个要素组成:趋势、季节变化、周期波动和不规则波动 。
方法:移动平均滤波和指数平滑、ARIMA水平型、定量ARIMA水平型、ARIMAX模型、自回归水平型和ARCH族模型 。
十三 。生存分析
一种用于研究存活时间分布规律以及存活时间与相关因素关系的统计分析方法 。
1.内容:
1)描述生存过程,即研究生存时间的分布规律 。
2)生存过程比较,即研究两组或多组生存时间的分布规律并进行比较 。
3)分析危险因素,即研究危险因素对生存过程的影响 。
4)建立数学模型,即用一个数学公式表示生存时间与相关危险因素的依赖关系 。
2.方法:
1)统计描述:包括生存时间的分位数、中位生存时间、平均值、生存函数的估计、判断生存时间的图解法,不对分析后的数据做出任何统计推断结论 。
2)非参数检验:检验每一级分组变量对应的生存曲线是否一致,对生存时间的分布没有要求,检验危险因素对生存时间的影响 。
一种产品极限法(PL法)
b生命表法(LT法)
3)半参数水平回归分析:在一定假设下,建立生存时间随多个危险因素变化的回归方程,用Cox比例风险回归分析表示 。
4)参数模型回归分析:当已知生存时间服从某一特定参数交叉型时,拟合相应的参数模型,更准确地分析和确定变量间的变化规律 。
十四 。典范相关分析
相关分析一般分析两个变量之间的关系,而典型相关分析是分析两组变量(如三个学业能力指标和五个学校成绩指标)之间相关性的统计分析方法 。
典型分析的基本思想类似于主成分分析 。它将一组变量与另一组变量之间的多重线性相关的研究转化为几对综合变量之间的简单线性相关的研究,这几对变量所包含的线性相关的信息几乎涵盖了原组变量所包含的全部对应信息 。
十五 。R0C分析
R0C曲线是根据一系列不同的二元分类方法(边界值或决策阈值)绘制的曲线,纵坐标为真阳性率(敏感性),横坐标为假阳性率(1-特异性) 。
用途:
1.R0C曲线可以很容易地识别在任意极限值下识别疾病的能力 。
使用;
2.选择最佳诊断限值 。R0C曲线越靠近左上角,测试的准确度越高 。
3.两种或两种以上不同诊断试验鉴别疾病的能力的比较 。R0C曲线下的面积用于反映诊断系统的准确性 。
十六 。其他分析方法
多重响应分析、距离祈祷、项目祈祷、对应祈祷、决策树分析、神经网络、系统方程、蒙特卡罗模拟等 。

    推荐阅读