统计学的两种基本方法 统计分析方法有哪些


统计学的两种基本方法 统计分析方法有哪些

文章插图
研讨员在图书馆档案中搜索盘算机数据库研究人员在图书馆档案中搜索了计算机数据库 。
嗨~盆友们!
今天的内容很干 , 大家一定要看~ ~
做数据分析的时候 , 肯定会涉及到统计学的知识 。之前也推了一些统计相关的基础知识 。今天 , 我将分享7种我们可能在统计学中使用的数据分析方法 。
一.描述性统计描述性统计是利用图表或数学方法对数据和信息进行整理和分析 , 估计和描述数据分布、数值特征和随机变量之间关系的方法 。
描述分为三个部分:集中趋势分析、偏离中心趋势分析和连贯分析 。
集中趋势分析
集中度趋势分析主要依靠平均值、中位数、众数等统计指标来展现数据的集中度趋势 。
偏差趋势分析
偏离趋势分析是通过总距离、四分位数差、平均差、方差(协方差:用来衡量两个随机变量之间关系的统计量)和尺度差等统计指标来研究数据偏离趋势的重要方法 。比如想知道两个班的语文成绩哪个更分散 , 可以和两个班的四分之差或者百分点进行比较 。
连贯分析
相干分析讨论数据之间是否存在统计相关性 。
二.假设检验假设检验是一种统计推断方法 , 用于确定样本与样本之间、样本与总体之间的差异是由抽样误差还是实质性差异引起的 。
假设检验可分为三类:正态分布检验、正态总体均值分布检验和非参数检验 。
正态分布检验
正态分布检验包括三种类型:JB检验、KS检验和Lilliefors检验 , 用于检验样本是否来自正态分布总体 。
正态总体平均分布检验
从统计学上讲 , 每个样本的平均值之间的差异应该在随机误差的允许范围内 。另一方面 , 如果不同样本的平均值之间的差异超过了允许的范围 , 则说明除了随机误差之外 , 平均值之间还存在系统误差 , 从而导致平均值之间存在明显的差异 。
有两种情况:
t:检验:主要用于样本含量小、总体尺度差异未知的正态分布数据 。它利用T-散点图理论来推断差异的概率 , 从而判断两个平均值之间的差异是否明显 。
u检验:一般用于检验大样本均值的差异 , 基于原始正态总体的假设 。它利用尺度正态分布理论来推断差异的概率 , 从而比较两个平均值之间的差异是否明显 。国外英语统计大多采用Z检验 。
非参数检验
非参数检验不考虑总离差是否已知 , 只从样本检验值中使用一些非常直观的信息 。实际情况包括:待分析的数据不满足参数校验要求的假设 , 不能使用参数校验;仅由一些等级组成的数据;提出的问题不包括参数;当你需要快速得到结果的时候 。其重要方法包括:卡方检验、秩和检验、二项式检验、游程检验、K-数量检验、符号检验等 。
第三 , 连贯分析连贯分析是研究现象之间关系的重要方法之一 。它可以测量现象之间关系的大小和方向 。连贯关系的类型可以分为:
按照连贯的层次:完全连贯、不连贯、不完全连贯 。
根据依赖的表示情况:线性相干和非线性相干 。
按照连贯的方向:正连贯和负连贯 。
根据研究数量:单一连贯和复合连贯 。
相干性的测量方法包括:散点图、相干系数等 。
四.回归分析回归分析是一种确认两个或多个变量之间数量关系的统计分析方法 。根据变量的数量和变量之间关系的类型 , 可以分为多种回归:
单变量线性回归分析
分析因变量和自变量之间的线性关系 。常用的统计指标包括:平均、增减、平均增减 。
多次线性回归分析
分析多个自变量和一个因变量之间的线性关系 。在实际的统计分析中 , 一般用软件来估计多元回归模型 。
非线性回归分析
自变量和因变量之间因果关系的函数表达式是非线性的 。许多非线性回归模型包括对数曲线方程、反函数曲线方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程和S形曲线方程 , 它们都是非线性回归方程 。
还有许多其他回归分析模型 。之前写过回归分析 , 想了解的朋友可以看看 , 这里就不赘述了!
常见的10种回归分析模型是法 , 任意收集 。
动词 (verb的缩写)方差分析方差分析 , 也称为“方差分析”或“f检验” , 用于检验两个或两个以上样本的均值差异的显著性 。申请条件包括:每个样本必须是独立的随机样本;各种原始自正态分布人群;每个总体方差相等 。
根据分析的实验因素的数量 , 可以分为:
单因素方差分析
【统计学的两种基本方法 统计分析方法有哪些】用来讨论主变量的不同程度对被观测变量是否有明显的影响 。这里 , 因为只讨论了一个因素 。
双因素方差分析
用于分析两个因素的不同程度是否对结果有明显影响 , 两个因素之间是否存在交互作用 。
不及物动词聚类分析聚类分析是一种探索性分析 。在分类的过程中 , 人们不必事先给出一个分类尺度 。聚类分析可以从样本数据开始 , 将数据分为不同的类别或聚类 。同一集群中的对象非常相似 , 而不同集群中的对象则非常不同 。
聚类分析的计算方法如下:
中断方法
首先 , 创建k个分区 , 其中k是要创建的分区数量 。然后应用循环定位技术 , 通过将对象从一个分区移动到另一个分区来支持分区质量的提高 。典型的分类方法包括:k-means、k-med oid、Clara、CLARA、FCM等 。
层序法
创建层次结构来分解给定的数据集可以分为自顶向下(分解)和自底向上(合并)的方法 。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等 。
基于密度的方法
根据密度聚集对象 。方法包括:DBSCAN、OPTICS等 。
基于网格的方法
首先将对象空划分为有限个单元 , 形成网格结构 , 然后应用网格结构完成聚类 。方法:STING、CLIQUE等 。
基于模型的方法
假设每个集群的模型 , 发明适合相应模型的数据 。方法包括:COBWEB、CLASSIT等 。
七、时间序列分析时间序列是将同一现象在不同时间的检验数据按时间顺序排列得到的序列 , 也称为动态序列 。时间序列的两个基本要素:现象所属的时间和不同时间反应现象的指数值 。
时间序列可以分为:
绝对计数时间序列
是指按时间顺序排列形成系列的一系列相似的总指标数据 , 以及各个时代反应现象的绝对程度 。它分为时间序列和时间序列 。
相对时间序列
它是指按时间顺序排列相对指标值形成的时间序列 , 重要的反应是客观现象数量之间比较关系的发展过程 。
时间平均序列
指按时间顺序排列的一系列系列相似的平均指标值 , 重要的反应是客观现象的一般发展变化过程 。它可以分为静态平均时间序列和动态平均时间序列 。
时间序列的分析模型可以分为:
长期趋势测量和分析方法:时间延拓法、移动平均法和最小二乘法 。
季节变化的测量和分析方法:同期平均法和移动平均趋势消除法 。
循环的测量和分析方法:直接法和剩余法 。
当然 , 统计学远不止这七种数据分析方法 , 还有很多其他值得深入研究的方法 , 比如路径分析、因子分析、主成分分析等等 。如果你以后想做数据分析 , 你必须学习更多统计学的基础知识 。

    推荐阅读