python校验和函数 pythonmd5校验( 四 )


?方差分析(Analysis of Variance,简称ANOVA) , 又称F检验,用于两个及两个以上样本均数差别的显著性检验 。方差分析主要是考虑各组之间的平均数差别 。
?单因素方差分析(One-wayAnova),是检验由单一因素影响的多组样本某因变量的均值是否有显著差异 。
?当因变量Y是数值型,自变量X是分类值,通常的做法是按X的类别把实例成分几组,分析Y值在X的不同分组中是否存在差异 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为统计量,它由组间差异除以组间差异得到,上例中组间差异很大 , 第二个返回值p-value=https://www.04ip.com/post/6.2231520821576832e-19小于边界值(一般为0.05),拒绝原假设, 即认为以上三组数据存在统计学差异,并不能判断是哪两组之间存在差异。只有两组数据时,效果同 stats.levene 一样 。
12. 多因素方差分析
(1) 用途
?当有两个或者两个以上自变量对因变量产生影响时,可以用多因素方差分析的方法来进行分析 。它不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应 。
(2) 示例
(3) 结果分析
?上述程序定义了公式,公式中,"~"用于隔离因变量和自变量,”+“用于分隔各个自变量,":"表示两个自变量交互影响 。从返回结果的P值可以看出 , X1和X2的值组间差异不大,而组合后的T:G的组间有明显差异 。
13. 卡方检验
(1) 用途
?上面介绍的T检验是参数检验,卡方检验是一种非参数检验方法 。相对来说,非参数检验对数据分布的要求比较宽松,并且也不要求太大数据量 。卡方检验是一种对计数资料的假设检验方法 , 主要是比较理论频数和实际频数的吻合程度 。常用于特征选择,比如,检验男人和女人在是否患有高血压上有无区别,如果有区别,则说明性别与是否患有高血压有关,在后续分析时就需要把性别这个分类变量放入模型训练 。
?基本数据有R行C列, 故通称RC列联表(contingency table), 简称RC表,它是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 。
(2) 示例
(3) 结果分析
?卡方检验函数的参数是列联表中的频数,返回结果第一个值为统计量值,第二个结果为p-value值,p-value=https://www.04ip.com/post/0.54543425102570975,比指定的显著水平(一般5%)大,不能拒绝原假设,即相关性不显著 。第三个结果是自由度,第四个结果的数组是列联表的期望值分布 。
14. 单变量统计分析
(1) 用途
?单变量统计描述是数据分析中最简单的形式,其中被分析的数据只包含一个变量,不处理原因或关系 。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况,并找出数据的分布模型 。
?单变量数据统计描述从集中趋势上看,指标有:均值,中位数,分位数,众数;从离散程度上看,指标有:极差、四分位数、方差、标准差、协方差、变异系数 , 从分布上看,有偏度,峰度等 。需要考虑的还有极大值,极小值(数值型变量)和频数 , 构成比(分类或等级变量) 。
?此外,还可以用统计图直观展示数据分布特征,如:柱状图、正方图、箱式图、频率多边形和饼状图 。
15. 多元线性回归
(1) 用途
?多元线性回归模型(multivariable linear regression model ),因变量Y(计量资料)往往受到多个变量X的影响,多元线性回归模型用于计算各个自变量对因变量的影响程度,可以认为是对多维空间中的点做线性拟合 。
(2) 示例
(3) 结果分析
?直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显著性 , P0.05则认为自变量具有统计学意义,从上例中可以看到收入INCOME最有显著性 。

推荐阅读