解析数学期望的计算公式 方差的计算公式有几种

昨天的文章,我们初步介绍了方差分析的整体逻辑 。今天我们就以单向方差分析为例,详细梳理一下方差分析的全过程 。
单向方差分析是众所周知的单向方差分析(教科书中称为单向方差分析),也就是通常所说的完全随机设计方差分析 。意味着通过完全随机的方法将研究对象分配到几个不同的治疗组,比较几个组的效果指标是否有差异 。
先看下面这个案例:
为了了解大骨节病与粮食中硒含量的关系,一个研究小组调查了A区(威远县)和B区(青州市)的两个大骨节病病区和C区(泰山区)和D区(长清区)的两个非大骨节病病区 。
每个病区随机抽取20户居民,采集面粉检测面粉中的硒含量(μg/kg),尝试分析这四个地区面粉中的硒含量是否存在差异 。具体数据见下表1 。
表1四个地区面粉中硒含量样本数据表

解析数学期望的计算公式 方差的计算公式有几种

文章插图
我们把上面的数据画成一个图(如下图所示,每个空小圆代表一个样本值),我们可以直观的看到这80个样本值(20*4)是不一样的,也就是不一样 。
暂时忽略其他潜在的混杂因素 。造成这种差异的原因可能是他们来自不同的地区,但由于四个群体的内在价值观都是一个个不同的,这种差异也可能只是由于随机误差,通俗地说,就是人们所说的运气 。
【解析数学期望的计算公式 方差的计算公式有几种】
解析数学期望的计算公式 方差的计算公式有几种

文章插图
但仔细观察发现,两个病区的数据似乎明显偏低,说明区域差异确实可能造成了目前的差异 。
为了验证我们的猜测,我们可以使用方差分析来检验流行地区和非流行地区面粉中硒含量的差异是否具有统计学意义 。
这里需要明确的是,我们的目标是比较这四个地区的面粉中硒含量是否存在差异 。在实践中,我们比较了四个地区硒含量的总体平均值 。所以,只要总体平均值有差异,我们说四个地区的硒含量是有差异的 。
要进行方差分析,当然首先要做假设:这四组数据没有区别,但是没有区别!
在这个假设下,我们可以把这四组数据看作一个大的组,也就是把以上80个数据作为一个整体 。对于这一整体,我们可以计算出平均值和标准偏差,即表1中的72.22和20.00 。
但实际上这80个数据属于四组,所以我们也可以分别计算这四组的平均值,分别是57.11、55.58、85.62、90.55 。
如果假设成立(即四组数据没有差异),那么这四组的平均值应该在整体平均值(即72.22)附近波动,两者的差异应该不大 。
但是,我们现在得到的实际数据显示,组内最低的平均值为57.11,最大的为90.55,直观上与72.22相差不远,因此我们怀疑它们不能被视为一个整体(更严格地说,它们不是来自同一个整体),从而否定了它们相同的假设 。
按照这个思路,我们得到了下表(表2):
表2差异分析表的一般结果
解析数学期望的计算公式 方差的计算公式有几种

文章插图
上表涉及的具体计算过程,我们不需要仔细看,只需要了解一下所谓的“均方差(ss)”和“均方差(MS)”的计算方法 。
那么对比一下我们前面讲到的方差的概念和计算方法,你会发现,未知so的“均方(MS)”其实可以看作是一种特殊类型的“方差”!
对比下图中的方差公式:偏离平均值的平方和在左边,自由度在右边 。
解析数学期望的计算公式 方差的计算公式有几种

文章插图
首先,我们来看看测量“组内变异”(在MS组内)的均方值 。因为每个组内没有区域差异,所以MS组内的大小只反映随机误差(即运气) 。
然而,当假设四组的总体平均值相同时,组间(MS的组间)的均方仅反映随机误差 。
如何理解这里提到的“随机误差”?
来自同一总体的两个或两个以上样本之间的差异可以简单地理解为随机误差,也就是说,尽管它们表面上不同,但这种差异是没有意义的,不会反映额外的信息,只是因为运气 。
比如你在和别人玩骰子 。虽然你得到的分数不同,但这种差异完全是运气造成的,无法解释其他任何问题 。同时也不会出现一个人总是赢,另一个人总是输的情况 。
但是,如果对方在骰子上悄悄做了什么,并且知道如何掷出才能获得大量点数,这时,你们的点数之差就不再仅仅是运气和骰子的问题了 。
从统计学角度来说,你们的差异不仅包括随机误差,还包括其他因素 。所以,下次如果你觉得自己总是输,你应该看看骰子是不是有问题 。
回到这个例子,由于MS间组和MS内组都只反映随机误差的大小,它们携带的信息量应该没有差别(提示:方差的大小决定了数据信息量) 。
因此,MS组和MS组之间的数值差异很小,所以用MS组划分MS组时,得到的F值原则上应该在1左右 。
现在,如果我们得到的数据计算出的F值远大于1(对应的P值会很小),就说明MS组远大于MS组,也就是说MS组携带了冗余信息 。因此,可以证明MS组之间的差异不仅包括随机误差,还包括其他因素(如不同区域) 。结合这个例子,说明四个地区面粉的硒含量不一样!
以上数据用SPSS进行计算,结果见下表3 。很明显,F值超过46,远大于1(注意F值没有正式与1进行比较,这里只是为了方便理解),其对应的P值也远小于0.05,从而否定了零假设,差异具有统计学意义 。可以认为这四个地区硒含量的总体均值并不都相等,也就是说至少有两个地区的总体均值不同 。
表3表4四个地区硒含量的方差分析结果
单向方差分析只告诉我们这四个人口平均数不都是相等的,但是哪些是不同的,哪些是相等的呢?这涉及两两比较,这是我们明天的内容 。

    推荐阅读