一文了解无处不在的标准差 标准差和方差

标准差和方差(一文了解无处不在的标准差)
机器之心编译
参与:魔王、杜伟

本文将对标准差这一概念提供直观的视觉解释 。

本文作者为纽约市立大学在读博士生 Fahd Alhazmi , 专注于神经科学、人工智能和人类行为研究 。
统计学中最核心的概念之一是:标准差及其与其他统计量(如方差和均值)之间的关系 。入门课程中老师常告诉学生「记住公式就行」 , 但这并非解释概念的最佳方式 。本文将对标准差这一概念提供直观的视觉解释 。
假设你有一个成绩单 , 在本案例中这即是现实测量(real-world measurements) 。我们想将这些测量中的信息「压缩」为一组量 , 以便后续对比不同班级的成绩或不同年份的成绩等 。鉴于认知能力有限 , 我们不想挨个查看分数 , 来找出平均分更高的班级 。这时就需要总结数字 , 描述统计学就派上用场了 。
总结数字的方式有两种:量化其相似性或差异(difference) 。
  • 量化数字的相似性即「集中趋势量数」(measures of central tendency) , 包括平均数、中位数和众数;
  • 量化数字的差异即「差异量数」(measures of variability) , 包括方差和标准差 。
标准差揭示一组数字中彼此之间的差异 , 以及数字与平均值之间的差异 。
举例而言 , 假设你收集了一些学生分数(出于简洁性考虑 , 我们假设这些分数是总体) 。
一文了解无处不在的标准差 标准差和方差

文章插图

我们首先在简单的散点图中绘制这些数字:
绘制完成后 , 计算差异的第一步是找出这些数字的中心 , 即平均值 。
一文了解无处不在的标准差 标准差和方差

文章插图

视觉上 , 我们可以绘制一条线来表示平均分数 。
接下来我们要计算每个点和平均值之间的距离 , 并对得到的数值求平方 。记住 , 我们的目标是计算数字之间的差异 , 以及数字与平均值之间的差异 。我们可以用数学或视图的方式完成该操作:
一文了解无处不在的标准差 标准差和方差

文章插图

从上图中我们可以看到 , 「求平方」只不过是画了一个方框而已 。这里有两点需要注意:我们无法计算所有差异的总和 。因为一些差异是正值 , 一些是负值 , 求和会使正负抵消得到 0 。为此 , 我们对差异取平方(稍后我会解释为什么取平方而不是其他运算 , 如取绝对值) 。
现在 , 我们来计算差异平方的总和(即平方和):
通过计算平方和 , 我们高效计算出这些分数的总变异(即差异) 。理解变异(variability)与差异(difference)之间的关系是理解多个统计估计和推断检验的关键 。上图中平方和 67.5 表示 , 如果我们将所有方框堆在一个巨大的正方形中 , 则大正方形的面积等于 67.5 points^2 , points 指分数的单位 。任意测量集的总变异都是正方形的面积 。
方差
现在我们得到了总变异(即大正方形的面积) , 但我们真正想要的是平均变异(mean variability) 。要想求得平均变异 , 我们只需要用总面积除以方框的数量:
一文了解无处不在的标准差 标准差和方差

文章插图

出于实用目的考虑 , 你或许想除以 N?1 , 而不是 N , 这样你就可以尝试基于一个样本而不是总体来估计平均变异 。但是 , 这里假设我们已经具备总体(total population) 。重点在于 , 你想计算所有小方框的均方值 。这就是「方差」 , 即平均变异 , 或者差异平方的平均值(mean squared difference) 。
标准差
我们为什么不用方差来表示分数的差异呢?唯一的问题是 , 我们无法对比方差和原始分数 , 因为方差是「平方」值 , 即它是面积而非长度 。其单位是 points^2 , 与原始分数的单位 points 不同 。那么如何甩掉平方呢?开平方根啊!
一文了解无处不在的标准差 标准差和方差

文章插图

最后 , 我们终于得到了标准差:变异的平方根 , 即 2.91points 。
这就是标准差的核心理念 。本文对标准差概念的基础直观解释可以帮助大家更容易地理解 , 为什么在处理 z 分数(z-score)、正态分布、标准误差和方差分析时要使用标准差的单位 。
此外 , 如果你用标准差公式中的拟合线 Y 替代平均值 , 则你在处理的是基础回归项 , 如均方误差(不开根号的话)、均方根误差(开根号 , 但是和拟合线相关) 。相关和回归公式均可使用不同量的平方和(或总变异区域)来写 。分割平方和是理解机器学习中的泛化线性模型和偏差-方差权衡的关键概念 。
简而言之:标准差无处不在 。
绝对值的问题
你可能会疑惑 , 为什么对差异求平方而不是取绝对值呢 。没有什么能够真正阻止你使用差异的平均绝对值 。平均绝对值给所有差异提供的是相同的权重 , 而差异平方为距离平均值较远的数字提供更多权重 。这或许是你想要的 。但是 , 大部分数学理论利用差异平方(其原因不在本文讨论范围内 , 如可微分) 。
不过 , 我会用一个容易理解的反例来回答这个问题 。假设有两个均值相同的分数集合:x_1 和 x_2:
从这些数字中 , 你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低 。我们来计算两个集合差异的平均绝对值(二者的平均值都为 6):
一文了解无处不在的标准差 标准差和方差

文章插图

哦 , 结果并不好!两个集合的变异值相同 , 尽管我们能够看到 x_1 的数字差异要比 x_2 低 。现在 , 我们使用差异平方计算 , 得到:
一文了解无处不在的标准差 标准差和方差

文章插图

在差异平方的作用下 , 我们得到了想要的结果:当数字越分散时 , 标准差越大 。
【一文了解无处不在的标准差 标准差和方差】

    推荐阅读