切比雪夫不等式

本篇讨论统计学中一个非常重要的不等式,切比雪夫(Chebyshev)不等式。
切比雪夫不等式通常是在研究随机变量的期望值和方差的时候会提到的一个结论,它看上去似乎很复杂,但其实有着非常直观的解释和作用,同时它也是后面要讨论的大数定律的基础引理,真的是非常非常重要。
马尔可夫不等式
在讨论切比雪夫不等式之前,首先需要理解它的基础版本,即马尔可夫(Markov)不等式,它相对而言更简单,有着更直观的解释。
马尔可夫不等式的形式是,考虑随机变量\( X \geq 0 \) ,它的期望值为 \( E(X) \),那么对于任意 \( a>0 \) 有如下不等式成立:
$$ P(X \geq a) \leq {E(x) \over a} $$
也就是说对于任意正数 \( a \),\( X\geq a \) 的概率被约束在了某个上限;
这是为什么?初看感觉很神奇,然而它的证明非常简单。我们这里只考虑离散随机变量(连续性的随机变量也是一样的):
$$ \begin{align} E(X) &= \sum{X_iP(X_i)}\\ &\geq \sum_{X \geq a}{X_iP(X_i)}\\ &\geq \sum_{X \geq a}{aP(X_i)} = a\sum_{X \geq a}P(X_i) = aP(X\geq a) \end{align} $$
因此:
$$ \begin{align} & a \cdot P(X\geq a)\leq E(X)\\ & P(X \geq a) \leq {E(x) \over a} \end{align} $$
不要被上面一连串的式子吓到,如果你看懂了,可以尝试从更直观的角度去理解它,马尔可夫不等式到底在说一件什么事情?
对于任意一个值 \( a > 0 \),\( X \) 在分布上有比 \( a \) 小的部分,也有大于等于 \( a \) 的部分:
【切比雪夫不等式】切比雪夫不等式
文章图片

那么整体的期望值 \( E(X) \),等于左右两部分的 \( X \) 按照各自占比加权后的和。
现在我们只考虑右半部分即 \( X \geq a \) 的部分,这部分的占比(即概率 \( P(X \geq a) \))乘以这部分 \( X \) 的下限值 \( a \),肯定是小于这半部分 \( X \) 整体的加权和的,那它当然也就不可能大于整体的期望值 \( E(X) \),这在数学表达上就是:
$$ a\cdot P(X\geq a)\leq E(X) $$
仔细体会一下,你会发现这是简单而明了的结论。而且这其实并不是一个很强的不等式,它的条件放的是比较宽松的。
切比雪夫不等式
接下来我们再考虑切比雪夫不等式,它实际上是马尔可夫不等式的一个应用版本,讨论的是随机变量的分布受到其方差的约束。
对于随机变量 \( X \)(离散或连续),它的期望值为 \( \mu \),方差为 \( \sigma^2 \),那么切比雪夫不等式给出如下结论,对于任意 \( a > 0 \):
$$ P(|X - \mu| \geq a) \leq {{\sigma^2} \over {a^2}} $$
或者写成:
$$ a^2 \cdot P(|X - \mu| \geq a) \leq {\sigma^2} $$
这在形式上和马尔可夫不等式是非常相似的,都是在描述某个随机变量(这里是 \( |X - u| \))大于 \( a \) 的部分的概率,受到某个值的上限约束。
如果你很好理解了马尔可夫不等式,那么切比雪夫不等式的结论应该也是显而易见的。因为从本质上来说,方差也是一种期望值,它计算的是 \( X \) 离中心点 \( \mu \) 的距离平方的期望值:
$$ \sigma^2 =\sum(X_i - \mu)^2 P(X_i) $$
以 \( a \) 为分界线,上面的式子也可以写成:
$$ \sigma^2 ={\sum_{|X_i-\mu| < a}|X_i - \mu|^2 P(X_i)} + {\sum_{|X_i-\mu| \geq a}|X_i - \mu|^2 P(X_i)}\\ $$
即在 \( X \) 的分布中,距离 \( \mu \) 小于 \( a \) 的那部分的加权和,加上大于等于 \( a \) 的那部分的加权和;从图上看,就是分成了白色部分和阴影部分;
切比雪夫不等式
文章图片

那么显然,距离 \( \mu \) 大于 \( a \) 的那部分的占比(阴影部分),受到马尔可夫不等式的约束,就会有一个上限值;
$$ a^2 \cdot P(|X-\mu| \geq a) \leq \sigma^2 $$
这里的关键是,理解用 \( |X - \mu| \) 来代替马尔可夫不等式中 \( X \) 的形式;
应用
马尔可夫不等式也好,切比雪夫不等式也好,其实是一个反推出来的不等式,就是说在期望值 \( E \) 已知的情况下,整体概率分布中大于 \( a \) 的那部分的占比,是受到 \( E \) 上限约束的;反过来说,用反证法,如果没有这个约束,是不可能计算得出当前的这个整体期望值 \( E \) 的。
那么对于切比雪夫不等式而言,它实际上给出了用方差来约束原始概率分布的一个结论,即原始分布 \( X \) 中,距离均值 \( \mu \) 大于 \( a \) 的那部分的概率,一定是小于某个值的。也就是说它约束了偏离 \( \mu \) 太远的那部分 \( X \) 的占比。
那么它有什么应用呢?它最重要的一个应用,就是被用来证明概率论中一个非常重要的理论,即大数定律,一个看上去显而易见,然而你却不知道怎么严格证明的结论,这个放在下一篇详细讨论。

    推荐阅读