统计学|统计方法巡礼(一)算命先生和统计方法

统计方法巡礼(一)算命先生和统计方法 近些年来,随着一波人不屑的努力炒作,“大数据”这个概念已经被非常成功的销售给了所有人。现在如果一个东西不和“大数据”,“云”,“机器学习”等概念沾点边,这个东西恐怕就没人买了。有趣的是和女朋友去五道口蹦迪都能遇到不少自称是“大数据”从业者的蹦迪选手。既然大数据的概念很火,有排面,统计的人自然一定会不甘寂寞了,他们于是开始大量在“大数据”的销售场合销售“统计学”,并自诩“统计学”是“大数据”的鼻祖,所以这也是“统计”这几年来被很多人经常提到的原因。关于“什么是统计”这个问题是非常大的,也是无法回答的。所以与其纠结于一个理论上“Perfect”的定义,我倒是更愿意用实实在在的方法,实实在在的算法和模型来对常见的统计方法做一个巡礼。
每个搞统计的都是半个算命先生

统计方法是一套从数据中获得知识的方法论。 by Michael Jordan
这么说太抽象对吧。让我们把视角放大一些,闭上眼睛想象自己是一个刚出生不久的婴儿,然后在洗澡盆中洗澡,然后你会惊讶的发现自己浮起来了。这是一个现象,也是一个规律,即“你在水中会浮起来”,或者“物体在水中”会浮起来。但是这只是一个定性的规律,那么聪明人会问,到底什么样的物体会浮起来,或者精确点讲就是,到底“物体在水中会浮起来这件事”如何用数学精确表述?然后你会用一些方法来从观察(Observation)中获得精确的规律(Models),这些方法就对应着我们想聊的“统计方法”。另一个关于统计方法解释的极妙的例子是中国的风水。风水这件事,概括起来就是风水先生会根据他的观察和你的陈述,然后用一些方法去确定你的命运如何。而如果把风水先生换成统计学家,把你的陈述换成你帮统计学家收集的“数据(Data)”,将先生推测的命运换成数据服从的概率“模型(Models)”,那么这个风水先生算命的故事就变成了一个科学家进行数据分析的故事。See,每个搞统计的其实都是半个算命先生,不过他们是在给各种各样的随机现象在算命罢了。
现实生活(Real Life)的随机现象比比皆是。例如明天的乐视股票价格,例如明天是够会下雨等等。面对这些现象,统计学家会将这些随机规律用数学描述出来,例如,假设明天的乐视股片的价格服从一个正太分布 N ( μ , σ 2 ) \mathcal N(\mu,\sigma^2) N(μ,σ2) ,其中μ \mu μ 和σ 2 \sigma^2 σ2 是模型的参数,或者明天是否会下雨这个0-1变量服从一个白努力分布B i n ( θ ) Bin(\theta) Bin(θ) 。上边的这个过程叫做统计建模。然后有了这个假设还不行啊,因为不知道参数的话假设等于没有啊。So 参数从哪里来?参数当然得从数据里来呗。然后统计学家会让自己的学生去守个几百天,每天记录乐视股票的价格,然后获得了一堆数据,类似于D = { x 1 = 10.0 , x 2 = 9.1 , . . . , x n = 10.3 } \mathcal D=\{x_1=10.0,x_2=9.1,...,x_n=10.3\} D={x1?=10.0,x2?=9.1,...,xn?=10.3} 这样的一个数据集,当然了,学生可以将数据存成txt文件或者csv文件,或者直接存成一个.npy的python 文件也没问题。现在有了数据了,也有了假设了,那么自然需要一个方法利用数据去确定参数了,一个简单的例子就是你直接用数据的平均值x ˉ = Σ x i n \bar{x}=\frac{\Sigma x_i}{n} xˉ=nΣxi?? 来确定参数μ \mu μ ,这个过程就叫做“统计推断”或者“参数估计”,而用来确定参数的方法就成为“统计方法”。然后统计学家就的到了一个他认为的随机规律(模型),然后他就可以基于这个模型去做任何他想做的事情了,例如计算一下明天乐事股票涨1块钱的概率啊之类的,这个过程可以叫做是模型应用。所以你可以看出,一个完整的“从数据中获得知识”的流程就是这样,这句话中的“知识”指的就是模型的参数。
【统计学|统计方法巡礼(一)算命先生和统计方法】Well,一般人讲统计,自然到这个里就停止了,然后就是统计大发好啊,统计大法秒啊一顿装X。但是我想说的是,统计方法是一套关于应用的方法论。既然是应用,那必须面对好不好用这个问题。换句话说,就是难道对于随机规律,或者说用数据的方法只有统计方法吗?错。真实的情况是,基于统计的方法在有的问题场景上好用,而在很多问题上并不好用。机器学习中有很多基于别的motivation的模型和方法在很多场景下要绝对击败基于统计的方法。例如深度学习中的建模方法和基于几何直观的SVM等老方法都没有一个好的几何解释但是仍然很牛X。这里我不是想贬低统计的方法,因为本人也做统计方法方面的研究,但是我想说的是不能认为统计是全部,还有其他的数据应用的方法论。这个道理其实也很简单,就像同样是算命行业,北方和南方的算命从业者使用的方法和模型都截然不同,有的看手相,有的看面相,有的把脉而有的有其他奇招异术。所以,在这里我们还是要引用小平同志的一句话,对于应用学科,“黑猫白猫,抓住耗子就是好猫”。

    推荐阅读