python中抽样函数 python随机抽取一个数( 五 )


贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率,来得到新的机率(这和频率论推论相反,频率论推论只考虑证据,不考虑先验机率) 。
而且贝叶斯估计可以迭代使用:在观察一些证据后得到的后设机率可以当作新的先验机率,再根据新的证据得到新的后设机率 。因此贝斯定理可以应用在许多不同的证据上,不论这些证据是一起出现或是不同时出现都可以 , 这个程序称为 贝叶斯更新 (Bayesian updating) 。
中心极限定理表示样本容量足够大,平均数的抽样分布越接近正态分布 。
中心极限定理 实际上应用于这些常见的统计量中:
推论统计在于使用我们收集的数据( 样本 )对更大的总体数据( 总体 )得出结论 。
使用推论统计要求我们对准确代表感兴趣的总体进行取样 。
收集数据的常见方式是调查 。然而,根据提问的问题和提问的方式,调查会带有 偏见性。这是解决项目时你应该想到的话题 。
Bootstrap方法是非常有用的一种统计学上的估计方法,是斯坦福统计系的教授Bradley Efron【9】在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法 。【8】
Bootstrap是可进行统计量区间估计的统计方法,也称为自助法 。
我们往往无法知道总体的参数 , 因此我们通过抽样来试图对总体的参数进行估计 。为此,一种方法是不停的对总体不停的取样,来得出样本统计量的分布 。但是,这显然是不可能的 。还有两种方法能派上用?。?
对于#1 , 如果你能确定假设成立,即整体服从某一种分布,那么只要计算量在可接受的范围内,就没有问题 。比方说,总体服从正态分布,那么样本来自总体,也能以正态分布进行描述,抽样分布为正态分布 。然而 , 当总体分布未知的时候,只能以Bootstrap方法进行分析 。
我们有理由采用#2,因为样本是我们仅有的也是最好的关于总体的信息,而且,大多数随机抽取的样本同总体非常的相似 。【10】
Bootstrap是放回抽样 。这里以一个??来描述其基本过程:
假设我们有两个金融资产X和Y , 我们现在想要合理配置这两个资产,使得其资产组合的风险最小 。也就是找到一个α,使得Var(αX + (1-α) Y)最小 。这个问题几十年前马尔可维茨已经在其投资组合理论里给出了解答,最优的α表达式如下:
我们发现,通过Bootstrap方法我们竟然不仅可以估计α的值( 这点普通方法也可以很容易做到) , 还可以估计α的accuracy也就是其Standard Error 。这可是只利用原有的样本进行一次估计所做不到的 。那么Bootstrap对于分布特性的估计效果究竟如何呢?请看下图:
左边是真实的α分步,右边则是基于bootstrap方法得到的1000个α的分布,可以看到,二者是比较相近的,也就是说Bootstrap有着不错的估计效果 。而且当重复次数增多,Bootstrap的估计效果会更好 。
不仅是α的标准差,如果我们想要估计α的中位数、分位数等统计量 , 也是可以通过Boostrap方法做到的,其整个流程可以用下面一张图诠释:
本质上,Bootstrap方法,是将一次的估计过程,重复上千次上万次,从而便得到了得到上千个甚至上万个的估计值,于是利用这不止一个的估计值,我们就可以估计α均值以外的其他统计量:比如标准差、中位数等 。
在 python 中使用 random.choice 实际上是自助法 。无论选择多少次 , 我们数据集中任何数字的概率保持不变 。
【1】 抽样分布
【2】 似然函数

推荐阅读