基于bootstrap方法的统计分析

【基于bootstrap方法的统计分析】统计雪中bootstrap , BootstrapMethod (bootstrap)的具体含义是Efron(1979)在AnnalsofStatistics上发表的一种方法,也就是现代的- 。Bootstrap和交叉验证有什么区别统计?它们都是重采样方法,通常在数据集较小时使用 。

1、 统计学基础概念:自举法、置信区间、标准误Bootstrap方法是一种基于原始数据的模拟抽样统计推断方法,可用于研究一组数据的某统计数量的分布特征,尤其适用于那些用常规方法难以导出的区间估计、假设检验等问题 。Bootstrap的基本思想是:在原始数据的范围内重新抽样withreplacement,样本量仍然是n,原始数据中每个观察单元的概率每次都是相等的 。

由此产生的样本称为引导样本 。当使用Bootstrap方法时,原始数据的数量最好等于10 。置信区间是指由样本统计数量构造的总体参数的估计区间,Bootstrap是计算置信区间的方法之一 。假设我们要估算一组雌性小鼠的体重 , 取样12只小鼠称重,如下图 。红点是每只老鼠的体重,红线是12只老鼠的平均体重 。我们可以用bootstrap的方法得到这个样本均值的置信区间 , 步骤如下:所谓95%置信区间 , 就是覆盖中间95%均值的区间(如下图黑线所示),衡量数据误差的常用指标有三个:标准差指1统计数量(均值、标准差等 。)的多个样本 。

2、 统计学中 bootstrap的具体含义,中文名字,用法举例好难 。BootstrapMethod (bootstrap)是Efron在AnnalsofStatistics (1979)中发表的一种方法,它是近代发展过程中一个非常重要的里程碑统计 , 它的实现往往需要现代快速计算机的帮助 。比如在用样本均值估计母体的期望值时,为了了解这种估计的误差,我们往往会用confidenceinterval方法进行估计,这时就需要知道样本均值的抽样分布 。

3、Bootstrap与Cross-Validation两种 统计方法有何区别也是一样,两者都是重采样方法,在数据集较小时常用 。不同之处 , 我认为主要在于亮点:一是目的不同 。CV主要用于模型选择,比如在KNN选择多少K , 使得估计的testerror更小 。Bootstrap主要用来看所选模型的不确定性,比如参数的标准差 。
在kfoldCV中,将原始数据集分成k等份(等份之间没有交集),在每次验证中,将其中一份视为validationset,其余视为trainingset 。在Bootstrap中 , training和validationset没有区别,在resample中,允许替换 , 也就是说,同一个样本可以重复出现 。

    推荐阅读