Python函数抽样 python 抽样函数

使用Python构造经验累积分布函数(ECDF)对于一个样本序列,经验累积分布函数 (Empirical Cumulative Distribution Function)可被定义为
其中是一个指示函数,如果,指示函数取值为1,否则取值为0,因此能反映在样本中小于的元素数量占比 。
根据格利文科定理(Glivenko–Cantelli Theorem),如果一个样本满足独立同分布(IID),那么其经验累积分布函数会趋近于真实的累积分布函数。
首先定义一个类,命名为ECDF:
我们采用均匀分布(Uniform)进行验证,导入 uniform 包 , 然后进行两轮抽样,第一轮抽取10次,第二轮抽取1000次 , 比较输出的结果 。
输出结果为:
而我们知道,在真实的0到1均匀分布中,时,,从模拟结果可以看出,样本量越大,最终的经验累积分布函数值也越接近于真实的累积分布函数值,因此格利文科定理得以证明 。
统计学6-抽样分布 抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布 。样本估计量是样本的一个函数 , 在统计学中称作统计量,因此抽样分布也是指统计量的分布 【1】 。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量 , 相同的抽样方式,反复地抽取样本 , 每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布 。
也就是说 , 我们将 抽样分布 定义为 样本统计量 的分布 。
有多种样本统计量:均值 , 方差,标准差 。
如果说我们有随机变量X,和方差 σ 2,那么的分布 (样本平均数的抽样分布) 方差为: σ 2/n
我们经常使用希腊符号作为 参数,使用小写字母作为对应 统计量。有时候在文学作品中,你也会看到带有 "帽子" 的希腊字母,表示这是对应 参数 的估算 。
下面这个表格提供了一些最常见的参数和对应统计量:
大数法则 表示 随着样本容量增加 , 样本平均数越来越接近总体平均数。
但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?
下面是三种最常见的估计技巧:
最大似然估计 (英语:maximum likelihood estimation , 缩写为MLE),也称 极大似然估计 、 最大概似估计 ,是用来估计一个概率模型的参数的一种方法【4】 。
上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理 。
最大似然估计的做法是:首先选取似然函数(一般是概率密度函数)或概率质量函数),整理之后求最大值 。实际应用中一般会取 似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的 。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较 , 最大似然估计的精确度较高,信息损失较少,但计算量较大 。
贝叶斯估计(Bayesian estimation)是利用贝叶斯定理【7】结合 新的证据 及以前的 先验概率  , 来得到 新的概率。它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身 。
贝叶斯估计将 后验概率 (考虑相关证据或数据后,某一事件的条件机率)推导为 先验概率 (考虑相关证据或数据前,某一事件不确定性的机率)及 似然函数 的共同作用结果 。贝叶斯推断根据贝叶斯定理计算后验概率:
针对不同的 H 数值,只有 P(H) 和 P(E|H) (都在分子)会影响 P(H|E) 的数值 。假说的 后验概率 和其 先验概率 (固有似然率)和新产生的 似然率 (假说和新得到证据的相容性)乘积成正比 。

推荐阅读