python累计分布函数 python数据分布统计

使用Python构造经验累积分布函数(ECDF)对于一个样本序列 , 经验累积分布函数 (Empirical Cumulative Distribution Function)可被定义为
其中是一个指示函数,如果 , 指示函数取值为1,否则取值为0,因此能反映在样本中小于的元素数量占比 。
根据格利文科定理(Glivenko–Cantelli Theorem),如果一个样本满足独立同分布(IID) , 那么其经验累积分布函数会趋近于真实的累积分布函数。
首先定义一个类,命名为ECDF:
我们采用均匀分布(Uniform)进行验证,导入 uniform 包,然后进行两轮抽样,第一轮抽取10次,第二轮抽取1000次,比较输出的结果 。
输出结果为:
而我们知道,在真实的0到1均匀分布中,时,,从模拟结果可以看出,样本量越大 , 最终的经验累积分布函数值也越接近于真实的累积分布函数值,因此格利文科定理得以证明 。
怎样用python的matplotlib模块画累积分布图下面的程序绘制随机变量X的累积分布函数和数组p的累加结果
pl.plot(t, X.cdf(t))
pl.plot(t2, np.add.accumulate(p)*(t2[1]-t2[0]))
统计学入门级:常见概率分布+python绘制分布图 如果随机变量X的所有取值都可以逐个列举出来,则称X为离散型随机变量 。相应的概率分布有二项分布,泊松分布 。
如果随机变量X的所有取值无法逐个列举出来 , 而是取数轴上某一区间内的任一点,则称X为连续型随机变量 。相应的概率分布有正态分布,均匀分布,指数分布,伽马分布,偏态分布,卡方分布,beta分布等 。(真多分布,好恐怖~~)
在离散型随机变量X的一切可能值中,各可能值与其对应概率的乘积之和称为该随机变量X的期望值,记作E(X)。比如有随机变量 , 取值依次为:2,2,2,4,5 。求其平均值:(2+2+2+4+5)/5 = 3 。
期望值也就是该随机变量总体的均值 。推导过程如下:
= (2+2+2+4+5)/5
= 1/5 2 3 + 4/5 + 5/5
= 3/5 2 + 1/5 4 + 1/5 5
= 0.6 2 + 0.2 4 + 0.2 5
= 60% 2 + 20% 4 + 20%*5
= 1.2 + 0.8 + 1
= 3
倒数第三步可以解释为值为2的数字出现的概率为60%,4的概率为20%,5的概率为20% 。所以E(X) = 60% 2 + 20% 4 + 20%*5 = μ = 3 。
0-1分布(两点分布) , 它的随机变量的取值为1或0 。即离散型随机变量X的概率分布为:P{X=0} = 1-p, P{X=1} = p,即:
则称随机变量X服从参数为p的0-1分布,记作X~B(1,p) 。
在生活中有很多例子服从两点分布,比如投资是否中标 , 新生婴儿是男孩还是女孩,检查产品是否合格等等 。
大家非常熟悉的抛硬币试验对应的分布就是二项分布 。抛硬币试验要么出现正面 , 要么就是反面,只包含这两个结果 。出现正面的次数是一个随机变量,这种随机变量所服从的概率分布通常称为 二项分布。
像抛硬币这类试验所具有的共同性质总结如下:(以抛硬币为例)
通常称具有上述特征的n次重复独立试验为n重伯努利试验 。简称伯努利试验或伯努利试验概型 。特别地,当试验次数为1时,二项分布服从0-1分布(两点分布) 。
举个栗子:抛3次均匀的硬币,求结果出现有2个正面的概率。
已知p = 0.5 (出现正面的概率),n = 3,k = 2
所以抛3次均匀的硬币,求结果出现有2个正面的概率为3/8 。
二项分布的期望值和方差 分别为:
泊松分布是用来描述在一 指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。生活中服从泊松分布的例子比如有每天房产中介接待的客户数 , 某微博每月出现服务器瘫痪的次数等等 。泊松分布的公式为 :

推荐阅读