您可以使用.rvs函数模拟一个二项随机变量,其中参数size指定你要进行模拟的次数 。我让Python返回10000个参数为n和p的二项式随机变量 。我将输出这些随机变量的平均值和标准差 , 然后画出所有的随机变量的直方图 。
泊松分布(Poisson Distribution)
一个服从泊松分布的随机变量X,表示在具有比率参数(rate parameter)λ的一段固定时间间隔内 , 事件发生的次数 。参数λ告诉你该事件发生的比率 。随机变量X的平均值和方差都是λ 。
E(X) = λ, Var(X) = λ
泊松分布的例子:已知某路口发生事故的比率是每天2次,那么在此处一天内发生4次事故的概率是多少?
让我们考虑这个平均每天发生2起事故的例子 。泊松分布的实现和二项分布有些类似,在泊松分布中我们需要指定比率参数 。泊松分布的输出是一个数列,包含了发生0次、1次、2次,直到10次事故的概率 。我用结果生成了以下图片 。
你可以看到 , 事故次数的峰值在均值附近 。平均来说,你可以预计事件发生的次数为λ 。尝试不同的λ和n的值 , 然后看看分布的形状是怎么变化的 。
现在我来模拟1000个服从泊松分布的随机变量 。
正态分布(Normal Distribution)
正态分布是一种连续分布,其函数可以在实线上的任何地方取值 。正态分布由两个参数描述:分布的平均值μ和方差σ2。
E(X) = μ, Var(X) = σ2
正态分布的取值可以从负无穷到正无穷 。你可以注意到,我用stats.norm.pdf得到正态分布的概率密度函数 。
β分布(Beta Distribution)
β分布是一个取值在 [0, 1] 之间的连续分布 , 它由两个形态参数α和β的取值所刻画 。
β分布的形状取决于α和β的值 。贝叶斯分析中大量使用了β分布 。
当你将参数α和β都设置为1时,该分布又被称为均匀分布(uniform distribution) 。尝试不同的α和β取值 , 看看分布的形状是如何变化的 。
指数分布(Exponential Distribution)
指数分布是一种连续概率分布,用于表示独立随机事件发生的时间间隔 。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等 。
我将参数λ设置为0.5,并将x的取值范围设置为 $[0, 15]$。
接着,我在指数分布下模拟1000个随机变量 。scale参数表示λ的倒数 。函数np.std中,参数ddof等于标准偏差除以 $n-1$ 的值 。
结语(Conclusion)
概率分布就像盖房子的蓝图,而随机变量是对试验事件的总结 。我建议你去看看哈佛大学数据科学课程的讲座,Joe Blitzstein教授给了一份摘要,包含了你所需要了解的关于统计模型和分布的全部 。
使用Python构造经验累积分布函数(ECDF)对于一个样本序列,经验累积分布函数 (Empirical Cumulative Distribution Function)可被定义为
其中是一个指示函数,如果 , 指示函数取值为1,否则取值为0,因此能反映在样本中小于的元素数量占比 。
根据格利文科定理(Glivenko–Cantelli Theorem),如果一个样本满足独立同分布(IID),那么其经验累积分布函数会趋近于真实的累积分布函数。
首先定义一个类,命名为ECDF:
我们采用均匀分布(Uniform)进行验证 , 导入 uniform 包,然后进行两轮抽样,第一轮抽取10次,第二轮抽取1000次,比较输出的结果 。
输出结果为:
而我们知道 , 在真实的0到1均匀分布中,时,,从模拟结果可以看出,样本量越大,最终的经验累积分布函数值也越接近于真实的累积分布函数值 , 因此格利文科定理得以证明 。
推荐阅读
- 网上银行换手机卡怎么换,怎么网上银行把银行卡换绑手机号
- 电脑服务器硬盘怎么安装,服务器硬盘如何安装
- 如何定位电商企业,做电商产品如何定位
- 单机机枪射击游戏,单机版枪击游戏
- linux查看网卡命令 linux系统查看网卡状态命令
- 录音怎么制作到电脑上的,怎么用录音制作视频
- 包含linux服务器上安装mysql数据库的词条
- 直播台式电脑用多大电源,直播电源要配大一点么
- mysql双引号怎么打 mysql中双引号和单引号