python中抽样函数 python随机抽取一个数( 四 )


⑸可以用回归分析的方法完成缺失值插补工作
⑹如果样本量很多,缺失的数据很少,可以选择直接剔除的方法
3、数据异常值处理
⑴summary函数进行简单的查看,比如:最大值、最小值等
⑵boxplot函数绘制箱线图
4、数据抽样
⑴sample函数进行随机抽样
⑵caret包中的createDataPartition()函数对训练样本和测试样本进行等比例抽样
⑶caret包中的createFold函数根据某一个指标进行等比例抽样
⑷DMwR包中SMOTE函数可以解决处理不平衡分类问题
注:比如决策树算法中,如果样本严重不平衡,那么模型会出现欠拟合现象
5、变量的多重共线性处理
⑴结合业务,先删除那些和分析无关的指标
⑵corrgram包的corrgram函数查看相关系数矩阵
⑶caret包中的findCorrelation函数查看多重共线性
⑷如果相关性太大,可以考虑删除变量;如果变量比较重要,可以考虑主成分/因子分析进行降维处理
统计学6-抽样分布 抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布 。样本估计量是样本的一个函数 , 在统计学中称作统计量,因此抽样分布也是指统计量的分布 【1】 。以样本平均数为例,它是总体平均数的一个估计量 , 如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布 。
也就是说,我们将 抽样分布 定义为 样本统计量 的分布 。
有多种样本统计量:均值,方差,标准差 。
如果说我们有随机变量X,和方差 σ 2,那么的分布 (样本平均数的抽样分布) 方差为: σ 2/n
我们经常使用希腊符号作为 参数,使用小写字母作为对应 统计量。有时候在文学作品中,你也会看到带有 "帽子" 的希腊字母 , 表示这是对应 参数 的估算 。
下面这个表格提供了一些最常见的参数和对应统计量:
大数法则 表示 随着样本容量增加,样本平均数越来越接近总体平均数。
但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?
下面是三种最常见的估计技巧:
最大似然估计 (英语:maximum likelihood estimation,缩写为MLE),也称 极大似然估计 、 最大概似估计 ,是用来估计一个概率模型的参数的一种方法【4】 。
上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理 。
最大似然估计的做法是:首先选取似然函数(一般是概率密度函数)或概率质量函数),整理之后求最大值 。实际应用中一般会取 似然函数的对数作为求最大值的函数 ,这样求出的最大值和直接求最大值得到的结果是相同的 。似然函数的最大值不一定唯一 , 也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大 。
贝叶斯估计(Bayesian estimation)是利用贝叶斯定理【7】结合 新的证据 及以前的 先验概率  , 来得到 新的概率。它提供了一种计算假设概率的方法 , 基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身 。
贝叶斯估计将 后验概率 (考虑相关证据或数据后,某一事件的条件机率)推导为 先验概率 (考虑相关证据或数据前,某一事件不确定性的机率)及 似然函数 的共同作用结果 。贝叶斯推断根据贝叶斯定理计算后验概率:
针对不同的 H 数值,只有 P(H) 和 P(E|H) (都在分子)会影响 P(H|E) 的数值 。假说的 后验概率 和其 先验概率 (固有似然率)和新产生的 似然率 (假说和新得到证据的相容性)乘积成正比 。

推荐阅读