离散函数python 离散函数和连续函数( 二 )


.min()/.max() :计算数据的最小值、最大值
.diff() :计算一阶差分,对时间序列很有效
.mode() :计算众数,返回频数最高的那(几)个
.mean() :计算均值
.quantile() :计算分位数(0到1)
.isin() :用于判断矢量化集合的成员资格 , 可用于过滤Series中或DataFrame列中数据的子集
适用于Series的基本统计分析函数,DataFrame[列名]返回的是一个Series类型 。
.unique() :返回一个Series中的唯一值组成的数组 。
.value_counts() :计算一个Series中各值出现的频率 。
.argmin()/.argmax() :计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin()/.idxmax() :计算数据最大值、最小值所在位置的索引(自定义索引)
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数 。下表对它们进行了总结,其中read_csv()、read_table()、to_csv()是用得最多的 。
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑 。
在许多数据分析工作中 , 缺失数据是经常发生的 。对于数值数据,pandas使用浮点值NaN(np.nan)表示缺失数据,也可将缺失值表示为NA(Python内置的None值) 。
替换值
.replace(old, new) :用新的数据替换老的数据,如果希望一次性替换多个值,old和new可以是列表 。默认会返回一个新的对象,传入inplace=True可以对现有对象进行就地修改 。
删除重复数据
利用函数或字典进行数据转换
df.head():查询数据的前五行
df.tail():查询数据的末尾5行
pandas.cut()
pandas.qcut() 基于分位数的离散化函数 。基于秩或基于样本分位数将变量离散化为等大小桶 。
pandas.date_range() 返回一个时间索引
df.apply() 沿相应轴应用函数
Series.value_counts() 返回不同数据的计数值
df.aggregate()
df.reset_index() 重新设置index,参数drop = True时会丢弃原来的索引,设置新的从0开始的索引 。常与groupby()一起用
numpy.zeros()
如何在Python中实现这五类强大的概率分布R编程语言已经成为统计分析中的事实标准 。但在这篇文章中,我将告诉你在Python中实现统计学概念会是如此容易 。我要使用Python实现一些离散和连续的概率分布 。虽然我不会讨论这些分布的数学细节,但我会以链接的方式给你一些学习这些统计学概念的好资料 。在讨论这些概率分布之前,我想简单说说什么是随机变量(random variable) 。随机变量是对一次试验结果的量化 。
举个例子,一个表示抛硬币结果的随机变量可以表示成
Python
1
2
X = {1 如果正面朝上,
2 如果反面朝上}
随机变量是一个变量,它取值于一组可能的值(离散或连续的),并服从某种随机性 。随机变量的每个可能取值的都与一个概率相关联 。随机变量的所有可能取值和与之相关联的概率就被称为概率分布(probability distributrion) 。
我鼓励大家仔细研究一下scipy.stats模块 。
概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布 。
离散概率分布也称为概率质量函数(probability mass function) 。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribution)等 。
连续概率分布也称为概率密度函数(probability density function),它们是具有连续取值(例如一条实线上的值)的函数 。正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)等都属于连续概率分布 。

推荐阅读