python数据统计函数 python 统计

python中pos函数用法Pos()功能在一个字符串中查找所包含的另一个字符串的起始位置 。语法Pos ( string1, string2 {,start } )
参数string1:string类型 , 指定要从中查找子串string2的字符串string2:string类型,指定要在string1中查找的字符串start:long类型 , 可选项,指定从string1的第几个字符开始查找 。缺省值为1返回值Long 。函数执行成功时返回在start位置后string2在string1中第一次出现的起始位置 。如果在string1中按指定要求未找到string2、或start的值超过了string1的长度,那么Pos()函数返回0 。如果任何参数的值为NULL,Pos()函数返回NULL 。用法Pos()函数在字符串查找时区分大小写 , 因此,"aa"不匹配"AA" 。
拓展资料:
公式的运用
一、数字处理
1、取绝对值函数
【python数据统计函数 python 统计】公式:=ABS(数字)
2、取整函数
公式:=INT(数字)
3、四舍五入函数
公式:=ROUND(数字,小数位数)
二、判断公式
1、如果计算的结果值错误那么显示为空
公式:=IFERROR(数字/数字,)
说明:如果计算的结果错误则显示为空,否则正常显示 。
2、IF语句的多条件判定及返回值
公式:IF(AND(单元格(逻辑运算符)数值 , 指定单元格=返回值1),返回值2,)
说明:所有条件同时成立时用AND,任一个成立用OR函数 。
三、常用的统计公式
1、统计在两个表格中相同的内容
公式:B2=COUNTIF(数据源:位置,指定的,目标位置)
说明:如果返回值大于0说明在另一个表中存在 , 0则不存在 。
如果,在此示例中所用到的公式为:B2=COUNTIF(Sheet15!A:A,A2)
2、统计不重复的总数据
公式:C2=SUMPRODUCT(1/COUNTIF(A2:A8,A2:A8))
说明:用COUNTIF函数统计出源数据中每人的出现次数 , 并用1除的方式把变成分数,最后再相加 。
四、数据求和公式
1、隔列求和的应用
公式:H3=SUMIF($A$2:$G$2 , H$2,A3:G3)或=SUMPRODUCT((MOD(COLUMN(B3:G3),2)=0)*B3:G3)
说明:如果在标题行中没有规则就可以用第2个公式
2、单条件应用之求和
公式:F2=SUMIF(A:A,C:C)
说明:这是SUMIF函数的最基础的用法
五、查找与引用公式
1、单条件查找
说明:VLOOKUP是excel中最常用的查找方式
六、字符串处理公式
1、多单元格字符串的合并
说明:Phonetic函数只能合并字符型数据 , 不能合并数值 。
2、截取结果3位之外的部分
说明:LEN计算总长度 , LEFT从左边截总长度-3个 。
Python pandas数据计数函数value_counts value_counts是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中个数,类似Excel里面的count函数
其是pandas下面的顶层函数 , 也可以作用在Series、DataFrame下
常规用法:
pandas 的 value_counts() 函数可以对Series里面的每个值进行计数 并且 排序 , 默认是降序
可以看出,既可以对分类变量统计,也可以对连续数值变量统计
如果是要对结果升序排列,可以添加 ascending=True 来改变
如果不想看统计的个数 , 而是想看占比 , 那么可以设置 normalize=True 即可,结果是小数形式
可以通过apply,对每一列变量进行统计
以上是自己实践中遇到的一些点,分享出来供大家参考学习 , 欢迎关注DataShare公众号
python统计字符串中字母数字出现的次数Python 统计字符串中字母数字出现次数的方法如下:
一、工具/原料:
华为 Matebook 15、Windows 10 专业版、PyCharm 2022 。
二、具体步骤:
1、自定义函数:打开 PyCharm,自定义一个函数“def 函数名” 。
2、输入字符串:定义函数后,输入字符串并保存至变量中 。
3、统计次数:使用 for 循环统计某个字母出现的次数,最后返回 num 的值 。
4、输出函数:最后输出函数“print(函数名())” 。
python数据统计分析1. 常用函数库
? scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了 。这个模块被重写并成为了现在独立的statsmodels包 。
?scipy的stats包含一些比较基本的工具,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析,还包含数据集,做图工具等等 。
2. 小样本数据的正态性检验
(1) 用途
?夏皮罗维尔克检验法 (Shapiro-Wilk) 用于检验参数提供的一组小样本数据线是否符合正态分布,统计量越大则表示数据越符合正态分布,但是在非正态分布的小样本数据中也经常会出现较大的W值 。需要查表来估计其概率 。由于原假设是其符合正态分布,所以当P值小于指定显著水平时表示其不符合正态分布 。
?正态性检验是数据分析的第一步,数据是否符合正态性决定了后续使用不同的分析和预测方法,当数据不符合正态性分布时,我们可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作 。
(2) 示例
(3) 结果分析
?返回结果 p-value=https://www.04ip.com/post/0.029035290703177452,比指定的显著水平(一般为5%)小,则拒绝假设:x不服从正态分布 。
3. 检验样本是否服务某一分布
(1) 用途
?科尔莫戈罗夫检验(Kolmogorov-Smirnov test),检验样本数据是否服从某一分布 , 仅适用于连续分布的检验 。下例中用它检验正态分布 。
(2) 示例
(3) 结果分析
?生成300个服从N(0,1)标准正态分布的随机数,在使用k-s检验该数据是否服从正态分布,提出假设:x从正态分布 。最终返回的结果 , p-value=https://www.04ip.com/post/0.9260909172362317,比指定的显著水平(一般为5%)大,则我们不能拒绝假设:x服从正态分布 。这并不是说x服从正态分布一定是正确的,而是说没有充分的证据证明x不服从正态分布 。因此我们的假设被接受 , 认为x服从正态分布 。如果p-value小于我们指定的显著性水平,则我们可以肯定地拒绝提出的假设,认为x肯定不服从正态分布,这个拒绝是绝对正确的 。
4.方差齐性检验
(1) 用途
?方差反映了一组数据与其平均值的偏离程度,方差齐性检验用以检验两组或多组数据与其平均值偏离程度是否存在差异,也是很多检验和算法的先决条件 。
(2) 示例
(3) 结果分析
?返回结果 p-value=https://www.04ip.com/post/0.19337536323599344, 比指定的显著水平(假设为5%)大 , 认为两组数据具有方差齐性 。
5. 图形描述相关性
(1) 用途
?最常用的两变量相关性分析,是用作图描述相关性,图的横轴是一个变量,纵轴是另一变量,画散点图,从图中可以直观地看到相关性的方向和强弱,线性正相关一般形成由左下到右上的图形;负面相关则是从左上到右下的图形,还有一些非线性相关也能从图中观察到 。
(2) 示例
(3) 结果分析
?从图中可以看到明显的正相关趋势 。
6. 正态资料的相关分析
(1) 用途
?皮尔森相关系数(Pearson correlation coefficient)是反应两变量之间线性相关程度的统计量,用它来分析正态分布的两个连续型变量之间的相关性 。常用于分析自变量之间,以及自变量和因变量之间的相关性 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为相关系数表示线性相关程度,其取值范围在[-1,1],绝对值越接近1,说明两个变量的相关性越强,绝对值越接近0说明两个变量的相关性越差 。当两个变量完全不相关时相关系数为0 。第二个值为p-value,统计学上,一般当p-value0.05时,可以认为两变量存在相关性 。
7. 非正态资料的相关分析
(1) 用途
?斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data ),它主要用于评价顺序变量间的线性相关关系,在计算过程中 , 只考虑变量值的顺序(rank, 值或称等级) , 而不考虑变量值的大小 。常用于计算类型变量的相关性 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为相关系数表示线性相关程度,本例中correlation趋近于1表示正相关 。第二个值为p-value,p-value越小 , 表示相关程度越显著 。
8. 单样本T检验
(1) 用途
?单样本T检验,用于检验数据是否来自一致均值的总体,T检验主要是以均值为核心的检验 。注意以下几种T检验都是双侧T检验 。
(2) 示例
(3) 结果分析
?本例中生成了2列100行的数组,ttest_1samp的第二个参数是分别对两列估计的均值 , p-value返回结果,第一列1.47820719e-06比指定的显著水平(一般为5%)小,认为差异显著,拒绝假设;第二列2.83088106e-01大于指定显著水平,不能拒绝假设:服从正态分布 。
9. 两独立样本T检验
(1) 用途
?由于比较两组数据是否来自于同一正态分布的总体 。注意:如果要比较的两组数据不满足方差齐性,需要在ttest_ind()函数中添加参数equal_var = False 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为统计量,第二个值为p-value,pvalue=https://www.04ip.com/post/0.19313343989106416,比指定的显著水平(一般为5%)大 , 不能拒绝假设,两组数据来自于同一总结 , 两组数据之间无差异 。
10. 配对样本T检验
(1) 用途
?配对样本T检验可视为单样本T检验的扩展,检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差 。它常用于比较同一受试对象处理的前后差异,或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为统计量,第二个值为p-value , pvalue=https://www.04ip.com/post/0.80964043445811551,比指定的显著水平(一般为5%)大,不能拒绝假设 。
11. 单因素方差分析
(1) 用途
?方差分析(Analysis of Variance,简称ANOVA),又称F检验,用于两个及两个以上样本均数差别的显著性检验 。方差分析主要是考虑各组之间的平均数差别 。
?单因素方差分析(One-wayAnova),是检验由单一因素影响的多组样本某因变量的均值是否有显著差异 。
?当因变量Y是数值型,自变量X是分类值,通常的做法是按X的类别把实例成分几组,分析Y值在X的不同分组中是否存在差异 。
(2) 示例
(3) 结果分析
?返回结果的第一个值为统计量,它由组间差异除以组间差异得到 , 上例中组间差异很大,第二个返回值p-value=https://www.04ip.com/post/6.2231520821576832e-19小于边界值(一般为0.05),拒绝原假设, 即认为以上三组数据存在统计学差异,并不能判断是哪两组之间存在差异。只有两组数据时 , 效果同 stats.levene 一样 。
12. 多因素方差分析
(1) 用途
?当有两个或者两个以上自变量对因变量产生影响时,可以用多因素方差分析的方法来进行分析 。它不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应 。
(2) 示例
(3) 结果分析
?上述程序定义了公式,公式中,"~"用于隔离因变量和自变量,” “用于分隔各个自变量 , ":"表示两个自变量交互影响 。从返回结果的P值可以看出,X1和X2的值组间差异不大,而组合后的T:G的组间有明显差异 。
13. 卡方检验
(1) 用途
?上面介绍的T检验是参数检验 , 卡方检验是一种非参数检验方法 。相对来说 , 非参数检验对数据分布的要求比较宽松,并且也不要求太大数据量 。卡方检验是一种对计数资料的假设检验方法,主要是比较理论频数和实际频数的吻合程度 。常用于特征选择,比如,检验男人和女人在是否患有高血压上有无区别,如果有区别,则说明性别与是否患有高血压有关,在后续分析时就需要把性别这个分类变量放入模型训练 。
?基本数据有R行C列, 故通称RC列联表(contingency table), 简称RC表,它是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 。
(2) 示例
(3) 结果分析
?卡方检验函数的参数是列联表中的频数 , 返回结果第一个值为统计量值 , 第二个结果为p-value值,p-value=https://www.04ip.com/post/0.54543425102570975,比指定的显著水平(一般5%)大,不能拒绝原假设 , 即相关性不显著 。第三个结果是自由度,第四个结果的数组是列联表的期望值分布 。
14. 单变量统计分析
(1) 用途
?单变量统计描述是数据分析中最简单的形式,其中被分析的数据只包含一个变量 , 不处理原因或关系 。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况 , 并找出数据的分布模型 。
?单变量数据统计描述从集中趋势上看,指标有:均值,中位数,分位数,众数;从离散程度上看,指标有:极差、四分位数、方差、标准差、协方差、变异系数,从分布上看,有偏度,峰度等 。需要考虑的还有极大值,极小值(数值型变量)和频数,构成比(分类或等级变量) 。
?此外,还可以用统计图直观展示数据分布特征,如:柱状图、正方图、箱式图、频率多边形和饼状图 。
15. 多元线性回归
(1) 用途
?多元线性回归模型(multivariable linear regression model ),因变量Y(计量资料)往往受到多个变量X的影响,多元线性回归模型用于计算各个自变量对因变量的影响程度,可以认为是对多维空间中的点做线性拟合 。
(2) 示例
(3) 结果分析
?直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显著性,P0.05则认为自变量具有统计学意义,从上例中可以看到收入INCOME最有显著性 。
16. 逻辑回归
(1) 用途
?当因变量Y为2分类变量(或多分类变量时)可以用相应的logistic回归分析各个自变量对因变量的影响程度 。
(2) 示例
(3) 结果分析
?直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显著性 , P0.05则认为自变量具有统计学意义 。
python中count函数怎么用Python count()方法用于统计字符串里某个字符或子字符串出现的次数,可选参数为在字符串搜索的开始与结束位置 。
语法
count()方法语法:
str.count(sub, start= 0,end=len(string))
参数
sub -- 搜索的子字符串
start -- 字符串开始搜索的位置,默认为第一个字符,第一个字符索引值为0
end -- 字符串中结束搜索的位置,字符中第一个字符的索引为0,默认为字符串的最后一个位置 。
返回值
该方法返回子字符串在字符串中出现的次数 。
Python 去重,统计,lambda函数df.drop_duplicates('item_name')
方法一:
df.drop_duplicates('item_name').count()
方法二:
df['item_name'].nunique()
结果:50
附:nunique()和unique()的区别:
unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
nunique()即返回的是唯一值的个数
比如:df['item_name'].unique()
要求:将下表中经验列将按周统计的转换为经验不限 , 保留学历
df1['经验'] = df1['经验'].apply(lambda x: '经验不限'x[-2:] if '周' in x else x)
#解释:将‘5天/周6个月’变成‘经验不限’,然后保留学历‘本科’
方法二:定义函数
def dataInterval(ss):
if '周' in ss:
return '经验不限'ss[-2:]
return ss
df1['经验'] = df1['经验'].apply(dataInterval)
关于python数据统计函数和python 统计的介绍到此就结束了 , 不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站 。

    推荐阅读