统计学与数据挖掘 统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理和分析统计资料认识客观现象数量规律性的方法论科学。由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,并被广泛应用与自然、社会、经济、科技等各个领域的分析中。
当我们使用统计学进行数据挖掘时,统计学的方法可用于汇总或描述数据集,也可用于验证数据挖掘结果。统计学是以某种方式模拟数据,解释数据的随机性和确定性,并用于提取观察到的结论,如果结果不可能随即发生,则说明它具有统计学意义。
常用的统计学指标 在进行数据分析时,经常会使用一些分析指标或术语。这些指标或术语可以帮助我们打开思路,通过多个角度对数据进行深度解读。下面是数据统计分析常用的指标或术语。
1.平均数平均数一般指算术平均数。算术平均数是指全部数据累加除以数据个数。它是非常重要的基础性指标。
(1)几何平均数:适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。
(2)加权平均数:普通的算数平均数的权重相等,算数平均数是特殊的加权平均数(权重都是1)。
2.绝对数与相对数
绝对数是反映客观现象总体在一定时间、地点条件下的总规模和总水平的综合性指标,如GDP。此外,绝对数也可以表现在一定条件下数量的增减变化。相对数是指两个有联系的指标对比计算得到的数值,它是用以反映事物性质发展变化趋势的指标。
其中:
相对数=比较数值(比数)/基础数值(基数)
比数:与基数对比的指标数值
基数:对比标准的指标数值
3.百分比与百分点
百分比表示一个数是另一个数的百分之几的数,也叫百分率。百分点是用以表达不同百分数之间的“算数差距"(即查)的单位。用百分数表达其比例关系,用百分点表达其数值差距。1个百分点即1%,表示构成的变动幅度不宜用百分数,而应该用百分点。
4.频数与频率
频数是指一组数据中个别数据重复出现的次数。频数是绝对数,频率是相对数。
5.比例与比率
比例与比率都是相对数。比例是指总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构;而比率是指不同类别数值的对比,它反应的不是部分与整体之间的关系,而是一个整体中部分之间的关系。这一指标经常会用在社会经济领域。
6.倍数与番数
倍数与番数同属于相对数。其中,倍数是一个数除以外一个数所得的商。
- 同比与环比
同比是指与历史同时期进行比较得到的数据,该指标主要反映的是事物发展的相对情况,如2012年12月与2011年12月相比。英文翻译同比为yar-on-year ratio。环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,如2010年12月与2010年11月相比。环比的英文可翻译为compare with theperformance/figure/statistics last month。同比是与上年的同期水平对比,环比是同一年连环的两期对比。
峰值是指增长曲线的最高点(顶点),如我国总人口在2033 年将达峰值15亿。在数学上,拐点指改变曲线向上或向下方向的点,在统计学中指趋势开始改变的地方,出现拐点后的走势将保持基本稳定。
9.增量与增速
【2021深圳杯A题|常用的统计学指标及其含义】增量是指数值的变化方式和程度。增速是指数值增长程度的相对指标。
如果需要python帮忙或是编程 请与我联系 企鹅917267119
推荐阅读
- 机器学习|目标检测网络-yolo
- 深度学习|毕设-卷积神经网络/深度学习/yolo
- 深度学习|卷积神经网络CNN5
- CSCC11机器学习求解
- 笔记|pytest用例执行完成后自动生成allure测试报告
- diss验证码系列|《Diss验证码》——Python验证码破解(图像字符验证码识别(1-入门))
- 笔记|app web 互调js 的web源码
- 大数据|一次关于架构的“嘴炮”
- 大数据|自动拦截 50% crash,字节自研 Fastbot 如何助力今日头条稳定性测试