Pandas 是一个强大的 Python 包,可用于执行统计分析。如何使用Pandas计算CSV统计数据?在本指南中,你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。
Pandas CSV计算统计数据:这个例子如何使用Pandas计算统计数据?为了演示如何从导入的 CSV 文件计算统计数据,让我们查看一个包含以下数据集的简单示例:
名称 | 工资 | 国家 |
Dan | 40000 | USA |
Elizabeth | 32000 | Brazil |
Jon | 45000 | Italy |
Maria | 54000 | USA |
Mark | 72000 | USA |
Bill | 62000 | Brazil |
Jess | 92000 | Italy |
Julia | 55000 | USA |
Jeff | 35000 | Italy |
Ben | 48000 | Brazil |
如何使用Pandas计算CSV统计数据?首先,你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats。
第 2 步:将 CSV 文件导入 Python
接下来,你需要使用此模板将 CSV 文件导入 Python:
import pandas as pd
df = pd.read_csv (r'Path where the CSV file is stored\File name.csv')
print (df)
以下是存储 CSV 文件的路径示例:
C:\Users\Ron\Desktop\stats.csv
因此,导入stats CSV 文件的完整代码如下(请注意,你需要修改路径以反映 CSV 文件在你的计算机上的存储位置):
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
print (df)
Pandas统计CSV数据 - 在Python 中运行代码(根据你的路径进行调整)后,你将获得以下DataFrame:
NameSalary Country
0Dan40000USA
1Elizabeth32000Brazil
2Jon45000Italy
3Maria54000USA
4Mark72000USA
5Bill62000Brazil
6Jess92000Italy
7Julia55000USA
8Jeff35000Italy
9Ben48000Brazil
第 3 步:使用 Pandas 从导入的 CSV 文件中计算统计数据
最后一步的目标是使用 Pandas 包计算以下统计数据:
- 平均工资
- 工资总额
- 最高工资
- 最低薪资
- 工资数
- 工资中位数
- 工资标准差
- 工资差异
- 工资总额,按国家/地区列分组
- 按国家/地区列分组的工资计数
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') # block 1 - simple stats
mean1 = df[
'Salary'].mean()
sum1 = df[
'Salary'].sum()
max1 = df[
'Salary'].max()
min1 = df[
'Salary'].min()
count1 = df[
'Salary'].count()
median1 = df[
'Salary'].median()
std1 = df[
'Salary'].std()
var1 = df[
'Salary'].var()# block 2 - group by
groupby_sum1 = df.groupby([
'Country']).sum()
groupby_count1 = df.groupby([
'Country']).count()# print block 1
print ('Mean salary: ' + str(mean1))
print ('Sum of salaries: ' + str(sum1))
print ('Max salary: ' + str(max1))
print ('Min salary: ' + str(min1))
print ('Count of salaries: ' + str(count1))
print ('Median salary: ' + str(median1))
print ('Std of salaries: ' + str(std1))
print ('Var of salaries: ' + str(var1))# print block 2
print ('Sum of values, grouped by the Country: ' + str(groupby_sum1))
print ('Count of values, grouped by the Country: ' + str(groupby_count1))
Pandas统计CSV数据 - 在 Python 中运行代码后,你将获得以下结果:
Mean salary: 53500.0
Sum of salaries: 535000
Max salary: 92000
Min salary: 32000
Count of salaries: 10
Median salary: 51000.0
Std of salaries: 18222.391598128816
Var of salaries: 332055555.5555556
Sum of values, grouped by the Country:
Country
Brazil142000
Italy172000
USA221000
Count of values, grouped by the Country:
Country
Brazil33
Italy33
USA44
【处理导入的CSV文件(如何使用Pandas计算统计数据())】如何使用Pandas计算统计数据?你刚刚看到了如何使用Pandas计算简单的统计数据。你可能还想查看 Pandas文档以了解更多关于这个强大库的力量!
推荐阅读
- 如何使用Pandas将CSV文件导入Python()
- 有监督学习教程(Python随机森林示例和实现代码)
- 回归分析教程(Python逻辑回归示例和代码)
- win7 64纯净版系统安装图文详细教程
- win7 32位旗舰纯净版安装图文详细教程
- windows系统重装最容易方便的办法
- windows8纯净版64位安装图文详细教程
- 安装win8 32位旗舰版图文详细教程
- 最实用的电脑装系统图文详细教程win7