处理导入的CSV文件(如何使用Pandas计算统计数据())

Pandas 是一个强大的 Python 包,可用于执行统计分析。如何使用Pandas计算CSV统计数据?在本指南中,你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。
Pandas CSV计算统计数据:这个例子如何使用Pandas计算统计数据?为了演示如何从导入的 CSV 文件计算统计数据,让我们查看一个包含以下数据集的简单示例:

名称工资国家
Dan40000USA
Elizabeth32000Brazil
Jon45000Italy
Maria54000USA
Mark72000USA
Bill62000Brazil
Jess92000Italy
Julia55000USA
Jeff35000Italy
Ben48000Brazil
从导入的 CSV 文件计算统计数据的步骤步骤 1:将数据集复制到 CSV 文件中
如何使用Pandas计算CSV统计数据?首先,你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats。
第 2 步:将 CSV 文件导入 Python
接下来,你需要使用此模板将 CSV 文件导入 Python:
import pandas as pd df = pd.read_csv (r'Path where the CSV file is stored\File name.csv') print (df)

以下是存储 CSV 文件的路径示例:
  C:\Users\Ron\Desktop\stats.csv
因此,导入stats  CSV 文件的完整代码如下(请注意,你需要修改路径以反映 CSV 文件在你的计算机上存储位置):
import pandas as pd df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') print (df)

Pandas统计CSV数据 - 在Python 中运行代码(根据你的路径进行调整)后,你将获得以下DataFrame:
NameSalary Country 0Dan40000USA 1Elizabeth32000Brazil 2Jon45000Italy 3Maria54000USA 4Mark72000USA 5Bill62000Brazil 6Jess92000Italy 7Julia55000USA 8Jeff35000Italy 9Ben48000Brazil

第 3 步:使用 Pandas 从导入的 CSV 文件中计算统计数据
最后一步的目标是使用 Pandas 包计算以下统计数据:
  • 平均工资
  • 工资总额
  • 最高工资
  • 最低薪资
  • 工资数
  • 工资中位数
  • 工资标准差
  • 工资差异
此外,我们还会做一些分组计算:
  • 工资总额,按国家/地区列分组
  • 按国家/地区列分组的工资计数
如何使用Pandas计算CSV统计数据?准备好后,运行下面的代码,以便使用Pandas从导入的 CSV 文件中计算统计数据如前所述,你需要更改路径名(代码中的第 2 行)以反映 CSV 文件在你的计算机上存储位置,如下Pandas CSV计算统计数据实例:
import pandas as pd df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') # block 1 - simple stats mean1 = df[ 'Salary'].mean() sum1 = df[ 'Salary'].sum() max1 = df[ 'Salary'].max() min1 = df[ 'Salary'].min() count1 = df[ 'Salary'].count() median1 = df[ 'Salary'].median() std1 = df[ 'Salary'].std() var1 = df[ 'Salary'].var()# block 2 - group by groupby_sum1 = df.groupby([ 'Country']).sum() groupby_count1 = df.groupby([ 'Country']).count()# print block 1 print ('Mean salary: ' + str(mean1)) print ('Sum of salaries: ' + str(sum1)) print ('Max salary: ' + str(max1)) print ('Min salary: ' + str(min1)) print ('Count of salaries: ' + str(count1)) print ('Median salary: ' + str(median1)) print ('Std of salaries: ' + str(std1)) print ('Var of salaries: ' + str(var1))# print block 2 print ('Sum of values, grouped by the Country: ' + str(groupby_sum1)) print ('Count of values, grouped by the Country: ' + str(groupby_count1))

Pandas统计CSV数据 - 在 Python 中运行代码后,你将获得以下结果:
Mean salary: 53500.0 Sum of salaries: 535000 Max salary: 92000 Min salary: 32000 Count of salaries: 10 Median salary: 51000.0 Std of salaries: 18222.391598128816 Var of salaries: 332055555.5555556 Sum of values, grouped by the Country: Country Brazil142000 Italy172000 USA221000 Count of values, grouped by the Country: Country Brazil33 Italy33 USA44

【处理导入的CSV文件(如何使用Pandas计算统计数据())】如何使用Pandas计算统计数据?你刚刚看到了如何使用Pandas计算简单的统计数据你可能还想查看 Pandas文档以了解更多关于这个强大库的力量!

    推荐阅读