Pandas DataFrame.describe()使用例子

describe()方法用于计算一些统计数据, 例如Series或DataFrame的数值的百分位数, 均值和标准差。它分析数字和对象系列以及混合数据类型的DataFrame列集。
句法

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数
  • percentile:它是一个可选参数, 它是一个列表, 如数字的数据类型, 应在0到1之间。其默认值为[.25, .5, .75], 它返回第25、50和75个百分位数。
  • include:它也是一个可选参数, 在描述DataFrame时包括数据类型列表。其默认值为无。
  • exclude:它也是一个可选参数, 在描述DataFrame时不包括数据类型列表。其默认值为无。
退货
它返回Series和DataFrame的统计摘要。
例1
import pandas as pdimport numpy as npa1 = pd.Series([1, 2, 3])a1.describe()

输出
count3.0mean2.0std1.0min1.025%1.550%2.075%2.5max3.0dtype: float64

例2
import pandas as pdimport numpy as npa1 = pd.Series(['p', 'q', 'q', 'r'])a1.describe()

【Pandas DataFrame.describe()使用例子】输出
count4unique3topqfreq2dtype: object

范例3
import pandas as pdimport numpy as npa1 = pd.Series([1, 2, 3])a1.describe()a1 = pd.Series(['p', 'q', 'q', 'r'])a1.describe()info = pd.DataFrame({'categorical': pd.Categorical(['s', 't', 'u']), 'numeric': [1, 2, 3], 'object': ['p', 'q', 'r'] })info.describe(include=[np.number])info.describe(include=[np.object])info.describe(include=['category'])

输出
categoricalcount 3unique 3topufreq 1

例子4
import pandas as pdimport numpy as npa1 = pd.Series([1, 2, 3])a1.describe()a1 = pd.Series(['p', 'q', 'q', 'r'])a1.describe()info = pd.DataFrame({'categorical': pd.Categorical(['s', 't', 'u']), 'numeric': [1, 2, 3], 'object': ['p', 'q', 'r'] })info.describe()info.describe(include='all')info.numeric.describe()info.describe(include=[np.number])info.describe(include=[np.object])info.describe(include=['category'])info.describe(exclude=[np.number])info.describe(exclude=[np.object])

输出
categoricalnumericcount33.0unique3NaNtopuNaNfreq1NaNmeanNaN2.0stdNaN1.0minNaN1.025%NaN1.550%NaN2.075%NaN2.5maxNaN3.0

    推荐阅读