Pandas 数据帧describe()
方法
原文:https://www.studytonight.com/pandas/pandas-dataframe-describe-method
在本教程中,我们将学习 PandasDataFrame.describe()
T4 法。它生成描述性统计数据,包括数据集分布的中心趋势、离差和形状,不包括NaN
值。
- 对于通过
DataFrame
提供的混合数据类型,默认情况下只返回对numeric
列的分析。 - 对于数值数据,结果的指数将包括
count
、mean
、std
、min
、max
以及较低的、50
和较高的百分位数。 - 对于对象数据(例如字符串或时间戳),结果的索引将包括
count
、unique
、top
和freq
。top
是最常见的价值观。
下图显示了DataFrame.describe()
方法的语法。
句法
DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
示例 1:使用DataFrame.describe()
方法描述DataFrame
以下示例显示了使用DataFrame.describe()
方法描述DataFrame
。默认情况下,只返回numeric
字段。
import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe())
一旦我们运行该程序,我们将获得以下输出。
滚动无标记 计数 3.000000 3.000000 平均值 101.333333 83.333333】标准值 1.527525 7.637626 最小值 100.000000 75.000000 25% 100.500000 80.00000 50% 101
示例 2:使用DataFrame.describe()
方法描述DataFrame
的所有列
以下示例显示了使用DataFrame.describe()
方法描述DataFrame
的所有列,而不考虑数据类型。
import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe(include='all'))
一旦我们运行该程序,我们将获得以下输出。
名称卷无主题标记 计数 3 3.0000000 3.00000 独有 3 NAn 2 NAn top Abhishek NAn Science NAn freq 1 NAn 2 NAn 均值 NAn 101.3333333 NAn 83.333333 STD NAn 1.527525 NAn 7.637626 min NAn 100.000000000075
示例 3:使用DataFrame.describe()
方法描述DataFrame
的特定列
下面的示例显示了通过将列作为属性访问来描述来自DataFrame
的列。
import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.Marks.describe())
一旦我们运行该程序,我们将获得以下输出。
计数 3.000000 平均值 83.333333 标准 7.637626 最小值 75.000000 25% 80.000000 50% 85.000000 75% 87.500000 最大值 90.000000 名称:Marks,dtype: float64
示例 4:使用DataFrame.describe()
方法描述DataFrame
的特定列
下面的例子展示了如何使用带有exclude=np.number
的DataFrame.describe()
方法来描述一个不包含数值列的DataFrame
。
import pandas as pd
df= pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85],['Chetan',103,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe(exclude=np.number))
一旦我们运行该程序,我们将获得以下输出。
名称主题 计数 3 3 独特的 3 2 顶级阿布舍克科学 频率 1 2
示例 5:使用由None
值组成的DataFrame.describe()
方法描述DataFrame
以下示例显示了DataFrame.describe()
方法如何描述由无值组成的数据帧。
import pandas as pd
df= pd.DataFrame([['Abhishek',101,'Science',None], ['Anurag',None,'Science',85],['Chetan',None,'Maths',75]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
print(df.describe())
一旦我们运行该程序,我们将获得以下输出。
滚动无标记 计数 1.0 2.000000 平均值 101.0 80.000000 标准 NaN 7.071068 最小值 101.0 75.000000 25% 101.0 77.500000 50% 101.0 80.00000 75% 101.0 82.5000
结论
在本教程中,我们学习了 PandasDataFrame.describe()
方法。我们学习了语法、参数,并通过在具有不同参数的数据帧上应用该方法来解决示例,并理解了该方法。