引言
在使用 Pandas
做数据预处理(解决缺失值问题)的时候,需要用到一些统计函数。额,然后百度、谷歌、看大神博客,以下是我的整理。
Pandas三个数据对象的轴参数
Series
: 没有轴参数DataFrame
: “index” (axis=0, default),“columns” (axis=1)Panel
: “items” (axis=0),“major” (axis=1, default), “minor” (axis=2)
统计函数及描述
Function | Description | 描述 |
---|---|---|
count | Number of non-null observations | 观测值的个数 |
sum | Sum of values | 求和 |
mean | Mean of values | 求平均值 |
mad | Mean absolute deviation | 平均绝对方差 |
median | Arithmetic median of values | 中位数 |
min | Minimum | 最小值 |
max | Maximum | 最大值 |
argmin | Calculate the index position (integer) that can get the minimum value | 计算能够获取到最小值的索引位置(整数) |
argmax | Calculate the index position where the maximum value can be obtained | 计算能够获取到最大值的索引位置 |
idxmin | Row index of each column minimum | 每列最小值的行索引 |
idxmax | Row index of the maximum value per column | 每列最大值的行索引 |
mode | Mode | 众数 |
abs | Absolute Value | 绝对值 |
prod | Product of values | 乘积 |
std | Bessel-corrected sample standard deviation | 标准差 |
var | Unbiased variance | 方差 |
sem | Standard error of the mean | 标准误 |
skew | Sample skewness (3rd moment) | 偏度系数 |
kurt | Sample kurtosis (4th moment) | 峰度 |
quantile | Sample quantile (value at %) | 分位数 |
cumsum | Cumulative sum | 累加 |
cumprod | Cumulative product | 累乘 |
cummax | Cumulative maximum | 累最大值 |
cummin | Cumulative minimum | 累最小值 |
cov() | covariance | 协方差 |
corr() | correlation | 相关系数 |
rank() | rank by values | 排名 |
pct_change() | time change | 时间序列变化 |