���Ľ�������л�����Ķ�
数据结构之Series
1 | import pandas as pd |
访问Series中的元素和索引
1 | se2 |
简单运算
在pandas的Series中,会保留NumPy的数组操作(用布尔数组过滤数据,标量乘法,以及使用数学函数),并同时保持引用的使用.1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19se2[se2>2]
Out[165]:
d 3
dtype: int64
se2*2
Out[166]:
a 0
b 2
c 4
d 6
dtype: int64
np.exp(se2)
Out[167]:
a 1.000000
b 2.718282
c 7.389056
d 20.085537
dtype: float64
DataFrame
DataFrame是一个表格型的数据结构 它含有一组有序的列,每列可以是不同的值类型(数值/字符串/布尔型值) 它有行/列索引,可看做由Series组成的字典(共同用一个索引)1
2
3
4
5
6
7#DataFrame
d = {'state':['1','2'],'year':['a','b'],'pop':['x','y']}
frame = pd.DataFrame(d)
frame
state year pop
0 1 a x
1 2 b y
DataFrame基本用法
追加数据
1 | frame2 =pd.DataFrame([['z','3','c'],['x','4','d']],columns=['pop','state','year']) |
拼接数据
1 | pd.concat([frame,frame2]) |
从csv导入数据
1 | data = pd.read_excel('D:\\Users\\zyb\\Desktop\\plan.xlsx',header=5) |
显示头尾几行
1 | data.head() |
显示列名/值
1 | data.columns |
筛选、缺失值处理
1 | #筛选行/列 |
排序
1 | #排序 |
算术运算
1 | count |
非NA值的数量
1 | describe |
针对Series或各DataFrame列计算汇总统计
1 | min,max |
计算最小值、最大值
1 | argmin, argmax |
计算能够获取到最小值和最大值的索引位置(整数)
1 | idxmin, idxmax |
计算能够获取到最小值和最大值的索引值
1 | quantile |
计算样本的分位数(0到1)
1 | sum |
值的总和
1 | mean |
值的平均数
1 | media |
值的算术中位数(50%分位数)
1 | mad |
根据平均值计算平均绝对离差
1 | var, std |
样本值的方差、标准差
1 | skew, kurt |
样本值的偏度(三阶矩)、峰度(四阶矩)
1 | cumsum, cumprod |
样本值的累计和/累计积
1 | cummin, cummax |
样本值的累计最小、最大值
1 | diff |
计算一阶差分(对时间序列很有用)
1 | pct_change |
计算百分数变化
groupby**统计、数据透视表**
1 | #groupby |
类别转换
1 | #类别转换 |