Pandas 百题大冲关-基础部分

发布时间 2023-05-06 13:51:32作者: 一一zp

1、查看版本信息:print(pd.__version__)

Series 基本操作

1、创建Series的3种方式,1)列表 2)ndarray 3)字典

2、修改 Series 索引:s1.index=['A','B','C','D','E']

3、Series 纵向拼接:s4 = s3.append(s1)

4、Series 按指定索引删除元素:s4=s4.drop('e')

5、Series 修改指定索引元素:s4['A']=3

6、Series 按指定索引查找元素:s4['a']

7、Series 切片操作(对s4的前 3 个数据访问):s4[:3]

Series 运算

Series 的加法运算是按照索引计算,如果索引不同则填充为 NaN(空值)。

1、s4.add(s3)加法

2、s4.sub(s3)减法

3、s4.mul(s3)乘法

4、s4.div(s3)除法

5、s4.median()中位数

6、s4.sum()求和

7、s4.max()最大值

8、s4.min()最小值

创建 DataFrame 数据类型

1、通过 NumPy 数组创建 DataFrame:

df1=pd.DataFrame(np.random.randn(6,4),index=pd.date_range('today',periods=6),columns=['A','B','C','D'])

date_range():主要用于生成一系列特定的时间,可以自己设定开始、结束、周期数、时间间隔、时区等等。

pd.date_range('today',periods=6)--代表的是从今天开始,生成6条信息;

 2、通过字典数组创建 DataFrame

df2=pd.DataFrame({'animal':['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']},      ----2列10行的数据
index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])

3、查看 DataFrame 的数据类型:df2.dtypes

DataFrame 基本操作

1、预览 DataFrame 的前 5 行数据:df2.head()

2、查看 DataFrame 的后2行数据:df2.tail(2)

3、查看DataFrame 的索引:df.index

4、查看DataFrame 的列名:df.columns

5、查看DataFrame 的数值:df.values

6、查看DataFrame 的统计数据:df.describe()

7、DataFrame 的转置操作:df.T

8、对 DataFrame 进行按列排序:df.sort_values(by='age')

9、对 DataFrame 进行切片:df[:3]

10、对 DataFrame 通过标签查询(单列):df['age']或者df2.age 

11、对 DataFrame 通过标签查询(多列):df2[['age', 'animal']] 

12、对 DataFrame 通过位置查询(多列):df2.iloc[1:3]和df2[1:3]结果一样

13、DataFrame副本copy:df3=df2.copy()

14、判断DataFrame元素是否为空:df3.isnull()

15、添加列数据:df3['NO.']=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

16、 根据 DataFrame 的下标值进行更改:df3.iat[1, 1] = 2

17、根据 DataFrame 的标签对数据进行修改:df3.loc['f', 'age'] = 1.5

18、对DataFrame求平均值(按列):df.mean()

19、对DataFrame求和(指定列):df3['visits'].sum()

字符串操作

1、将字符串转化为小写字母:string是一个字符串,string.str.lower()

2、将字符串转化为大写字母:string.str.upper()

DataFrame 缺失值操作

1、对缺失值进行填充:df4.fillna(value=2)

2、删除存在缺失值的行:df5.dropna(how='any')

3、DataFrame按指定列对齐(即共同列,合并行):pd.merge(left, right, on='key')

DataFrame 文件操作

1、CSV文件写入:df3.to_csv('animal.csv')

2、CSV文件读写:df_animal = pd.read_csv('animal.csv')

3、EXCEL写入操作:df3.to_excel('animal.xlsx', sheet_name='Sheet1')

 4、EXCEL读取操作:pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

    ( index_col是指定某一列为索引,默认为None,即没有索引列,na_values为['NA'])