Pandas学习笔记：一

tech2024-07-02 193

Pandas学习笔记-仅供学习使用

Pandas数据结构Series：基本概念及创建

# Series 数据结构 # Series 是带有标签的一维数组，可以保存任何数据类型（整数，字符串，浮点数，Python对象等）,轴标签统称为索引 import numpy as np import pandas as pd # 导入numpy、pandas模块 ar = np.random.rand(5) s = pd.Series(ar) ss = pd.Series(ar,index=list('abcde'))#修改index的值 print(ar) print(s) print(type(s)) print(ss) # 查看数据、数据类型 print(s.index,type(s.index))# .index查看series索引，类型为rangeindex print(s.values,type(s.values))# .values查看series值，类型是ndarray # 核心：series相比于ndarray，是一个自带索引index的数组 → 一维数组 + 对应索引 # 所以当只看series的值的时候，就是一个ndarray # series和ndarray较相似，索引切片功能差别不大 # series和dict相比，series更像一个有顺序的字典（dict本身不存在顺序），其索引原理与字典相似（一个用key，一个用index） # Series 创建方法一：由字典创建，字典的key就是index，values就是values dic = {'a':1 ,'b':2 , 'c':3, '4':4, '5':5} s = pd.Series(dic) print(s) # 注意：key肯定是字符串，假如values类型不止一个会怎么样？ → dic2 = {'a':1 ,'b':'hello' , 'c':3, '4':4, '5':5} s2 = pd.Series(dic2) print(s2) # Series 创建方法二：由数组创建(一维数组) arr = np.random.randn(5) s = pd.Series(arr) print(arr) print(s) # 默认index是从0开始，步长为1的数字 s = pd.Series(arr, index = ['a','b','c','d','e'],dtype = np.object) print(s) # index参数：设置index，长度保持一致 # dtype参数：设置数值类型 # Series 创建方法三：由标量创建 s = pd.Series(10, index = range(4)) print(s) # 如果data是标量值，则必须提供索引。该值会重复，来匹配索引的长度 # Series 名称属性：name s1 = pd.Series(np.random.randn(5)) print(s1) print('-----') s2 = pd.Series(np.random.randn(5),name = 'test') print('s2:','\n',s2) print('s1:','\n',s1.name, s2.name,type(s2.name)) # name为Series的一个参数，创建一个数组的名称 # .name方法：输出数组的名称，输出格式为str，如果没用定义输出名称，输出为None s3 = s2.rename('hehehe') print(s3) print(s3.name, s2.name) # .rename()重命名一个数组的名称，并且新指向一个数组，原数组不变

Pandas数据结构Series：索引

位置下标 / 标签索引 / 切片索引 / 布尔型索引

# 位置下标，类似序列 s = pd.Series(np.random.rand(5)) print(s) print(s[0],type(s[0]),s[0].dtype) print(float(s[0]),type(float(s[0]))) #print(s[-1]) # 位置下标从0开始 # 输出结果为numpy.float格式， # 可以通过float()函数转换为python float格式 # numpy.float与float占用字节不同 # s[-1]结果如何？#会报错，这个并不完全跟列表一样。 # 标签索引 # 方法类似下标索引，用[]表示，内写上index，注意index是字符串 s = pd.Series(np.random.rand(5), index = ['a','b','c','d','e']) print(s) print(s['a'],type(s['a']),s['a'].dtype) # 如果需要选择多个标签的值，用[[]]来表示（相当于[]中包含一个列表） # 多标签索引结果是新的数组 sci = s[['a','b','e']] print(sci,type(sci)) # 切片索引 s1 = pd.Series(np.random.rand(5)) s2 = pd.Series(np.random.rand(5), index = ['a','b','c','d','e']) print('s1:','\n',s1) print('s2:','\n',s2) print('下标:','\n',s1[1:4],'\n',s1[4])#下标 # 注意：用index(标签)做切片是末端包含 print('标签:','\n',s2['a':'c'],'\n',s2['c'])#标签 print(s2[0:3],s2[3]) print('-----') # 下标索引做切片，和list写法一样 print(s2[:-1]) print(s2[::2]) # 布尔型索引 # 数组做判断之后，返回的是一个由布尔值组成的新的数组 # .isnull() / .notnull() 判断是否为空值 (None代表空值，NaN代表有问题的数值，两个都会识别为空值) s = pd.Series(np.random.rand(3)*100) s[4] = None # 添加一个空值 s[4] = None 也可以写成 s[4] = np.nan print(s) bs1 = s > 50 bs2 = s.isnull()#isnull：是否是空值 bs3 = s.notnull()#notnull：是否不是空值 print('bs1:','\n',bs1, type(bs1), bs1.dtype) print('bs2:','\n',bs2, type(bs2), bs2.dtype) print('bs3:','\n',bs3, type(bs3), bs3.dtype) print('----------------------------------') print(s[s > 50]) print(s[bs3]) # 布尔型索引方法：用[判断条件]表示，其中判断条件可以是一个语句，或者是一个布尔型数组！

Pandas数据结构Series：基本技巧

数据查看 / 重新索引 / 对齐 / 添加、修改、删除值

# 数据查看 import numpy as np import pandas as pd s = pd.Series(np.random.rand(50)) print(s.head(10))# .head()查看头部数据 # 默认查看5条 print(s.tail())# .tail()查看尾部数据 # 默认查看5条 # 重新索引reindex # .reindex将会根据索引重新排序，如果当前索引不存在，则引入缺失值 s = pd.Series(np.random.rand(3), index = ['a','b','c']) print(s) s1 = s.reindex(['c','b','a','d'])# .reindex()中也是写列表 print(s1)# 这里'd'索引不存在，所以值为NaN s2 = s.reindex(['c','b','a','d'], fill_value = 0)# fill_value参数：填充缺失值的值 print(s2) # Series对齐 s1 = pd.Series(np.random.rand(3), index = ['Jack','Marry','Tom']) s2 = pd.Series(np.random.rand(3), index = ['Wang','Jack','Marry']) print(s1) print(s2) print(s1+s2) # Series 和 ndarray 之间的主要区别是，Series 上的操作会根据标签自动对齐 # index顺序不会影响数值计算，以标签来计算 # ################空值和任何值计算结果扔为空值 # 删除：.drop s = pd.Series(np.random.rand(5), index = list('ngjur')) print('s:','\n',s) s1 = s.drop('n') s2 = s.drop(['g','j'],inplace=False)# drop 删除元素之后返回副本(inplace=False) inplace:默认为False，会生成一个副本 # s2 = s.drop(['g','j'],inplace=True)# drop 删除元素之后返回副本(inplace=False) inplace:默认为False，改为True后，父本会被改变，不会生成副本。 print('s1:','\n',s1) print('s2:','\n',s2) print('s:','\n',s) # 添加 s1 = pd.Series(np.random.rand(5)) s2 = pd.Series(np.random.rand(5), index = list('ngjur')) print(s1) print(s2) s1[5] = 100 s2['a'] = 100 print(s1) print(s2) print('-----') # 直接通过下标索引/标签index添加值 s3 = s1.append(s2) print(s3) print(s1) # 通过.append方法，直接添加一个数组 # .append方法生成一个新的数组，不改变之前的数组 # 修改 s = pd.Series(np.random.rand(3), index = ['a','b','c']) print(s) s['a'] = 100 s[['b','c']] = 200 print(s) # 通过索引直接修改，类似序列

Pandas数据结构Dataframe：基本概念及创建

"二维数组"Dataframe：是一个表格型的数据结构，包含一组有序的列，其列的值类型可以是数值、字符串、布尔值等。

Dataframe中的数据以一个或多个二维块存放，不是列表、字典或一维数组结构。

# Dataframe 数据结构 # Dataframe是一个表格型的数据结构，“带有标签的二维数组”。 # Dataframe带有index（行标签）和columns（列标签） data = {'name':['Jack','Tom','Mary'], 'age':[18,19,20], 'gender':['m','m','w']} frame = pd.DataFrame(data) print(frame) print(type(frame)) print(frame.index,'\n该数据类型为：',type(frame.index)) print(frame.columns,'\n该数据类型为：',type(frame.columns)) print(frame.values,'\n该数据类型为：',type(frame.values)) # 查看数据，数据类型为dataframe # .index查看行标签 # .columns查看列标签 # .values查看值，数据类型为ndarray # Dataframe 创建方法一：由数组/list组成的字典 # 创建方法:pandas.Dataframe() # 由数组/list组成的字典创建Dataframe，columns为字典key，index为默认数字标签 # 字典的值的长度必须保持一致！ data1 = {'a':[1,2,3], 'b':[3,4,5], 'c':[5,6,7]} data2 = {'one':np.random.rand(3), 'two':np.random.rand(3)} # 这里如果尝试 'two':np.random.rand(4) 会怎么样？ print('data1:','\n',data1) print('data2:','\n',data2) df1 = pd.DataFrame(data1,index=['a','b','c']) df2 = pd.DataFrame(data2) print('df1:','\n',df1) print('df2:','\n',df2) # columns参数：可以重新指定列的顺序，格式为list，如果现有数据中没有该列（比如'd'），则产生NaN值 # 如果columns重新指定时候，列的数量可以少于原数据 df1 = pd.DataFrame(data1, columns = ['b','c','a','d']) print('df1:','\n',df1) df1 = pd.DataFrame(data1, columns = ['b','c']) print('df1:','\n',df1) df2 = pd.DataFrame(data2, index = ['f1','f2','f3']) # 这里如果尝试 index = ['f1','f2','f3','f4'] 会怎么样？会报错 print('df2:','\n',df2) # index参数：重新定义index，格式为list，长度必须保持一致 # Dataframe 创建方法二：由Series组成的字典 # 由Seris组成的字典创建Dataframe，columns为字典key，index为Series的标签（如果Series没有指定标签，则是默认数字标签） # Series可以长度不一样，生成的Dataframe会出现NaN值 data1 = {'one':pd.Series(np.random.rand(2)), 'two':pd.Series(np.random.rand(3))} # 没有设置index的Series data2 = {'one':pd.Series(np.random.rand(2), index = ['a','b']), 'two':pd.Series(np.random.rand(3),index = ['a','b','c'])} # 设置了index的Series print('data1:','\n',data1) print('data2:','\n',data2) df1 = pd.DataFrame(data1) df2 = pd.DataFrame(data2) print('df1:','\n',df1) print('df2:','\n',df2) # Dataframe 创建方法三：通过二维数组直接创建 # 通过二维数组直接创建Dataframe，得到一样形状的结果数据，如果不指定index和columns，两者均返回默认数字格式 # index和colunms指定长度与原数组保持一致 ar = np.random.rand(9).reshape(3,3) print('ar:','\n',ar) df1 = pd.DataFrame(ar) df2 = pd.DataFrame(ar, index = ['a', 'b', 'c'], columns = ['one','two','three']) # 可以尝试一下index或columns长度不等于已有数组的情况 print('df1:','\n',df1) print('df2:','\n',df2) # Dataframe 创建方法四：由字典组成的列表 # 由字典组成的列表创建Dataframe，columns为字典的key，index不做指定则为默认数组标签 # colunms和index参数分别重新指定相应列及行标签 data = [{'one': 1, 'two': 2}, {'one': 5, 'two': 10, 'three': 20}] print('data:','\n',data) df1 = pd.DataFrame(data) df2 = pd.DataFrame(data, index = ['a','b']) df3 = pd.DataFrame(data, columns = ['one','two']) print('df1:','\n',df1) print('df2:','\n',df2) print('df3:','\n',df3) # Dataframe 创建方法五：由字典组成的字典 # 由字典组成的字典创建Dataframe，columns为字典的key，index为子字典的key data = {'Jack':{'math':90,'english':89,'art':78}, 'Marry':{'math':82,'english':95,'art':92}, 'Tom':{'math':78,'english':67}} df1 = pd.DataFrame(data) print('df1:','\n',df1) # columns参数可以增加和减少现有列，如出现新的列，值为NaN # index在这里和之前不同，并不能改变原有index，如果指向新的标签，值为NaN （非常重要！） df2 = pd.DataFrame(data, columns = ['Jack','Tom','Bob']) df3 = pd.DataFrame(data, index = ['a','b','c']) print('df2:','\n',df2) print('df3:','\n',df3)

Pandas数据结构Dataframe：索引

Dataframe既有行索引也有列索引，可以被看做由Series组成的字典（共用一个索引）

选择列 / 选择行 / 切片 / 布尔判断

# 选择行与列 df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100, index = ['one','two','three'], columns = ['a','b','c','d']) print('df:','\n',df) # 按照列名选择列，只选择一列输出Series，选择多列输出Dataframe data1 = df['a']#选择单个列 data2 = df[['a','c']]#选择多个列 print('data1:','\n',data1,type(data1)) print('data2:','\n',data2,type(data2)) print('-----') # 按照index选择行，只选择一行输出Series，选择多行输出Dataframe data3 = df.loc['one']#选择单行 data4 = df.loc[['one','two']]#选择多行 print('data3:','\n',data3,type(data3)) print('data4:','\n',data4,type(data4)) # df[] - 选择列 # 一般用于选择列，也可以选择行 df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100, index = ['one','two','three'], columns = ['a','b','c','d']) print('df:','\n',df) print('-----') data1 = df['a'] data2 = df[['b','c']] # 尝试输入 data2 = df[['b','c','e']] print('data1:','\n',data1) print('data2:','\n',data2) # df[]默认选择列，[]中写列名（所以一般数据colunms都会单独制定，不会用默认数字列名，以免和index冲突） # 单选列为Series，print结果为Series格式 # 多选列为Dataframe，print结果为Dataframe格式 data3 = df[:1] #data3 = df[0] #data3 = df['one'] print('data3:','\n',data3,type(data3)) # df[]中为数字时，默认选择行，且只能进行切片的选择，不能单独选择（df[0]） # 输出结果为Dataframe，即便只选择一行 # df[]不能通过索引标签名来选择行(df['one']) # 核心笔记：df[col]一般用于选择列，[]中写列名 # df.loc[] - 按index选择行 df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = ['one','two','three','four'], columns = ['a','b','c','d']) df2 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, columns = ['a','b','c','d']) print('df1:','\n',df1) print('df2:','\n',df2) print('-----') print('单标签索引:') # 单个标签索引，返回Series data1 = df1.loc['one'] data2 = df2.loc[[1]] print('data1:','\n',data1) print('data2:','\n',data2) print('多标签索引:') # 多个标签索引，如果标签不存在，则返回NaN # 顺序可变 data3 = df1.loc[['two','three','four']] data4 = df2.loc[[3,2,1]] print('data3:','\n',data3) print('data4:','\n',data4) # 可以做切片对象 # 末端包含 data5 = df1.loc['one':'three'] data6 = df2.loc[1:3] print('data5:','\n',data5) print('data6:','\n',data6) print('切片索引') # 核心笔记：df.loc[label]主要针对index选择行，同时支持指定index，及默认数字index # df.iloc[] - 按照整数位置（从轴的0到length-1）选择行 # 类似list的索引，其顺序就是dataframe的整数位置，从0开始计 df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = ['one','two','three','four'], columns = ['a','b','c','d']) print('df:','\n',df) print('------') print('单位置索引:') # 单位置索引 # 和loc索引不同，不能索引超出数据行数的整数位置 print('df.iloc[0]:','\n',df.iloc[0]) print('df.iloc[-1]:','\n',df.iloc[-1]) #print(df.iloc[4]) print('多位置索引:') # 多位置索引 # 顺序可变 print('df.iloc[[0,2]]:','\n',df.iloc[[0,2]]) print('df.iloc[[3,2,1]]:','\n',df.iloc[[3,2,1]]) print('切片索引:') # 切片索引 # 末端不包含 print('df.iloc[1:3]:','\n',df.iloc[1:3]) print('df.iloc[::2]:','\n',df.iloc[::2]) # 布尔型索引 # 和Series原理相同 df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = ['one','two','three','four'], columns = ['a','b','c','d']) print('df:','\n',df) print('------') # 不做索引则会对数据每个值进行判断 # 索引结果保留所有数据：True返回原数据，False返回值为NaN b1 = df < 20 print('b1:','\n',b1,type(b1)) print('df[b1]:','\n',df[b1]) # 也可以书写为 df[df < 20] # 单列做判断 # 索引结果保留单列判断为True的行数据，包括其他列 b2 = df['a'] > 50 print('b2:','\n',b2,type(b2)) print('df[b2]:','\n',df[b2]) # 也可以书写为 df[df['a'] > 50] # 多列做判断 # 索引结果保留所有数据：True返回原数据，False返回值为NaN b3 = df[['a','b']] > 50 print('b3:','\n',b3,type(b3)) print('df[b3]:','\n',df[b3]) # 也可以书写为 df[df[['a','b']] > 50] # 多行做判断 # 索引结果保留所有数据：True返回原数据，False返回值为NaN b4 = df.loc[['one','three']] < 50 print('b4:','\n',b4,type(b4)) print('df[b4]:','\n',df[b4]) # 也可以书写为 df[df.loc[['one','three']] < 50] # 多重索引：比如同时索引行和列 # 先选择列再选择行 —— 相当于对于一个数据，先筛选字段，再选择数据量 df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = ['one','two','three','four'], columns = ['a','b','c','d']) print('df:','\n',df) print('------') print(df['a'].loc[['one','three']]) # 选择a列的one，three行 print('------') print(df[['b','c','d']].iloc[::2]) # 选择b，c，d列的one，three行 print('------') print(df[df['a'] < 50].iloc[:2]) # 选择满足判断索引的前两行数据

Pandas数据结构Dataframe：基本技巧

数据查看、转置 / 添加、修改、删除值 / 对齐 / 排序

import pandas as pd import numpy as np # 数据查看、转置 df = pd.DataFrame(np.random.rand(16).reshape(8,2)*100,columns = ['a','b']) print('df:','\n',df) print('前两个数据:','\n',df.head(2))# .head()查看头部数据 # 默认查看5条 print('后面五个数据:','\n',df.tail())# .tail()查看尾部数据 # 默认查看5条 # .T 转置 print('转置:','\n',df.T) # 添加与修改 import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, columns = ['a','b','c','d']) print('df:','\n',df) # 新增列/行并赋值 df['e'] = 10 df.loc[4] = 20 print('df:','\n',df) # 索引后直接修改值 df['e'] = 20 df[['a','c']] = 100 print('df:','\n',df) df.iloc[::2] = 101 print('df.iloc[::2]:','\n',df) # 删除 del / drop() df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, columns = ['a','b','c','d']) print('df:','\n',df) # del语句 - 删除列 del df['a'] print('df:','\n',df) print('-----') # drop()删除行，inplace=False → 删除后生成新的数据，不改变原数据 print('df.drop(0):','\n',df.drop(0)) print('df.drop([1,2]):','\n',df.drop([1,2])) print('df:','\n',df) print('-----') # drop()删除列，需要加上axis = 1，inplace=False → 删除后生成新的数据，不改变原数据 print(df.drop(['d'], axis = 1))#inplace=True，删除后不会生成新的数据，直接改变原数据 print('df:','\n',df) # 对齐 # DataFrame对象之间的数据自动按照列和索引（行标签）对齐 df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D']) df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C']) print('df1:','\n',df1) print('df2:','\n',df2) print('df1+df2:','\n',df1 + df2) # 排序1 - 按值排序 .sort_values # 同样适用于Series df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, columns = ['a','b','c','d']) # ascending参数：设置升序降序，默认为True升序 # 单列排序 print('df1:','\n',df1) print('df1.升序:','\n',df1.sort_values(['a'], ascending = True)) # 升序 print('df1.降序:','\n',df1.sort_values(['a'], ascending = False)) # 降序 print('------') # 多列排序，按列顺序排序 df2 = pd.DataFrame({'a':[1,1,1,1,2,2,2,2], 'b':list(range(8)), 'c':list(range(8,0,-1))}) print('df2:','\n',df2) print('df2.多列排序:','\n',df2.sort_values(['a','c'])) # 排序2 - 索引排序 .sort_index df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = [5,4,3,2], columns = ['a','b','c','d']) df2 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100, index = ['h','s','x','g'], columns = ['a','b','c','d']) # 按照index排序 # 默认 ascending=True, inplace=False print('df1:','\n',df1) print('df1-索引排序:','\n',df1.sort_index()) print('df2:','\n',df2) print('df2-索引排序:','\n',df2.sort_index())

最新回复(0)