练习1 读取 catNames2.csv 文件,完成需求如下: • 找到所有的使用次数超过800的猫的名字 • 获取用次数最高的名字
读取 catNames2.csv 文件
import pandas as pd import numpy as np # 读取Excel表格数据 c_df = pd.read_csv("catNames2.csv") c_df结果如下:
找到所有的使用次数超过800的猫的名字
# 找到所有的使用次数超过800的猫的名字 c_df[c_df.loc[:,"Count_AnimalName"]>800]结果如下:
获取用次数最高的名字
# 获取用次数最高的名字 # 通过by指定进行排序 默认升序排序 # 通过ascending=False 设置默认降序排序 # 通过head() 只读取前五行数据 c_df.sort_values(by="Count_AnimalName",ascending=False).head()结果如下:
练习2 • 读取 五粮液2020.xlsx 数据,指定 索引为0列 为 行索引 • 查看 该数据的基本信息 • 计算每一天各指标的差异值 • 计算其 pre_close 的增长率 • 将 pre_close 的增长率添加至 w_data 数据中 • 将 pct_change 该列 呈现的 NaN 用0填充 • 查看 pre_close 与 pct_change 的相关性 • 将 pct_change 这列乘以100 保留两位小数 成为百分比
读取 五粮液2020.xlsx 数据,指定 索引为0列 为 行索引
import pandas as pd import numpy as np # 读取 五粮液2020.xlsx 数据,指定 索引为0列 为 行索引 w_data = pd.read_excel("五粮液2020.xlsx",index_col=0)查看 该数据的基本信息
# 查看 该数据的基本信息 # 通过info查看基本信息 w_data.info()结果如下:
计算每一天各指标的差异值
# 计算每一天各指标的差异值 # 通过diff() 计算第一个算术差值(时间序列) # head() 只读取前五行数据 w_data.diff().head()结果如下:
计算其 pre_close 的增长率
# 计算其 pre_close 的增长率 # 通过pct_change() (后一日-前一日)/前日 增长率 进行计算 # head()只读取前五行 w_data["pre_close"].pct_change().head()将 pre_close 的增长率添加至 wly_data 数据中
# 将 pre_close 的增长率添加至 w_data 数据中 w_data["pct_change"] = w_data["pre_close"].pct_change() w_data.head()结果如下:
将 pct_change 该列 呈现的 NaN 用0填充
# 将 pct_change 该列 呈现的 NaN 用0填充 # 通过fillna()进行填充 # inplace 修改被调用的对象 而不是一个备份 w_data.fillna(0,inplace=True) w_data.head()结果如下: 查看 pre_close 与 pct_change 的相关性
# 查看 pre_close 与 pct_change 的相关性 # 通过 corr() 按索引对其的值的相关性 w_data["pre_close"].corr(w_data["pct_change"])结果如下:
将 pct_change 这列乘以100 保留两位小数 成为百分比
# 将 pct_change 这列乘以100 保留两位小数 成为百分比 f = lambda x:"%.2f%%"%(x*100) w_data["pct_change"] = w_data["pct_change"].apply(f) w_data.head()结果如下:
