下面是我爬取中国知网的相关数据,然后我想把abstract中含有某几个关键字的文章名和doi下载链接单独提取出来并保存。 这是我的代码:
import pandas as pd item = pd.read_excel(r'C:\Users\94738\Desktop\test.xlsx') #设置表头 df = pd.read_excel(r'C:\Users\94738\Desktop\地球化学.xlsx') # 读取原始文本所在的excel文件 b1 = [] b2 = [] b3 = [] for i in range(len(df)): a = "马里亚纳" b = "岛弧" #这里的关键词是随便选取的 if a in df.loc[i, 'abstract'] or b in df.loc[i, 'abstract']: a1 = df.loc[i, 'name'] a2 = df.loc[i, 'link'] a3 = df.loc[i, 'abstract'] b1.append(a1) b2.append(a2) b3.append(a3) f1 = pd.DataFrame(columns=['name', 'link', 'abstract']) f1['name'] = b1 f1['link'] = b2 f1['abstract'] = b3 f1.to_excel('EndFile.xlsx')这是test表头的形式,是我需要提取的列信息 爬取后的结果: