项目需求:抓取专辑所有音频文件。
1. 项目截图
2. 找数据
3. 项目难点讲解
4. 源代码
联系我们,一起学Python吧
超详细讲解,按需查看,文末附源代码。关注我们,只涨知识,不掉发。
搜索郭德纲相声,选择第一个专辑,点击进入。
找到我们需要下载的音频文件,一共49个。
这里以谷歌浏览器来演示使用开发者工具(F12)来找数据,找数据小技巧:直接先找xhr分类,如没有数据,再找all里第一个html,一般情况下,批量采集的数据是以json数据格式获取的。
喜马拉雅的音频数据藏在点击播放后的url里。截图中的url正是音频列表的数据了。
接着点开右侧 Preview预览的文件,trackId就是区分每个文件的id。要找到下载数据的地方,就必须找到唯一的关键词。
顺着左侧的url查看,发现下面这个url对应的右侧数据,有我们需要的.m4a音频文件数据。
找数据就搞定了,49个音频文件列表数据和对应的音频文件地址数据。
经过url的观察,发现请求头里,都会有个xm-sign的数据。没有这个数据,则抓取不到我们要的数据。
那我们就生成xm-sign数据,规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳。(每次抓取数据的时候,都需要调用该方法,现在时间戳和服务器时间戳相差大到一定值,则获取不到数据)
def getServerTime(self): """ 获取喜马拉雅服务器的时间戳 :return: """ # 这个地址就是返回服务器时间戳的接口 serverTimeUrl = "https://www.ximalaya.com/revision/time" response = requests.get(serverTimeUrl,headers = self.headers) return response.text def getSign(self,serverTime): """ 生成 xm-sign 规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳 :param serverTime: :return: """ nowTime = str(round(time.time()*1000)) sign = str(hashlib.md5("himalaya-{}".format(serverTime).encode()).hexdigest()) + "({})".format(str(round(random.random()*100))) + serverTime + "({})".format(str(round(random.random()*100))) + nowTime # 将xm-sign添加到请求头中 self.headers["xm-sign"] = sign return sign这里提供一个获取音频文件分页页码的方法。原理是获取分页数字所在的html结构,循环该结构,依次加1得到页码。(方法有很多,可以参考这个思路)
""" 获取课程下分页的页码(名称,图片,简介,) """ def getPageCount(self,url): page_count = 0 # 分页数据测试 res = requests.get(url,headers=self.headers) try: # print(res.text) soup = bs4.BeautifulSoup(res.text,'html.parser') # print(soup) data_list = soup.find('ul',class_='pagination-page _Xo').find_all('li') # 页码所在的html结构 # lesson_title = soup.find('h1',class_='title lO_').text # 名称 # lesson_img = soup.find('img',class_='img lO_')['src'] # 图片 # lesson_abstract = soup.find('article',class_='intro aB_') # 简介 for data in data_list: if(data.text.isdigit()): # 如果是数字,代表是分页的 page_count+=1 except: print('='*30 + '不存在分页' + '='*30) if(page_count == 0): page_count = 1 # 分页从1开始,为第一页 return page_count # return lesson_title,lesson_img,lesson_abstract,page_count这里再引申一下:插入数据到数据库(sql server),其他数据库大同小异。
''' 连接sql server数据库,增删改查,语句可以在数据库写好,复制进来,因为这里是字符串,不容易发现错误 ''' def insertData(self,lesson): connect = pymssql.connect('192.168.0.248','***','***','***') # 服务器名,账户,密码,数据库名 if connect: print('连接成功!') cursor = connect.cursor() # 创建一个游标对象,python里的sql语句都要通过cursor来执行 sql = "insert into Lesson(parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl) values('{}','{}','{}','{}','{}','{}')".format(self.parentId,self.lessonType,self.lessonImg,self.lessonName,self.abstract,self.lessonFileUrl) cursor.execute(sql) # 执行sql语句 connect.commit() # 提交 cursor.close() connect.close()
注意看注释喔~ 有问题随时微信联系我们吧。下载的音频文件路径需更改。
import requests,bs4,time import time import hashlib import random import pymssql ''' 插入数据库的数据对象,封装对象,方便调用 ''' class lesson(object): def __init__(self,parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl): self.parentId = parentId self.lessonType = lessonType self.lessonImg = lessonImg self.lessonName = lessonName self.abstract = abstract self.lessonFileUrl = lessonFileUrl class ximalaya(lesson): def __init__(self): self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36" } def getServerTime(self): """ 获取喜马拉雅服务器的时间戳 :return: """ # 这个地址就是返回服务器时间戳的接口 serverTimeUrl = "https://www.ximalaya.com/revision/time" response = requests.get(serverTimeUrl,headers = self.headers) return response.text def getSign(self,serverTime): """ 生成 xm-sign 规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳 :param serverTime: :return: """ nowTime = str(round(time.time()*1000)) sign = str(hashlib.md5("himalaya-{}".format(serverTime).encode()).hexdigest()) + "({})".format(str(round(random.random()*100))) + serverTime + "({})".format(str(round(random.random()*100))) + nowTime # 将xm-sign添加到请求头中 self.headers["xm-sign"] = sign return sign ''' 下载音频文件,路径需要设置 ''' def downVoice(self,url,fileName): serverTime = self.getServerTime() # 每次执行下载都需要发出请求,xm-sign的现在时间戳和服务器时间戳需要不断更新,才能通过验证 self.getSign(serverTime) # 将xm-sign添加到请求头中, 不然无法获取到数据 try: res = requests.get(url,headers=self.headers) down_file_url = res.json()['data']['src'] # json解析报错 # print(down_file_url) down_file_content = requests.get(down_file_url,headers=self.headers) with open('D:\\you-get\\喜马拉雅\\'+fileName+'.mp3', 'wb') as file: #保存到本地的文件名, 文件名一样会被替换(这里是特殊情况,可根据需要区分文件名) print('正在下载...:'+fileName) file.write(down_file_content.content) file.flush() print('下载完成!!!:'+fileName) print('=' * 30) except Exception as e: print('=====报错的url为:'+url) print(e) ''' 获取课程下的所有课件列表 ''' def getAllLesson(self,url): res = requests.get(url,headers=self.headers) list_data = res.json()['data']['tracksAudioPlay'] for data in list_data: voice_data_url = 'https://www.ximalaya.com/revision/play/v1/audio?id={}&ptype=1'.format(data['trackId']) trackName = data['trackName'] # lesson.lessonName = trackName # 装载数据到lesson对象 # ximalaya.insertData(self,lesson) # 传入lesson对象 self.downVoice(voice_data_url,trackName) time.sleep(3) """ 获取课程下分页的页码(名称,图片,简介,) """ def getPageCount(self,url): page_count = 0 # 分页数据测试 res = requests.get(url,headers=self.headers) try: # print(res.text) soup = bs4.BeautifulSoup(res.text,'html.parser') # print(soup) data_list = soup.find('ul',class_='pagination-page _Xo').find_all('li') # 页码所在的html结构 # lesson_title = soup.find('h1',class_='title lO_').text # 名称 # lesson_img = soup.find('img',class_='img lO_')['src'] # 图片 # lesson_abstract = soup.find('article',class_='intro aB_') # 简介 for data in data_list: if(data.text.isdigit()): # 如果是数字,代表是分页的 page_count+=1 except: print('='*30 + '不存在分页' + '='*30) if(page_count == 0): page_count = 1 # 分页从1开始,为第一页 return page_count # return lesson_title,lesson_img,lesson_abstract,page_count ''' 连接sql server数据库,增删改查,语句可以在数据库写好,复制进来,因为这里是字符串,不容易发现错误 ''' def insertData(self,lesson): connect = pymssql.connect('***','***','***','***') # 服务器名,账户,密码,数据库名 if connect: print('连接成功!') cursor = connect.cursor() # 创建一个游标对象,python里的sql语句都要通过cursor来执行 sql = "insert into Lesson(parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl) values('{}','{}','{}','{}','{}','{}')".format(self.parentId,self.lessonType,self.lessonImg,self.lessonName,self.abstract,self.lessonFileUrl) cursor.execute(sql) # 执行sql语句 connect.commit() # 提交 cursor.close() connect.close() ''' 程序入口 ''' if __name__ == '__main__': # https://www.ximalaya.com/ertong/38839711/ # 获取课程的所有课件列表数据 # lesson_id = '38839711' # lesson_id = '31966031' lesson_id = '238474' # Url地址栏中的一串数字 # 课程详情url,包含课程下所有的章节数据页面 # lesson_url = 'https://www.ximalaya.com/ertong/{}/'.format(lesson_id) # lesson_url = 'https://www.ximalaya.com/youshengshu/{}/'.format(lesson_id) lesson_url = 'https://www.ximalaya.com/xiangsheng/{}/'.format(lesson_id) ximalaya = ximalaya() page_count = ximalaya.getPageCount(lesson_url) for count in range(1,page_count+1): # json数据Url json_url = 'https://www.ximalaya.com/revision/play/v1/show?id={}&num={}&sort=1&size=30&ptype=0'.format(lesson_id,count) ximalaya.getAllLesson(json_url)
分享Python实战代码,入门资料,进阶资料,基础语法,爬虫,数据分析,web网站,机器学习,深度学习等等。
关注公众号「Python家庭」领取1024G整套教材、交流群学习、商务合作