Python

tech2022-09-17 263

项目需求：抓取专辑所有音频文件。

超详细讲解，按需查看，文末附源代码。关注我们，只涨知识，不掉发。

1. 项目截图

2. 找数据

搜索郭德纲相声，选择第一个专辑，点击进入。

找到我们需要下载的音频文件，一共49个。

这里以谷歌浏览器来演示使用开发者工具（F12）来找数据，找数据小技巧：直接先找xhr分类，如没有数据，再找all里第一个html，一般情况下，批量采集的数据是以json数据格式获取的。

喜马拉雅的音频数据藏在点击播放后的url里。截图中的url正是音频列表的数据了。

接着点开右侧 Preview预览的文件，trackId就是区分每个文件的id。要找到下载数据的地方，就必须找到唯一的关键词。

顺着左侧的url查看，发现下面这个url对应的右侧数据，有我们需要的.m4a音频文件数据。

找数据就搞定了，49个音频文件列表数据和对应的音频文件地址数据。

3. 项目难点讲解

经过url的观察，发现请求头里，都会有个xm-sign的数据。没有这个数据，则抓取不到我们要的数据。

那我们就生成xm-sign数据，规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳。（每次抓取数据的时候，都需要调用该方法，现在时间戳和服务器时间戳相差大到一定值，则获取不到数据）

def getServerTime(self): """ 获取喜马拉雅服务器的时间戳 :return: """ # 这个地址就是返回服务器时间戳的接口 serverTimeUrl = "https://www.ximalaya.com/revision/time" response = requests.get(serverTimeUrl,headers = self.headers) return response.text def getSign(self,serverTime): """ 生成 xm-sign 规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳 :param serverTime: :return: """ nowTime = str(round(time.time()*1000)) sign = str(hashlib.md5("himalaya-{}".format(serverTime).encode()).hexdigest()) + "({})".format(str(round(random.random()*100))) + serverTime + "({})".format(str(round(random.random()*100))) + nowTime # 将xm-sign添加到请求头中 self.headers["xm-sign"] = sign return sign

这里提供一个获取音频文件分页页码的方法。原理是获取分页数字所在的html结构，循环该结构，依次加1得到页码。（方法有很多，可以参考这个思路）

""" 获取课程下分页的页码（名称，图片，简介，） """ def getPageCount(self,url): page_count = 0 # 分页数据测试 res = requests.get(url,headers=self.headers) try: # print(res.text) soup = bs4.BeautifulSoup(res.text,'html.parser') # print(soup) data_list = soup.find('ul',class_='pagination-page _Xo').find_all('li') # 页码所在的html结构 # lesson_title = soup.find('h1',class_='title lO_').text # 名称 # lesson_img = soup.find('img',class_='img lO_')['src'] # 图片 # lesson_abstract = soup.find('article',class_='intro aB_') # 简介 for data in data_list: if(data.text.isdigit()): # 如果是数字，代表是分页的 page_count+=1 except: print('='*30 + '不存在分页' + '='*30) if(page_count == 0): page_count = 1 # 分页从1开始，为第一页 return page_count # return lesson_title,lesson_img,lesson_abstract,page_count

这里再引申一下：插入数据到数据库（sql server），其他数据库大同小异。

''' 连接sql server数据库，增删改查，语句可以在数据库写好，复制进来，因为这里是字符串，不容易发现错误 ''' def insertData(self,lesson): connect = pymssql.connect('192.168.0.248','***','***','***') # 服务器名,账户,密码,数据库名 if connect: print('连接成功！') cursor = connect.cursor() # 创建一个游标对象,python里的sql语句都要通过cursor来执行 sql = "insert into Lesson(parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl) values('{}','{}','{}','{}','{}','{}')".format(self.parentId,self.lessonType,self.lessonImg,self.lessonName,self.abstract,self.lessonFileUrl) cursor.execute(sql) # 执行sql语句 connect.commit() # 提交 cursor.close() connect.close()

4. 源代码

注意看注释喔~ 有问题随时微信联系我们吧。下载的音频文件路径需更改。

import requests,bs4,time import time import hashlib import random import pymssql ''' 插入数据库的数据对象，封装对象，方便调用 ''' class lesson(object): def __init__(self,parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl): self.parentId = parentId self.lessonType = lessonType self.lessonImg = lessonImg self.lessonName = lessonName self.abstract = abstract self.lessonFileUrl = lessonFileUrl class ximalaya(lesson): def __init__(self): self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36" } def getServerTime(self): """ 获取喜马拉雅服务器的时间戳 :return: """ # 这个地址就是返回服务器时间戳的接口 serverTimeUrl = "https://www.ximalaya.com/revision/time" response = requests.get(serverTimeUrl,headers = self.headers) return response.text def getSign(self,serverTime): """ 生成 xm-sign 规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳 :param serverTime: :return: """ nowTime = str(round(time.time()*1000)) sign = str(hashlib.md5("himalaya-{}".format(serverTime).encode()).hexdigest()) + "({})".format(str(round(random.random()*100))) + serverTime + "({})".format(str(round(random.random()*100))) + nowTime # 将xm-sign添加到请求头中 self.headers["xm-sign"] = sign return sign ''' 下载音频文件，路径需要设置 ''' def downVoice(self,url,fileName): serverTime = self.getServerTime() # 每次执行下载都需要发出请求，xm-sign的现在时间戳和服务器时间戳需要不断更新，才能通过验证 self.getSign(serverTime) # 将xm-sign添加到请求头中, 不然无法获取到数据 try: res = requests.get(url,headers=self.headers) down_file_url = res.json()['data']['src'] # json解析报错 # print(down_file_url) down_file_content = requests.get(down_file_url,headers=self.headers) with open('D:\\you-get\\喜马拉雅\\'+fileName+'.mp3', 'wb') as file: #保存到本地的文件名, 文件名一样会被替换（这里是特殊情况，可根据需要区分文件名） print('正在下载...:'+fileName) file.write(down_file_content.content) file.flush() print('下载完成!!!:'+fileName) print('=' * 30) except Exception as e: print('=====报错的url为：'+url) print(e) ''' 获取课程下的所有课件列表 ''' def getAllLesson(self,url): res = requests.get(url,headers=self.headers) list_data = res.json()['data']['tracksAudioPlay'] for data in list_data: voice_data_url = 'https://www.ximalaya.com/revision/play/v1/audio?id={}&ptype=1'.format(data['trackId']) trackName = data['trackName'] # lesson.lessonName = trackName # 装载数据到lesson对象 # ximalaya.insertData(self,lesson) # 传入lesson对象 self.downVoice(voice_data_url,trackName) time.sleep(3) """ 获取课程下分页的页码（名称，图片，简介，） """ def getPageCount(self,url): page_count = 0 # 分页数据测试 res = requests.get(url,headers=self.headers) try: # print(res.text) soup = bs4.BeautifulSoup(res.text,'html.parser') # print(soup) data_list = soup.find('ul',class_='pagination-page _Xo').find_all('li') # 页码所在的html结构 # lesson_title = soup.find('h1',class_='title lO_').text # 名称 # lesson_img = soup.find('img',class_='img lO_')['src'] # 图片 # lesson_abstract = soup.find('article',class_='intro aB_') # 简介 for data in data_list: if(data.text.isdigit()): # 如果是数字，代表是分页的 page_count+=1 except: print('='*30 + '不存在分页' + '='*30) if(page_count == 0): page_count = 1 # 分页从1开始，为第一页 return page_count # return lesson_title,lesson_img,lesson_abstract,page_count ''' 连接sql server数据库，增删改查，语句可以在数据库写好，复制进来，因为这里是字符串，不容易发现错误 ''' def insertData(self,lesson): connect = pymssql.connect('***','***','***','***') # 服务器名,账户,密码,数据库名 if connect: print('连接成功！') cursor = connect.cursor() # 创建一个游标对象,python里的sql语句都要通过cursor来执行 sql = "insert into Lesson(parentId,lessonType,lessonImg,lessonName,abstract,lessonFileUrl) values('{}','{}','{}','{}','{}','{}')".format(self.parentId,self.lessonType,self.lessonImg,self.lessonName,self.abstract,self.lessonFileUrl) cursor.execute(sql) # 执行sql语句 connect.commit() # 提交 cursor.close() connect.close() ''' 程序入口 ''' if __name__ == '__main__': # https://www.ximalaya.com/ertong/38839711/ # 获取课程的所有课件列表数据 # lesson_id = '38839711' # lesson_id = '31966031' lesson_id = '238474' # Url地址栏中的一串数字 # 课程详情url,包含课程下所有的章节数据页面 # lesson_url = 'https://www.ximalaya.com/ertong/{}/'.format(lesson_id) # lesson_url = 'https://www.ximalaya.com/youshengshu/{}/'.format(lesson_id) lesson_url = 'https://www.ximalaya.com/xiangsheng/{}/'.format(lesson_id) ximalaya = ximalaya() page_count = ximalaya.getPageCount(lesson_url) for count in range(1,page_count+1): # json数据Url json_url = 'https://www.ximalaya.com/revision/play/v1/show?id={}&num={}&sort=1&size=30&ptype=0'.format(lesson_id,count) ximalaya.getAllLesson(json_url)

联系我们，一起学Python吧

分享Python实战代码，入门资料，进阶资料，基础语法，爬虫，数据分析，web网站，机器学习，深度学习等等。

关注公众号「Python家庭」领取1024G整套教材、交流群学习、商务合作

最新回复(0)