单线程+异步协程 爬虫

tech2024-06-17  72

event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行coroutine:协程对象,我们可以将协程对象注册到事件循环中,他会被事件循环调用。我们可以使用 async 关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回一个协程对象task:任务,它是对协程对象的进一步封装,包含了任务的各个状态。future:代表将来执行或还没有执行的任务,实际和 task 没有本质区别。async:定义一个协程。await:用来挂起阻塞方法的执行。 import requests import re import time from lxml import etree # 导入线程池模块对应的类 from multiprocessing.dummy import Pool import asyncio async def request(url): print('正在请求的url是: ', url) print('请求成功', url) return url # async修饰的函数,调用之后返回的是一个协程对象 c = request('www.baidu.com') ''' # 创建一个事件循环对象 loop = asyncio.get_event_loop() # 将协程对象注册到loop中,然后启动loop loop.run_until_complete(c) ''' ''' # task的使用 loop = asyncio.get_event_loop() task = loop.create_task(c) # task的状态 print(task) # 执行协程并启动 loop.run_until_complete(task) print(task) ''' ''' # future的使用 loop = asyncio.get_event_loop() task = asyncio.ensure_future(c) print(task) loop.run_until_complete(task) print(task) ''' # 回调函数 def callback_func(task): # result返回的是任务对象中封装的协程对象对应的函数的返回值 print(task.result()) # 绑定回调 loop = asyncio.get_event_loop() task = asyncio.ensure_future(c) # 将回调函数绑定到任务对象中 task.add_done_callback(callback_func) loop.run_until_complete(task)

代码2

import requests import re import time from lxml import etree # 导入线程池模块对应的类 from multiprocessing.dummy import Pool import asyncio async def request(url): print('正在下载: ', url) # 在异步协程中如果出现了同步模块相关的代码,那么久无法实现异步 # time.sleep(2) # 当在asyncio中遇到阻塞操作必须进行手动挂起 await asyncio.sleep(2) print('下载完毕: ', url) start = time.time() urls = { 'www.baidu.com', 'www.xiecheng.com', 'www.goubanjia.com' } # 任务列表:存放多个任务对象 stasks = [] for url in urls: c = request(url) # 任务对象 task = asyncio.ensure_future(c) stasks.append(task) loop = asyncio.get_event_loop() # 将任务列表封装到wait方法中,将多任务注册到了事件循环当中 loop.run_until_complete(asyncio.wait(stasks)) print(time.time()-start)
最新回复(0)