前言
我一直也在学习python,包括爬虫,但平时都是用一些零散的命令和语句来实现一个爬虫,没有用过框架,但最近也了解了使用框架完成一个爬虫无论是在编写速度还是执行效率上都会更上一个层次,所以学习框架也成为大势所趋,今天就把我使用scrapy框架完成的第一个爬虫放在这,一来是为了为我的学习做一下记录,二来也希望让大家指出我的不足之处,我们一同进步。
首先是安装scrapy
pip install scrapy测试是否成功安装:在命令符中输入 scrapy 如果显示如下图所示,则安装成功。 创建爬虫项目
进入你想要创建项目的文件夹,执行命令scrapy startproject 项目名
比如我想在D盘创建一个名为firstspider的爬虫项目,可以像下面这样输入:
创建好的项目的结构: 创建爬虫
进入项目的两层目录,执行命令scrapy genspider 爬虫名 域名
如果我想创建一个爬取百度图片的名为myspider的爬虫(百度图片的网址:https://image.baidu.com/,在这里我先进入firstspider目录再进入firstspider目录,执行命令scrapy genspider myspider image.baidu.com 会在spiders目录下产生一个文件,这就是我们的爬虫文件
接下来就是代码部分,由于我也是第一次使用框架,所以我在这里就给大家介绍一部分属性吧,具体的实现过程等我学通透之后再给大家讲解吧(嘻嘻)。这一次大家就通过这一个简单的例子来简单的了解一下scrapy框架吧。
爬虫文件部分(myspider)
(要多多写代码,这样才能变厉害)
items部分
settings部分
写完代码就可以运行了,还是在命令符中进入创建爬虫的时的目录,执行命令scrapy crawl 爬虫名
执行过程
爬取结果
第一次使用框架还不是很熟,有不足之处或者有错误的地方还请帮忙指出,一定虚心请教。