爬虫的简单介绍

tech2024-02-21 160

爬虫的介绍

1. 爬虫的定义

⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做

2.爬虫的用途

12306抢票网站上的投票短信轰炸

3.爬虫着么抓取网页上的数据

⽹⻚三⼤特征： 1 ⽹⻚都有⾃⼰唯⼀的URL 2 ⽹⻚都是HTML来描述⻚⾯信息 3 ⽹⻚都使⽤HTTP/HTTPS协议来传输HTML数据爬⾍的设计思路： 1 确定需要爬取的URL地址 2 通过HTTP/HTTPS协议获取对应的HTML⻚⾯ 3 提取HTML⻚⾯有⽤的数据

4.为什么要选择Python做爬虫

代码简介，开发效率⾼，⽀持的模块多，HTTP请求和HTML解的模块丰富。调⽤其他接⼝也⾮常⽅便。

通用爬虫和聚焦爬虫

根据使⽤场景，⽹络爬⾍可分为通⽤爬⾍和聚焦爬⾍两种.

通⽤⽹络爬⾍是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互⽹内容的镜像备份。

1.通⽤搜索引擎（Search Engine）⼯作原理

通⽤⽹络爬⾍从互联⽹中搜集⽹⻚，采集信息，这些⽹⻚信息⽤于为搜索引擎建⽴索引从⽽提供⽀持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

第一步：抓取网页搜索引擎⽹络爬⾍的基本⼯作流程如下： 1.⾸先选取⼀部分的种⼦URL，将这些URL放⼊待抓取URL队列； 2.取出待抓取URL，解析DNS得到主机的IP，并将URL对应的⽹⻚下载下来，存储进已下载⽹⻚库中，并且将这些URL放进已抓取URL队列。 3.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放⼊待抓取URL队列，从⽽进⼊下⼀个循环…

搜索引擎如何获取⼀个新⽹站的URL：

新⽹站向搜索引擎主动提交⽹址：（如百度http://zhanzhang.baidu.com/linksubmit/url）在其他⽹站上设置新⽹站外链（尽可能处于搜索引擎爬⾍爬取范围）搜索引擎和DNS解析服务商(如DNSPod等）合作，新⽹站域名将被迅速抓取。

Robots协议 Robots协议（也叫爬⾍协议、机器⼈协议等），全称是“⽹络爬⾍排除标准”（Robots Exclusion Protocol），⽹站通过Robots协议告诉搜索引擎哪些⻚⾯可以抓取，哪些⻚⾯不能抓取，例如：淘宝⽹：https://www.taobao.com/robots.txt 腾讯⽹： http://www.qq.com/robots.txt

第二步：数据储存搜索引擎通过爬⾍爬取到的⽹⻚，将数据存⼊原始⻚⾯数据库。其中的⻚⾯数据与⽤户浏览器得到的HTML是完全⼀样的。搜索引擎蜘蛛在抓取⻚⾯时，也做⼀定的重复内容检测，⼀旦遇到访问权重很低的⽹站上有⼤量抄袭、采集或者复制的内容，很可能就不再爬⾏。

第四步：提供检索服务，⽹站排名搜索引擎在对信息进⾏组织和处理后，为⽤户提供关键字检索服务，将⽤户检索相关的信息展示给⽤户。同时会根据⻚⾯的PageRank值（链接的访问量排名）来进⾏⽹站排名，这样 Rank值⾼的⽹站在搜索结果中会排名较前，当然也可以直接使⽤ Money 购买搜索引擎⽹站排名，简单粗暴。

聚焦爬虫

聚焦爬⾍，是"⾯向特定主题需求"的⼀种⽹络爬⾍程序，它与通⽤搜索引擎爬⾍的区别在于：聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选，尽量保证只抓取与需求相关的⽹⻚信息。

最新回复(0)