爬虫概念

tech2022-10-11 248

爬虫概念

爬虫，又称网页蜘蛛或网络机器人. 爬虫是模拟人操作客户端（浏览器，APP）向服务器发起网络请求抓取数据的自动化程序或脚本模拟: 不让服务器发现我们是爬虫客户端: 浏览器和APP, 其是用户与服务器之间进行数据交互的通道, 或者说是桥梁自动化: 针对于大数据量的自动化，数量较小时可以人工获取数据，但往往公司中爬取的量都在百万级，所以要程序自动化获取数据

爬虫分类

通用爬虫: 通用爬虫，为搜索引擎提供检索服务。聚焦爬虫: 聚焦爬虫是针对待定领域，抓取特定数据的爬虫程序聚焦爬虫又分为增量式爬虫和深度爬虫

聚焦爬虫设计思路:

1.url, 发请求, 获取响应 2.数据解析 3.数据持久化

robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

网络模型

OSI七层模型: 应用层, 表示层, 会话层, 传输层, 网络层, 数据链路层, 物理层 TCP/IP五层模型: 应用层, 传输层, 网络层, 数据链路层, 物理层应用层: https http ftp sftp ssh 传输层: tcp udp 网络层: ip 数据链路层: ARP 物理层: 以太网协议

ARP协议

通过IP获取目标计算机的mac地址的协议

交换机不能识别IP地址

## TCP与UDP

tcp:tcp是面向连接的, 可靠的, 基于字节流的传输层通信协议有序性: 给数据包编号可靠性: 超时重发, 并有确认的机制可控性: 滑动窗口协议与拥塞控制算法正确性: checksum函数, 在接收与发送端都会计算校验和 udp: udp是用户数据报协议, 面向事务的(面向无连接的), 传输不可靠的传输层通信协议 1.传输不可靠, 可能有数据丢失 2.与udp相比, 报文小, 传输速度快 3.适用于吞吐量大, 并且能够承受一定数据损失的传输

标题 http和https的区别

1、http协议：是超文本传输协议，信息是明文传输。如果攻击者截取了Web浏览器和网站服务器之间的传输报文，就可以直接读懂其中的信息。 2、https协议：是具有安全性的ssl加密传输协议，为浏览器和服务器之间的通信加密，确保数据传输的安全。 3，端口号不同，http是80，https是443 4，http协议：免费申请。https协议：需要到ca申请证书，一般免费证书很少，需要交费

最新回复(0)