爬虫概念

tech2022-10-11  101

爬虫概念

爬虫,又称网页蜘蛛或网络机器人. 爬虫是模拟人操作客户端(浏览器,APP)向服务器发起网络请求 抓取数据的自动化程序或脚本 模拟: 不让服务器发现我们是爬虫 客户端: 浏览器和APP, 其是用户与服务器之间进行数据交互的通道, 或者说是桥梁 自动化: 针对于大数据量的 自动化,数量较小时可以人工获取数据,但往往公司中爬取的量都在百万级,所以要程序自动化获取数据

爬虫分类

通用爬虫: 通用爬虫,为搜索引擎提供检索服务。 聚焦爬虫: 聚焦爬虫是针对待定领域,抓取特定数据的爬虫程序 聚焦爬虫又分为增量式爬虫和深度爬虫

聚焦爬虫设计思路:

1.url, 发请求, 获取响应 2.数据解析 3.数据持久化

robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

网络模型

OSI七层模型: 应用层, 表示层, 会话层, 传输层, 网络层, 数据链路层, 物理层 TCP/IP五层模型: 应用层, 传输层, 网络层, 数据链路层, 物理层 应用层: https http ftp sftp ssh 传输层: tcp udp 网络层: ip 数据链路层: ARP 物理层: 以太网协议

ARP协议

通过IP获取目标计算机的mac地址的协议

交换机不能识别IP地址

## TCP与UDP

tcp:tcp是面向连接的, 可靠的, 基于字节流的传输层通信协议 有序性: 给数据包编号 可靠性: 超时重发, 并有确认的机制 可控性: 滑动窗口协议与拥塞控制算法 正确性: checksum函数, 在接收与发送端都会计算校验和 udp: udp是用户数据报协议, 面向事务的(面向无连接的), 传输不可靠的传输层通信协议 1.传输不可靠, 可能有数据丢失 2.与udp相比, 报文小, 传输速度快 3.适用于吞吐量大, 并且能够承受一定数据损失的传输

标题 http和https的区别

1、http协议:是超文本传输协议,信息是明文传输。如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息。 2、https协议:是具有安全性的ssl加密传输协议,为浏览器和服务器之间的通信加密,确保数据传输的安全。 3,端口号不同,http是80,https是443 4,http协议:免费申请。https协议:需要到ca申请证书,一般免费证书很少,需要交费

最新回复(0)