编写基本的爬虫1

tech2023-11-29  83

编写基本的爬虫1

实现PageProcessor环境说明示例代码运行结果

在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。

同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题

实现PageProcessor

这部分我们通过一个简单例子来介绍PageProcessor的编写方式,我将PageProcessor的定制分为二个部分,分别是爬虫的配置和页面元素的抽取。爬取的网址为博客文章的标题URL链接为:https://blog.csdn.net/xye1230/article/details/108348669

环境说明

1、JDK1.8 2、IDEA2019.2

示例代码

/** * @version V1.0 * @description: * @author: old_cai_niao * @date: 2020/9/3 16:59 */ public class CsdnPageProcessor implements PageProcessor { /** * 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等 */ private Site site = Site.me().setRetryTimes(3).setSleepTime(0); @Override public void process(Page page) { //部分二:定义如何抽取页面信息,并保存下来 String title = page.getHtml().xpath("//*[@id='articleContentId']/text()").toString(); page.putField("title",title); } @Override public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new CsdnPageProcessor()).addUrl("https://blog.csdn.net/xye1230/article/details/108348669").thread(5).run(); } }

运行结果

最新回复(0)