编写基本的爬虫1
实现PageProcessor环境说明示例代码运行结果
在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。
同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题
实现PageProcessor
这部分我们通过一个简单例子来介绍PageProcessor的编写方式,我将PageProcessor的定制分为二个部分,分别是爬虫的配置和页面元素的抽取。爬取的网址为博客文章的标题URL链接为:https://blog.csdn.net/xye1230/article/details/108348669
环境说明
1、JDK1.8 2、IDEA2019.2
示例代码
public class CsdnPageProcessor implements PageProcessor {
private Site site
= Site
.me().setRetryTimes(3).setSleepTime(0);
@Override
public void process(Page page
) {
String title
= page
.getHtml().xpath("//*[@id='articleContentId']/text()").toString();
page
.putField("title",title
);
}
@Override
public Site
getSite() {
return site
;
}
public static void main(String
[] args
) {
Spider
.create(new CsdnPageProcessor()).addUrl("https://blog.csdn.net/xye1230/article/details/108348669").thread(5).run();
}
}
运行结果