资 源 简 介
可以配置爬取规则的网络定向爬虫——网页定向采集器。
爬虫的动作不过是下载页面、抽取链接、跳转下一个页面,如此重复。
将这样的重复动作抽取出来,即使对不同的网站,只用编写对应的爬取规则文件,就可以不用额外代码的实现对该站点的爬取。客户端代码将每个页面的抽取结果看做字符串流处理即可。
系统经过若干项目的测试,成功爬取了上千万个网页,性能比较鲁棒。
如果需要采集多个网页,可通过增加XML文件中节点实现。
可以个性化定制:
1) 页面的抽取内容
2) 抽取后的处理动作(过滤或者替换)
3) 对最终采集得到的信息的处理方式(存入数据库、制作索引等)