资 源 简 介
ShootSearch是一款用C#开发的网络爬虫程序。其内核包含爬虫,存储,网页后期处理,索引生成等。 在抓取网页的过程中,可以灵活的制定多种规则,过滤URL,内置一个可无限增长的后继队列模块,可以随时暂停或者停止抓取,抓取的网页可以分时或者按照指 定大小切块存储(自定义的大文件系统)。 在网页的处理过程中,内置一个规则处理引擎,可以通过编写正则表达式灵活的提取或者过滤文字信息,将有用的信息存储到数据库(通用的数据库接口)或者 生成索引(支持Lucene和Hubble.NET)。 内置一个支持Lucene的中文切词模块。 基于Quartz.NET的任务调度(),每一个步骤(抓取,处理,生成索引)都是一个Job,每个Job都可以根据XML来灵活组合和扩充。 内置多种接口,开发人员可随时根据需求自己开发替换某个模块。