资 源 简 介
可用于爬取微博信息
主要循环代码
main loop : rounds of generate - fetch - parse - update
# 执行循环,每次执行一层(一个深度)的爬取
# 每层爬取都会执行:
# 1.生成本次待爬取任务列表(generate)
# 2.抓取爬取列表中页面(fetch)
# 3.解析爬取页面(parse),抽取所有链接,以及搜索引擎相关数据(网页标题、网页文本、meta信息等)
# 4.将从本次爬取中解析出的链接,更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态(抓取成功、失败、重试次数),更新到$CRAWL_PATH/crawldb中
# LIMIT是bin/crawl命令后参数中给定的
for ((a=1; a <= LIMIT ; a++))
do
#nutch爬取是一个长期的任务,如果想结束nutch的爬取,可以在当前目录(执行命令的目录)下,新建一个.STOP文件,每层爬取一开始都会检测目录是否有.STOP文件(-e表示文件是否存在)
if [ -e ".STOP" ]
then
echo "STOP file found - escaping loop"
break
fi
echo `date` ": Iteration $a of $LIMIT"
echo "Generating a new segment"
#从$CRAWL_PATH/crawldb中,生成待爬取任务列表,并且在segments文件夹下,根据当前时间生成一个文件夹segments/时间,将待爬取任务存放到segments/时间/crawl_generate文件夹中,以SequenceFile的形式存储