热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > Java > 微博爬虫

微博爬虫

资源大小：35.97 MB
上传时间：2021-06-29
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： java 爬虫

资源简介

可用于爬取微博信息主要循环代码 main loop : rounds of generate - fetch - parse - update # 执行循环，每次执行一层（一个深度）的爬取 # 每层爬取都会执行： # 1.生成本次待爬取任务列表（generate) # 2.抓取爬取列表中页面（fetch) # 3.解析爬取页面（parse),抽取所有链接，以及搜索引擎相关数据（网页标题、网页文本、meta信息等) # 4.将从本次爬取中解析出的链接，更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态（抓取成功、失败、重试次数），更新到$CRAWL_PATH/crawldb中 # LIMIT是bin/crawl命令后参数中给定的 for ((a=1; a <= LIMIT ; a++)) do #nutch爬取是一个长期的任务，如果想结束nutch的爬取，可以在当前目录（执行命令的目录）下，新建一个.STOP文件，每层爬取一开始都会检测目录是否有.STOP文件（-e表示文件是否存在) if [ -e ".STOP" ] then echo "STOP file found - escaping loop" break fi echo `date` ": Iteration $a of $LIMIT" echo "Generating a new segment" #从$CRAWL_PATH/crawldb中，生成待爬取任务列表，并且在segments文件夹下，根据当前时间生成一个文件夹segments/时间,将待爬取任务存放到segments/时间/crawl_generate文件夹中，以SequenceFile的形式存储

文件列表

weibo01
weibo_crawler
src
lib
bin
.classpath
.project
.settings
org.eclipse.core.resources.prefs
CODE_COVERAGE.md
pom.xml
result.png
.settings

您可能感兴趣的

同类别推荐

麦田守望者 3小时前成为了本站会员
lighting！ 9小时前成为了本站会员
威尔史密斯 10小时前成为了本站会员
清水煮白开 1天前成为了本站会员
你看我困不 1天前成为了本站会员
蒋治杉 1天前成为了本站会员
。 1天前成为了本站会员
超↗人不会飛 1天前成为了本站会员
白白狐疑酱 2天前成为了本站会员
꧁꫞꯭微米꯭꫞꧂? 2天前成为了本站会员

麦田守望者 3小时前成为了本站会员
lighting！ 9小时前成为了本站会员
威尔史密斯 10小时前成为了本站会员
清水煮白开 1天前成为了本站会员
你看我困不 1天前成为了本站会员
蒋治杉 1天前成为了本站会员
。 1天前成为了本站会员
超↗人不会飛 1天前成为了本站会员
白白狐疑酱 2天前成为了本站会员
꧁꫞꯭微米꯭꫞꧂? 2天前成为了本站会员

麦田守望者 2小时前下载了：

UCenter Home 是一套采用PHP+MYSQL构建的社会化网络软件（Social Network Software，简称SNS）。通过 UCen...
麦田守望者 2小时前下载了：

像开源的Facebook
麦田守望者 3小时前下载了：

PHPSPACE社交门户网站
FeiFei 3小时前下载了：

wince TTS语音播报
FeiFei 3小时前下载了：

利用微软的语音引擎使你的程序会朗读，需要安装微软语音引擎或者金山词霸...
lighting！ 9小时前下载了：

steger warming 分裂格式
白白狐疑酱 1天前下载了：

25种人工神经网络matlab源码
超↗人不会飛 1天前下载了：

使用的谱分析C语言代码
节 2天前下载了：

MMC-HVDC模型预测控制
甘露去柚 3天前下载了：

stm32 流水灯

麦田守望者 2小时前下载了：

UCenter Home 是一套采用PHP+MYSQL构建的社会化网络软件（Social Network Software，简称SNS）。通过 UCen...
麦田守望者 2小时前下载了：

像开源的Facebook
麦田守望者 3小时前下载了：

PHPSPACE社交门户网站
FeiFei 3小时前下载了：

wince TTS语音播报
FeiFei 3小时前下载了：

利用微软的语音引擎使你的程序会朗读，需要安装微软语音引擎或者金山词霸...
lighting！ 9小时前下载了：

steger warming 分裂格式
白白狐疑酱 1天前下载了：

25种人工神经网络matlab源码
超↗人不会飛 1天前下载了：

使用的谱分析C语言代码
节 2天前下载了：

MMC-HVDC模型预测控制
甘露去柚 3天前下载了：

stm32 流水灯

您现在的位置是：虫虫源码 > Java > 微博爬虫

微博爬虫

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐