您现在的位置是：虫虫源码 > 其他 > 1、锁定某个主题抓取； 2、能够产生日志文本文件

1、锁定某个主题抓取； 2、能够产生日志文本文件

资源大小：1868 K
上传时间：2023-04-03
下载次数：0次
浏览次数：1次
资源积分：1积分
标签：

资源简介

1、锁定某个主题抓取； 2、能够产生日志文本文件，格式为：时间戳(timestamp)、URL； 3、抓取某一URL时最多允许建立2个连接（注意：本地作网页解析的线程数则不限） 4、遵守文明蜘蛛规则：必须分析robots.txt文件和meta tag有无限制；一个线程抓完一个网页后要sleep 2秒钟； 5、能对HTML网页进行解析，提取出链接URL，能判别提取的URL是否已处理过，不重复解析已crawl过的网页； 6、能够对spider/crawler程序的一些基本参数进行设置，包括：抓取深度(depth)、种子URL等； 7、使用User-agent向服务器表明自己的身份； 8、产生抓取统计信息：包括抓取速度、抓取完成所需时间、抓取网页总数；重要变量和所有类、方法加注释； 9、请遵守编程规范，如类、方法、文件等的命名规范， 10、可选：GUI图形用户界面、web界面，通过界面管理spider/crawler，包括启停、URL增删等

您可能感兴趣的

同类别推荐

. 1天前成为了本站会员
奋斗 1天前成为了本站会员
✨ 1天前成为了本站会员
一天不玩浑身难受 2天前成为了本站会员
Aloha 2天前成为了本站会员
嘻嘻嘻 2天前成为了本站会员
maihaoweilai 2天前成为了本站会员
紫麟鹿 2天前成为了本站会员
天狼 2天前成为了本站会员
李红远 2天前成为了本站会员

毛海彬 1周前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 1周前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 1周前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 1周前下载了：

这是一个旅行商问题的算法源程序
dybabc123 1周前下载了：

unix下的ping代码源程序
dybabc123 1周前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 1周前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 1周前下载了：

介绍windows环境下命令行
dybabc123 1周前下载了：

Thinking in java 3 习题答案
dybabc123 1周前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.

您现在的位置是：虫虫源码 > 其他 > 1、锁定某个主题抓取； 2、能够产生日志文本文件

1、锁定某个主题抓取； 2、能够产生日志文本文件

资 源 简 介

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

相关资源

您可能感兴趣的

同类别推荐