热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > Python > 10个线程的Python多线程爬虫（采集新浪数据）

10个线程的Python多线程爬虫（采集新浪数据）

资源大小：31.33 kB
上传时间：2021-06-29
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 其它源码

资源简介

一个Python多线程爬虫，在工作时，开10个线程来抓取新浪网页的数据，抓取并保存页面, 并且根据deep返回页面链接，根据key确定是否保存该页面,其中: 　　deep == 0时，是抓取的最后一层深度，即只抓取并保存页面，不分析链接　　deep > 0时，返回该页面链接。　　编写本采集爬虫的具体要求：1. 指定网站爬取指定深度的页面，将包含指定关键词的页面内容存放到sqlite3数据库文件中　　2. 程序每隔10秒在屏幕上打印进度信息　　3. 支持线程池机制，并发爬取网页　　4. 代码需要详尽的注释，自己需要深刻理解该程序所涉及到的各类知识点　　5. 需要自己实现线程池　　功能描述　　使用python编写一个网站爬虫程序，支持参数如下：　　spider.py -u url -d deep -f logfile -l loglevel(1-5) --testself -thread number --dbfile filepath --key="HTML5" 　　参数说明：　　-u 指定爬虫开始地址　　-d 指定爬虫深度　　--thread 指定线程池大小，多线程爬取页面，可选参数，默认10 　　--dbfile 存放结果数据到指定的数据库（sqlite）文件中　　--key 页面内的关键词，获取满足该关键词的网页，可选参数，默认为所有页面　　-l 日志记录文件记录详细程度，数字越大记录越详细，可选参数，默认spider.log 　　--testself 程序自测，可选参数

文件列表

codesc.net
python-spider-master
dqw-spider
.gitignore
python-spider-master
python-spider-master
.gitignore
codesc.net

您可能感兴趣的

同类别推荐

杨波 18分钟前成为了本站会员
ZS 48分钟前成为了本站会员
. 1天前成为了本站会员
奋斗 1天前成为了本站会员
✨ 1天前成为了本站会员
一天不玩浑身难受 2天前成为了本站会员
Aloha 2天前成为了本站会员
嘻嘻嘻 2天前成为了本站会员
maihaoweilai 2天前成为了本站会员
紫麟鹿 2天前成为了本站会员

毛海彬 1周前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 1周前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 1周前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 1周前下载了：

这是一个旅行商问题的算法源程序
dybabc123 1周前下载了：

unix下的ping代码源程序
dybabc123 1周前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 1周前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 1周前下载了：

介绍windows环境下命令行
dybabc123 1周前下载了：

Thinking in java 3 习题答案
dybabc123 1周前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.

您现在的位置是：虫虫源码 > Python > 10个线程的Python多线程爬虫（采集新浪数据）

10个线程的Python多线程爬虫（采集新浪数据）

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐