热门搜索： json Test query CSS java t

您现在的位置是：虫虫源码 > Python > Python 模拟爬虫抓取知乎用户信息

Python 模拟爬虫抓取知乎用户信息

资源大小：1.82 MB
上传时间：2021-06-29
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 其它源码

资源简介

Python 模拟爬虫抓取知乎用户信息以及人际拓扑关系，使用scrapy爬虫框架，数据存储使用mongo数据库。　　本地运行请注意：爬虫依赖mongo和rabbitmq，因此这两个服务必须正常运行和配置。为了加快下载效率，图片下载是异步任务，因此在启动爬虫进程执行需要启动异步worker，启动方式是进入zhihu_spider/zhihu目录后执行下面命令: 　　celery -A zhihu.tools.async worker --loglevel=info 　　爬虫项目部署：　　进入zhihu_spider后执行```docker-compose up``` ，进入container后和本地运行方法相同，依次启动mongo、rabbitmq、异步任务、爬虫进程即可。　　其它需要说明的问题：　　爬虫框架从start\_requests开始执行，此部分会提交知乎主页的访问请求给引擎，并设置回调函数为post_login. 　　post\_login解析主页获取\_xsrf保存为成员变量中，并提交登陆的POST请求，设置回调函数为after\_login. 　　after\_login拿到登陆后的cookie，提交一个start\_url的GET请求给爬虫引擎，设置回调函数parse\_people. 　　parse\_people解析个人主页，一次提交关注人和粉丝列表页面到爬虫引擎，回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。　　parse\_follow会解析用户列表，同时把动态的人员列表POST请求发送只引擎，回调函数是parse\_post\_follow，把解析好的用户主页链接请求也发送到引擎，人员关系写入mongo。　　parse\_post\_follow单纯解析用户列表，提交用户主页请求至引擎。

文件列表

codesc.net
zhihu_spider
.git
description
zhihu_spider
zhihu_spider
.git
config
codesc.net

您可能感兴趣的

同类别推荐

跑刀红狼三角洲 1天前成为了本站会员
象龟 1天前成为了本站会员
里狐 2天前成为了本站会员
： 2天前成为了本站会员
天妒英才 3天前成为了本站会员
Lntano 4天前成为了本站会员
绿色心情 4天前成为了本站会员
桃子 5天前成为了本站会员
民族复兴大任的时代新人 5天前成为了本站会员
兀七 5天前成为了本站会员

毛海彬 6天前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 6天前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 6天前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 6天前下载了：

这是一个旅行商问题的算法源程序
dybabc123 6天前下载了：

unix下的ping代码源程序
dybabc123 6天前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 6天前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 6天前下载了：

介绍windows环境下命令行
dybabc123 6天前下载了：

Thinking in java 3 习题答案
dybabc123 6天前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.

您现在的位置是：虫虫源码 > Python > Python 模拟爬虫抓取知乎用户信息

Python 模拟爬虫抓取知乎用户信息

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐