资 源 简 介
注:新浪微博API版本升级后,认证方式有变,程序未做相应更新。有兴趣的朋友可将源代码签出研究。也欢迎有兴趣的朋友加入项目进行更新
由于本应用接口访问量大,暂被新浪封禁。若您的确希望体验本应用,在SinaMBCrawler.config文件中设置自己的appKey和appSecret即可。注:新版本可为5个机器人分别设定不同的appKey和appSecret,以及各自最短访问API的间隔时间(毫秒),这样它们可以更快速地独立工作了!
国内第一个针对微博数据的爬虫程序!
登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。
该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SERVER作为后台数据库,并提供了针对SQL Server的数据库脚本文件。
另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)
本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。 你不可将当前作品用于商业目的。
7.x版本已经发布!基于新浪微博API2.0。基于1.0API的版本到6.5为止,也提供下载。
该版本共有5个后台工作线程:爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人。更高的性能!最大限度挖掘爬虫潜力!
以现在测试的结果看,已经能够满足自用。
本程序的特点:
1、5个后台工作线程,最大限度挖掘爬虫性能潜力!
2、界面上提供参数设置,灵活方便
3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息
4、自动调整请求频率,防止超限,也避免过慢,降低效率
5、对机器人任意控制,可随时暂停、继续、停止机器人,也可选择机器人是否启动
6、良好的用户体验
注意:
使用时,config文件和可执行文件的文件名需要相同