首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > HTML/CSS > web爬虫工具,抓取网页

web爬虫工具,抓取网页

  • 资源大小:3.59 MB
  • 上传时间:2021-06-30
  • 下载次数:0次
  • 浏览次数:1次
  • 资源积分:1积分
  • 标      签: java,html

资 源 简 介

基于webcollector-2.12 开发,web爬虫工具,抓取网页,使用方便快捷。 WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。

文 件 列 表

WebCollector-master
.gitignore
README.md
README.zh-cn.md
WebCollector
WebCollectorExample
YahooCrawler.java
webcollector-2.12-bin.zip

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

VIP VIP