首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Java > heritrix

heritrix

  • 资源大小:25.70 MB
  • 上传时间:2021-06-29
  • 下载次数:0次
  • 浏览次数:1次
  • 资源积分:1积分
  • 标      签: java

资 源 简 介

网络爬虫,用于自动捕获各种信息。Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照规则决定将哪个URI入队。 边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI。 处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件

文 件 列 表

heritrix-3.0.0-dist
heritrix-3.0.0
bin
arcreader.cmd
heritrix-3.0.0
heritrix-3.0.0
bin
arcreader
heritrix-3.0.0-dist

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

VIP VIP