热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > 其他 > 网络定向爬虫网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

网络定向爬虫网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

资源大小：17.46 kB
上传时间：2021-06-30
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 爬虫网络采集 xml 系统网页文件正则配置基于使用规则描述表达式定向

资源简介

可以配置爬取规则的网络定向爬虫——网页定向采集器。爬虫的动作不过是下载页面、抽取链接、跳转下一个页面，如此重复。将这样的重复动作抽取出来，即使对不同的网站，只用编写对应的爬取规则文件，就可以不用额外代码的实现对该站点的爬取。客户端代码将每个页面的抽取结果看做字符串流处理即可。系统经过若干项目的测试，成功爬取了上千万个网页，性能比较鲁棒。如果需要采集多个网页，可通过增加XML文件中节点实现。可以个性化定制： 1）页面的抽取内容 2）抽取后的处理动作（过滤或者替换） 3）对最终采集得到的信息的处理方式（存入数据库、制作索引等）

文件列表

src
com

您可能感兴趣的

同类别推荐

云雾 2小时前成为了本站会员
Ashore. 1天前成为了本站会员
七友 1天前成为了本站会员
zidane2002 1天前成为了本站会员
Tomy 1天前成为了本站会员
麦田守望者 2天前成为了本站会员
lighting！ 2天前成为了本站会员
威尔史密斯 2天前成为了本站会员
清水煮白开 3天前成为了本站会员
你看我困不 3天前成为了本站会员

云雾 2小时前成为了本站会员
Ashore. 1天前成为了本站会员
七友 1天前成为了本站会员
zidane2002 1天前成为了本站会员
Tomy 1天前成为了本站会员
麦田守望者 2天前成为了本站会员
lighting！ 2天前成为了本站会员
威尔史密斯 2天前成为了本站会员
清水煮白开 3天前成为了本站会员
你看我困不 3天前成为了本站会员

麦田守望者 2天前下载了：

UCenter Home 是一套采用PHP+MYSQL构建的社会化网络软件（Social Network Software，简称SNS）。通过 UCen...
麦田守望者 2天前下载了：

像开源的Facebook
麦田守望者 2天前下载了：

PHPSPACE社交门户网站
FeiFei 2天前下载了：

wince TTS语音播报
FeiFei 2天前下载了：

利用微软的语音引擎使你的程序会朗读，需要安装微软语音引擎或者金山词霸...
lighting！ 2天前下载了：

steger warming 分裂格式
白白狐疑酱 3天前下载了：

25种人工神经网络matlab源码
超↗人不会飛 3天前下载了：

使用的谱分析C语言代码
节 4天前下载了：

MMC-HVDC模型预测控制
甘露去柚 5天前下载了：

stm32 流水灯

麦田守望者 2天前下载了：

UCenter Home 是一套采用PHP+MYSQL构建的社会化网络软件（Social Network Software，简称SNS）。通过 UCen...
麦田守望者 2天前下载了：

像开源的Facebook
麦田守望者 2天前下载了：

PHPSPACE社交门户网站
FeiFei 2天前下载了：

wince TTS语音播报
FeiFei 2天前下载了：

利用微软的语音引擎使你的程序会朗读，需要安装微软语音引擎或者金山词霸...
lighting！ 2天前下载了：

steger warming 分裂格式
白白狐疑酱 3天前下载了：

25种人工神经网络matlab源码
超↗人不会飛 3天前下载了：

使用的谱分析C语言代码
节 4天前下载了：

MMC-HVDC模型预测控制
甘露去柚 5天前下载了：

stm32 流水灯

您现在的位置是：虫虫源码 > 其他 > 网络定向爬虫 网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

网络定向爬虫 网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐