资 源 简 介
Java版wordpress采集器
如果你想流畅的使用这个项目去采集文章,你必须具备网页代码的分析能力。
你还必须会使用以下用具
1. firebug 或 ie developer tools
> 2 正则表达式
Java Wordpress Crawler.
attation:
> you must known how to use such tools:
1. firebug or ie developer tools
> > 2 Regex
---
ps: 我的英语很菜,不知道那样翻译好不好。
> 有什么问题来我的博客 http://www.ij2ee.com 留言。
---
操作方法:
唉 终于还是决定开源这个项目,造福广大wordpress用户。
项目地址:http://code.google.com/p/jwp/
我的博客地址:http://www.ij2ee.com/
Java版wordpress采集器 如果你想流畅的使用这个项目去采集文章,你必须具备网页代码的分析能力。 你还必须会使用以下用具
firebug 或 ie developer tools
> 正则表达式
使用方法。
1 编写一个类,它要继承 CommonParser类 并实现两个方法
> > getTargetConF 文章所在的元素(比如div,p元素等等)。 这里使用htmlparser的HasAttributeFilter("id","context");方法实现的。主要是要寻找特定的属性,比如class,id,name等等。要求这些元素要唯一。
> > getTargetDivF 文章目录所在的元素。 这里使用htmlparser的HasAttributeFilter("id","context");方法实现的。主要是要寻找特定的属性,比如class,id,name等等。要求这些元素要唯一。
2 开始在WPMover2srccomwpmover2springcore.xml 配置相关的类属性。
>
> xmlns="http://www.springframework.org/schema/beans"
> > xmlns:xsi="htt