资 源 简 介
本系统主要是对在淘宝网、京东网和亚马逊网三大购物网站中的相同产品的信息进行抽取。本系统的重点是实现使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,最后以Web页面形式呈现出来。本系统的难点是使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,结构化抽取的数据和信息。使用到的技术:JSP技术,网络爬虫技术,HTML解析技术Jsoup等。本系统是使用JAVA编写的B/S模式系统,没有用到数据库,开发工具用的是IntelliJ IDEA 13,你也可以使用其它工具(像MyEclipse等),但需要手动将类复制到你创建的项目中。内部包含源码和系统文档。其中代