首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Python > 网页中的语义文本提取

网页中的语义文本提取

资 源 简 介

应用背景这个代码是我们在我们学院的语义网技术学科中的一部分。这个代码是一个非常基本的尝试,试图从网页中删除广告,只显示相关的文本。我们删除广告、Flash及其他JavaScript等,只用文字显示。此代码使用Python语言因为它减少程序员的编码工作提供了许多图书馆侧。关键技术网络已成为最大的信息来源,与数十亿的网页。然而,网页通常包含一些与主题无关的内容。例如,有这么多的多媒体广告段,不必要的图像,或导航链接在Web页面。这些部分可以严重危害网络数据挖掘,分散用户的主要注意力的话题,并影响PageRank。有一些现有的方法来发现信息内容块。最简单的方法是识别和消除杂波,如广告、装饰。

文 件 列 表

test.py
VIP VIP
0.236276s