热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > 其他 > 搜索引擎

搜索引擎

资源大小：2.47 MB
上传时间：2021-06-30
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： Windows开发

资源简介

爬虫模块、预处理模块和搜索模块。搜索引擎的三个部分是相互独立的，三个部分分别工作，主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。用户通过浏览器提交查询的词或者短语 P，搜索引擎根据用户的查询返回匹配的网页信息列表 L；上述过程涉及到两个问题，如何匹配用户的查询以及网页信息列表从何而来，根据什么而排序？用户的查询 P 经过分词器被切割成小词组并被剔除停用词 ( 的、了、啊等字 )，根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过，匹配那些都出现的网页集即可作为初始结果，更进一步，返回的初始网页集通过计算与查询词的相关度从而得到网页排名，即 Page Rank，按照网页的排名顺序即可得到最终的网页列表；假设分词器和网页排名的计算公式都是既定的，那么倒排索引以及原始网页集从何而来？原始网页集在之前的数据流程的介绍中，可以得知是由爬虫 spider 爬取网页并且保存在本地的，而倒排索引，即词组到网页的映射表是建立在正排索引的基础上的，后者是分析了网页的内容并对其内容进行分词后，得到的网页到词组的映射表，将正排索引倒置即可得到倒排索引；网页的分析具体做什么呢？由于爬虫收集来的原始网页中包含很多信息，比如 html 表单以及一些垃圾信息比如广告，网页分析去除这些信息，并抽取其中的正文信息作为后续的基础数据。

文件列表

dynastySE_0.2
SearchEngine

您可能感兴趣的

同类别推荐

Howerd 1天前成为了本站会员
chnea 16 曾工 1天前成为了本站会员
…… 1天前成为了本站会员
　　　　　 1天前成为了本站会员
疲， 2天前成为了本站会员
Solitude. 2天前成为了本站会员
LUCAS 2天前成为了本站会员
明月清风 2天前成为了本站会员
。 3天前成为了本站会员
七里香 3天前成为了本站会员

Howerd 1天前下载了：

《现代数学手册》全五册-带详细书签
renyaoru 3天前下载了：

STM32_HAL+串口+DMA发送和不定长度数据接收
卫道者 6天前下载了：

图书管理系统java+swing+sql2008
卫道者 6天前下载了：

论文_源码基于Java的图书馆管理系统
卫道者 6天前下载了：

图书管理系统
层楼 clou 1周前下载了：

遗传 Alg、粒子群算法（PSO）求解 tsp 问题的蚁群算法（ACO）
层楼 clou 1周前下载了：

自适应粒子群算法求解TSP问题
层楼 clou 1周前下载了：

求解多旅行商(MTSP)的遗传算法的MATLAB程序（中文注释）
层楼 clou 1周前下载了：

　多旅行商问题(Multiple Traveling Salesperson Problem ,简称MTSP) 讨论的是如何安排m( > 1 ) 位旅行商访问n( > m ) 座城市,
层楼 clou 1周前下载了：

很不错的粒子群算法（PSO）解决旅行商问题（TSP）例程代码

您现在的位置是：虫虫源码 > 其他 > 搜索引擎

搜索引擎

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐