热门搜索： json Test query CSS java t

您现在的位置是：虫虫源码 > 其他 > simHash，用来网页去重最常用的hash方法，速度很快.

simHash，用来网页去重最常用的hash方法，速度很快.

资源大小：2.93 kB
上传时间：2021-06-30
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 算法 java

资源简介

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦，其主要思想是根据一个文章中出现词的词频构成一个向量，然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高，使得计算的代价太大，对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的，simhash算法的主要思想是降维，将高维的特征向量映射成一个f-bit的指纹(fingerprint)，通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧，但却十分容易理解和实现，具体的simhash过程如下：请点击左侧文件开始预览！预览只提供20%的代码片段，完整代码需下载后查看加载中侵权举报

文件列表

SimHash.txt

您可能感兴趣的

同类别推荐

跑刀红狼三角洲 1天前成为了本站会员
象龟 1天前成为了本站会员
里狐 2天前成为了本站会员
： 2天前成为了本站会员
天妒英才 3天前成为了本站会员
Lntano 4天前成为了本站会员
绿色心情 4天前成为了本站会员
桃子 5天前成为了本站会员
民族复兴大任的时代新人 5天前成为了本站会员
兀七 5天前成为了本站会员

毛海彬 6天前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 6天前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 6天前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 6天前下载了：

这是一个旅行商问题的算法源程序
dybabc123 6天前下载了：

unix下的ping代码源程序
dybabc123 6天前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 6天前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 6天前下载了：

介绍windows环境下命令行
dybabc123 6天前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.
dybabc123 6天前下载了：

Thinking in java 3 习题答案

您现在的位置是：虫虫源码 > 其他 > simHash，用来网页去重最常用的hash方法，速度很快.

simHash，用来网页去重最常用的hash方法，速度很快.

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐