热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > Java > imdict智能词典所采用的智能中文分词程序

imdict智能词典所采用的智能中文分词程序

资源大小：3.43 MB
上传时间：2021-06-30
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 中文智能分词程序词典 imdict 采用

资源简介

imdict-chinese-analyzer 是 imdict智能词典的智能中文分词模块，算法基于隐马尔科夫模型(Hidden Markov Model, HMM)，是中国科学院计算技术研究所的ictclas中文分词程序的重新实现（基于Java），可以直接为lucene搜索引擎提供*简体中文*分词支持。 Apache Lucene的中文分词 Apache Lucene是java实现的一个高效的文本搜索引擎软件，它适用于几乎所有要求全文检索的应用项目，尤其是跨平台应用。对英文的处理已经非常完善，但在中文方面仍然非常欠缺，目前lucene的contribution中，中日韩语言只有一个分析器（cjk analyzer），还是按中日韩文字来逐个切分的，无论从索引效率还是搜索准确度上都很难符合要求。为什么需要智能分词中文与西方语言最大的区别就在于语句的词汇之间没有明显的分词界限，但是计算机自然语言处理是按词汇来进行分析的，因此中文分词的效果直接影响中文检索和自然语言处理的准确性。例如： “我购买了道具和服装”，如果采用比较简单的正向最大匹配算法，分词结果是“我购买了道具和服装”，明显偏离了原句的意思；而采用基于HMM的智能分词模型，能够综合分析句子的结构、各个词的频率以及各个词汇之间的跳转频率，从而能产生最优化的分词结果：“我购买了道具和服装” imdict-chinese-analyzer的特性 1. 完全Unicode支持分词核心模块完全采用Unicode编码，无须各种汉字编码的转换，极大的提升了分词的效率。 2. 提升搜索效率根据imdict智能词典的实践，在有智能中文分词的情况下，

文件列表

chinese-analyzer
.classpath
.project
test.txt
src
org
apache
lucene
analysis
cn
SmartChineseAnalyzer.java
test

您可能感兴趣的

同类别推荐

SkinkEBravia 21分钟前成为了本站会员
飞想 42分钟前成为了本站会员
서 씨. 4小时前成为了本站会员
kewenyong 5小时前成为了本站会员
null 5小时前成为了本站会员
•̀ᴗ-) 7小时前成为了本站会员
悟 7小时前成为了本站会员
小帆船 8小时前成为了本站会员
云淡风清 10小时前成为了本站会员
我 13小时前成为了本站会员

SkinkEBravia 21分钟前成为了本站会员
飞想 42分钟前成为了本站会员
서 씨. 4小时前成为了本站会员
kewenyong 5小时前成为了本站会员
null 5小时前成为了本站会员
•̀ᴗ-) 7小时前成为了本站会员
悟 7小时前成为了本站会员
小帆船 8小时前成为了本站会员
云淡风清 10小时前成为了本站会员
我 13小时前成为了本站会员

今天也要加油 1小时前下载了：

斜视 sar 成像
今天也要加油 1小时前下载了：

CS算法
null 5小时前下载了：

32驱动保护进程
•̀ᴗ-) 7小时前下载了：

吉林大学开发的类似于PASCAL语言的SNL编译器。
•̀ᴗ-) 7小时前下载了：

snl编译器
•̀ᴗ-) 7小时前下载了：

snl语言是一个简单的具有嵌套过程定义的过程式语言
FeiFei 11小时前下载了：

vb下语音合成原代码，选择一篇txt的文档，然后可以朗读出来，可选择男声女声，音量等。...
FeiFei 12小时前下载了：

VB与VC混合编程中处理消息的方法(带部分源代码)
FeiFei 12小时前下载了：

VB源码，让DOS命令边执行边输出的源码。VB code for DOS command simultaneous implementation and the...
FeiFei 12小时前下载了：

加入一个用VB编写CGI的VB源程序。（你需要在Win98上首先安装20Personal WebServer...

今天也要加油 1小时前下载了：

斜视 sar 成像
今天也要加油 1小时前下载了：

CS算法
null 5小时前下载了：

32驱动保护进程
•̀ᴗ-) 7小时前下载了：

吉林大学开发的类似于PASCAL语言的SNL编译器。
•̀ᴗ-) 7小时前下载了：

snl编译器
•̀ᴗ-) 7小时前下载了：

snl语言是一个简单的具有嵌套过程定义的过程式语言
FeiFei 11小时前下载了：

vb下语音合成原代码，选择一篇txt的文档，然后可以朗读出来，可选择男声女声，音量等。...
FeiFei 12小时前下载了：

VB与VC混合编程中处理消息的方法(带部分源代码)
FeiFei 12小时前下载了：

VB源码，让DOS命令边执行边输出的源码。VB code for DOS command simultaneous implementation and the...
FeiFei 12小时前下载了：

加入一个用VB编写CGI的VB源程序。（你需要在Win98上首先安装20Personal WebServer...

您现在的位置是：虫虫源码 > Java > imdict智能词典所采用的智能中文分词程序

imdict智能词典所采用的智能中文分词程序

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐