热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > Java > java语言实现的中文分词程序

java语言实现的中文分词程序

资源大小：1.11 MB
上传时间：2021-06-29
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： java 中文分词程序语言实现

资源简介

注意：如有使用需要请直接checkout source。 ki-analyzer是基于ik-analyzer修改而来的分词库。在我之前使用ik时，因为ik提供的分词效果不能满足我的需求，就在ik之上做了一层封装。这种封装既丑陋并且低效，而随着我的分词需求和ik提供的效果渐行渐远，就打算着手修改ik词库，便有了ki-analyzer。ki-analyzer当然不能适合所有人，就像ik-analyzer不能适合我一样，但如果你正在寻找一个开源的分词程序，可以看看ki-analyzer是否能适合你，以多一种选择。 ki-analyzer功能特点对于汉字分词，ik除了支持基本词库匹配以外，还格外处理了可能存在的姓氏、后缀、量词的分析。如果可以将此理解为词性标注，那么它显然做的不够彻底，最为重要的名词、动词、形容词没有被标注出来，使得这种分析毫无实用价值。所以，ki-analyzer直接去掉了相关代码，将这些不可识别的汉字标注为TYPE_CJK_UNKNOWN。 ik只支持全中文的词库，这使得诸如"酷6"、"乐phone"等不能被分成一个词。而我觉得，词库应该支持的不单单是汉字组合，而可以是任意有效字符的组合，也就说，支持的是短语匹配，比如"酷6"、"c#"、".net"、"data mine"都应该可以被切割出来。在我的主题词提取场景中，这种短语粒度的切割就很有必要，否则我只能在分词之上检查每个词条，看是否有构成短语的情况。而就搜索应用来说，这种切割对于查询来说也会得到更好的效果。这也是ki-analyzer诞生的重要原由。 ik内置了一个基本词库，并支持通过配置文件和程序接口外挂词库。ki-analyzer对此更进一步，可以不使用程序提供的内置词库而外置基本词库。另外，分出的词条Lexeme多出一个属性表示该词条是不是来自扩展词库的。以我的应用场景举例，我除了有一个基本词库，还有一个扩展的IT领域词库，而在分词时，我是希望知道这个词条是来自哪个词库的，以便我做不同处理。 ik的

文件列表

ki-analyzer-src-0.2.4
ki-core
pom.xml
ki-lucene

您可能感兴趣的

同类别推荐

SkinkEBravia 16分钟前成为了本站会员
飞想 37分钟前成为了本站会员
서 씨. 4小时前成为了本站会员
kewenyong 4小时前成为了本站会员
null 5小时前成为了本站会员
•̀ᴗ-) 7小时前成为了本站会员
悟 7小时前成为了本站会员
小帆船 8小时前成为了本站会员
云淡风清 10小时前成为了本站会员
我 13小时前成为了本站会员

SkinkEBravia 16分钟前成为了本站会员
飞想 37分钟前成为了本站会员
서 씨. 4小时前成为了本站会员
kewenyong 4小时前成为了本站会员
null 5小时前成为了本站会员
•̀ᴗ-) 7小时前成为了本站会员
悟 7小时前成为了本站会员
小帆船 8小时前成为了本站会员
云淡风清 10小时前成为了本站会员
我 13小时前成为了本站会员

今天也要加油 1小时前下载了：

斜视 sar 成像
今天也要加油 1小时前下载了：

CS算法
null 4小时前下载了：

32驱动保护进程
•̀ᴗ-) 7小时前下载了：

吉林大学开发的类似于PASCAL语言的SNL编译器。
•̀ᴗ-) 7小时前下载了：

snl编译器
•̀ᴗ-) 7小时前下载了：

snl语言是一个简单的具有嵌套过程定义的过程式语言
FeiFei 11小时前下载了：

vb下语音合成原代码，选择一篇txt的文档，然后可以朗读出来，可选择男声女声，音量等。...
FeiFei 11小时前下载了：

VB与VC混合编程中处理消息的方法(带部分源代码)
FeiFei 12小时前下载了：

VB源码，让DOS命令边执行边输出的源码。VB code for DOS command simultaneous implementation and the...
FeiFei 12小时前下载了：

加入一个用VB编写CGI的VB源程序。（你需要在Win98上首先安装20Personal WebServer...

今天也要加油 1小时前下载了：

斜视 sar 成像
今天也要加油 1小时前下载了：

CS算法
null 4小时前下载了：

32驱动保护进程
•̀ᴗ-) 7小时前下载了：

吉林大学开发的类似于PASCAL语言的SNL编译器。
•̀ᴗ-) 7小时前下载了：

snl编译器
•̀ᴗ-) 7小时前下载了：

snl语言是一个简单的具有嵌套过程定义的过程式语言
FeiFei 11小时前下载了：

vb下语音合成原代码，选择一篇txt的文档，然后可以朗读出来，可选择男声女声，音量等。...
FeiFei 11小时前下载了：

VB与VC混合编程中处理消息的方法(带部分源代码)
FeiFei 12小时前下载了：

VB源码，让DOS命令边执行边输出的源码。VB code for DOS command simultaneous implementation and the...
FeiFei 12小时前下载了：

加入一个用VB编写CGI的VB源程序。（你需要在Win98上首先安装20Personal WebServer...

您现在的位置是：虫虫源码 > Java > java语言实现的中文分词程序

java语言实现的中文分词程序

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐