代码迁移到 Github https://github.com/chenlb/mmseg4j-solr
mmseg4j-solr-2.0.0.jar 兼容 lucene/solr [4.3.0, 4.7.1]
com.chenlb.mmseg4j mmseg4j-solr 2.0.0
有问题优先 https://github.com/chenlb/mmseg4j-solr/issues 报告。
mmseg4j 1.8.6 支持 maven 依赖,代码从 git svn 迁移的地址是 https://github.com/chenlb/mmseg4j-from-googlecode
1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。
* 1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。
* 1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。
* 1.7-beta 版, 目前 complex