资 源 简 介
本项目目的在于构建一个标准化的NLP处理框架,提供企业级的标准API,以及各种推荐实现和测试包。
目前国内外有不少NLP语言包,包括中科院、复旦大学的。本人曾在项目中寻找开源实现,可是学校、研究院所提供的实现,代码难懂,架构不清晰;而爱好者提供的实现,bug多,算法比较初级。为此,建立这个项目,希望NLP研究者和资深的程序员能够良好的结合起来,提供标准化的实现,特别是针对中文的自然语言处理实现。
第一阶段的开发计划,在2014年6月30日前完成0.2版本。
中文分词框架和标准实现;
关键字提取算法框架;
文档摘要算法框架。
第二阶段开发计划,在2014年12月31日前推出0.3版本,待实现的内容需要征求大家意见。
如果要加入本项目,或者任何建议,请发邮件到shamphone@gmail.com
文 件 列 表
data
chars.dic
pos
units.dic
words-my.dic
lib
commons-collections-3.2.1.jar
commons-io-2.4.jar
commons-logging-1.1.1.jar
commons-logging-adapters-1.1.1.jar
commons-logging-api-1.1.jar
jgrapht-jdk1.6.jar
junit-4.8.1.jar
src
commons-logging.properties
library.properties
log4j.properties
net
test
1.txt
11.txt
2.txt
222.txt
33.txt
6.txt
library.properties
net
news.txt
news2.txt
test-config.xml
tokenizer.txt