基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict
资 源 简 介
基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict
1. 介绍:
1) 中科院计算所开发的中文分词和词性标注程序*ICTCLAS,在性能和准确性上都较优;但是由于使用C语言开发,因此如果需要在Web应用程序使用ICTCLAS分词结果的话,将不是很方便。
为了解决该问题,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的中文分词和词性标注程序: MyClas 。
它可以从标准输入中获取要处理的字符串,然后进行分词和词性标注,并将结果输出到标准输出中。
这样,假如需要在PHP编写的Web应用程序中对一个字符串进行中文分词和词性标注,可以使用如下代码:
$content="要处理的字符串";$command="print ".$content."|myclas.exe";$outputArray=null;exec($command,$outputArray);
处理后的结果将保存到数组$outputArray中,便于使用PHP进行下一步操作。
由于如上是直接调用myclas.exe对字符串进行处理,而myclas.exe使用ICTCLAS提供的API进行编写,因此在性能上会和直接使用ICTCLAS处理几乎一样。
2) 共享版的ICTCLAS还提供了*用户自定义词典*的功能,大大方便了用户来订制符合自己需求的用户词典。
为了便于用户自定义词典的管理,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的用户词典管理程序: MyDict。
它可以方便地对用户的自定义词典进行:词汇搜索;单个词汇添加;单个词汇删除;多个词汇添加;多个词汇删除;重新导入词典等功能 。
MyDict在命令行下运行,用户通过添加不同的参数实现相应的功能。
3) 目前MyClas和MyDict仅适用于
文 件 列 表
myclas+mydict
Data
Configure.xml
ICTCLAS30.dll
ICTCLAS30.log
myclas.exe
mydict.exe