资 源 简 介
1.用seg进行分词
输入参数一:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。 注意:必须每篇文章在一个txt文本中。
输入参数二:输入存储分词后的结果文件所在的文件夹路径:如:result//text。注意:不需要加*
本工具采用了中科院的中文分词工具,ICTCLAS,请自行到ICTCLAS官网下载该工具。并把Data文件夹,Configure.xml,ICTCLAS30.h,ICTCLAS30.lib,ICTCLAS30.dll放在和seg.exe同文件夹下面。
2.getFeature获取特征:输入参数格式如上。
其输入语料为seg分词的结果。
注意:请把ICTCLAS30.dll放在于getFeature.ext同一个文件夹下面
3.getSVMTtrain转化成libSVM的格式
输入参数1:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。其输入的文件为getFeature后得到的结果。
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报