资 源 简 介
基于structured svm的中文分词工具
此分词工具为本人参加bakeoff2010中文分词比赛时所用模型的一个简化版
技术文档 :http://acl.eldoc.ub.rug.nl/mirror/W/W10/W10-4130.pdf
分词工具 ustcsplit.exe
本工具基于structured svm算法,扩展了跨领域分词和用户自定义词典的功能
使用方法:
ustcsplit.exe ./input.txt ./ngram.entr ./fe.txt ./model ./customlex.txt > out.txt
input.txt为输入文本
ngram.entr为ngram统计信息
fe.txt特征文件
model,structured svm 训练的模型
customlex.txt,用户词典文件用于改善分词效果
out.txt,为输出文件
用户词典文件的作用:
当分词系统在某个词多次出现错误的时候,有时需要立即修正这个错误,又不想重新训练模型,可以在词典文件中加入这个词
演示工具ustc_cws1.0.exe
使用方法:
工具需要文件model,fe.txt,ngram.entr,customlex.txt,ustcseg.dll
分词功能:在输入文本框中输入句子,点击分词按钮。
自定义词典优化功能:可以将需要强制分词的词加入customlex文件中,点击导入用户词典即可动态更新用户词典。
联系方式:cyzhang9@mail.ustc.edu.cn