首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 基于structured svm的中文分词工具

基于structured svm的中文分词工具

资 源 简 介

基于structured svm的中文分词工具 此分词工具为本人参加bakeoff2010中文分词比赛时所用模型的一个简化版 技术文档 :http://acl.eldoc.ub.rug.nl/mirror/W/W10/W10-4130.pdf 分词工具 ustcsplit.exe 本工具基于structured svm算法,扩展了跨领域分词和用户自定义词典的功能 使用方法: ustcsplit.exe ./input.txt ./ngram.entr ./fe.txt ./model ./customlex.txt > out.txt input.txt为输入文本 ngram.entr为ngram统计信息 fe.txt特征文件 model,structured svm 训练的模型 customlex.txt,用户词典文件用于改善分词效果 out.txt,为输出文件 用户词典文件的作用: 当分词系统在某个词多次出现错误的时候,有时需要立即修正这个错误,又不想重新训练模型,可以在词典文件中加入这个词 演示工具ustc_cws1.0.exe 使用方法: 工具需要文件model,fe.txt,ngram.entr,customlex.txt,ustcseg.dll 分词功能:在输入文本框中输入句子,点击分词按钮。 自定义词典优化功能:可以将需要强制分词的词加入customlex文件中,点击导入用户词典即可动态更新用户词典。 联系方式:cyzhang9@mail.ustc.edu.cn

文 件 列 表

USTC_CWS1.0
clpsplitdll.dll
customlex.txt
fe.txt
input.txt
lex.txt
minisplit.exe
model
ngram.entr
readme.txt
ustc_cws1.0.exe
readme.txt.bak
out.txt
seg.bat
ustcseg.dll
ustcsplit.exe
clpsplit.bat
USTC_CWS1.0
VIP VIP
0.283117s