基于Hadoop的文本分类(1)-文本预处理&文本表示
资 源 简 介
资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等;
二、算法简介:
1、此项目是基于Hadoop2.6进行MapReduce并行开发;
2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证);
3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计);
4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html
5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
文 件 列 表
readme.txt
基于Hadoop的文本分类(1)-文本预处理&文本表示
.classpath
.project
Data
bin
jna-4.1.0.jar
log4j.properties
src