首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 基于MapReduce的中文行业词库收集程序

基于MapReduce的中文行业词库收集程序

资 源 简 介

用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快. 我用一份从51job, 智联招聘, 中华英才网等290多家招聘网站抓取的311万条职位语料做测试,5, 4元词词频在1000以上的正确率达95%以上,3元的差了点在60左右(没仔细统计,估计去掉功能字会好些), 2元的99%以上. 这个东东对做行业词库比较有用, 可以增加中文分词器的精度. 希望有大量语料的兄弟能给些过来测试. 我会考虑更好的算法. :) 很奇怪的是4元词词频最高的是"项目经理",看来这年头管理的人员貌似很多哦 不过5元的词频最高前几位都是"XX工程师",不管什么都是工程师了, 名称挺cooool的,实际上就是打杂的小兵. 可想而知3元最多的是"工程师"了. 我已经去了高元向低元词的统计重叠,这个统计没错

文 件 列 表

word_seeker
build.xml
lib
src

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

VIP VIP
  • 猕猴桃 37分钟前 成为了本站会员

  • 11 4小时前 成为了本站会员

  • 开心快活人 6小时前 成为了本站会员

  • 晋财 7小时前 成为了本站会员

  • WYG 1天前 成为了本站会员

  • Shine 1天前 成为了本站会员

  • 柳贻 1天前 成为了本站会员

  • hallelujah_HL 1天前 成为了本站会员

  • 焦昱贺 1天前 成为了本站会员

  • Rubin 1天前 成为了本站会员

0.220413s