热门搜索： json Test query CSS java t

您现在的位置是：虫虫源码 > 其他 > 中文分词系统

中文分词系统

资源大小：2.60 MB
上传时间：2021-06-30
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： 中文分词系统

资源简介

SegWord是一个开放项目，由其小组成员进行开发维护，稳定版本软件（包括程序与文档）将公开在网络上供参考与交流。下面是其简单介绍： SegWord为一个分词系统，满足：（1）分词（2）获得义性分布（3）词表自调整三个目的。其中（1）表明该系统可对汉语文本进行分词；这是这个系统的基本属性之一。但是，设计者认为不能为分词而分词，故本系统的研究重点为目的（2）和（3）。（2）更广泛的看，分词的实质是“组合”，即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说，分词不仅要给出词的分割，也应给出这种结构所对应的属性，例如语法词性，语义选项，未登录词属性等，本系统统称为义性分布。这是后续处理的重点依据。（3）一般而言分词依赖于一定的词表。但是，词表本身若由人来提供，总是存在一定的应用局限。考虑机器学习的运用，寻找词表自调整——通过机器学习的方式来获得新词以及词语概念的新的义性——的方法与思路。这也是本项目的难点。例如，对于输入：这是一种烤制猪排、羊排和牛排的方法。希望经SegWord处理后，可以获得切分方式：这是 [一种] [烤制] [猪排] 、 [羊排] 和 [牛排] 的 [方法]。同时，各个词语单位的义性可以自动习得，如“烤制”是v，“牛排”是n，若词库中没有收录“羊排”，计算机可以习得这是一个和“牛排”近似的结构，经一定的策略可以对词库进行更新；最理想的情况下，可以习得“猪排”、“羊排”和“牛排”都是一种食物，且能表示和“猪”、“羊”、“牛”的关系。综上，本分词系统将是一个挑战，也是对中文信息处理进行突破的一种新尝试。

文件列表

segTrain
label_peopleDaily
corpors_reader.cpp
corpors_reader.h
corpors_reader.o
define.h
dict.txt
main.cpp
main.o
Makefile.win
segTrain.dev
segTrain.exe
segTrain.layout

您可能感兴趣的

同类别推荐

跑刀红狼三角洲 21小时前成为了本站会员
象龟 22小时前成为了本站会员
里狐 1天前成为了本站会员
： 1天前成为了本站会员
天妒英才 2天前成为了本站会员
Lntano 3天前成为了本站会员
绿色心情 3天前成为了本站会员
桃子 4天前成为了本站会员
民族复兴大任的时代新人 4天前成为了本站会员
兀七 4天前成为了本站会员

毛海彬 5天前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 5天前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 5天前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 5天前下载了：

这是一个旅行商问题的算法源程序
dybabc123 5天前下载了：

unix下的ping代码源程序
dybabc123 5天前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 5天前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 5天前下载了：

介绍windows环境下命令行
dybabc123 5天前下载了：

Thinking in java 3 习题答案
dybabc123 5天前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.

您现在的位置是：虫虫源码 > 其他 > 中文分词系统

中文分词系统

资 源 简 介

文 件 列 表

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

文件列表

相关资源

您可能感兴趣的

同类别推荐