资 源 简 介
所有代码使用GPL协议授权,这意味着你可以自由使用、修改、再发布代码,但是使用这里代码的程序必须是开源的,而且遵守GPL协议。
了解更多:http://www.gnu.org/licenses
所有其他内容通过知识共享协议CC-by共享,http://creativecommons.org/licenses/by/3.0
语料资源我以注明出处,请遵守语料提供者的协议。
项目名Machine Learning From Scratch(MLFS)的灵感来源于LFS
此项目的目的是通过一些应用场景,实现一些统计机器学习模型,注意目的是对模型的理解和熟悉,并不追求在某应用场景下的指标,因为否则就关注点就变成了如何使用而不是实现模型
本人水平有限,而且项目也处在初始阶段,还望多多指教,关于本项目的任何问题都可以给我Email:
已经实现以下内容:
子项目1:隐马尔科夫模型
应用场景:中文词性标注
实现方法:隐马模型,维特比解码,用线性插值算法平滑转移矩阵,用后缀树计算未登录词的发射概率。
语料:conll06中文语料
准确率:登录词0.8937187843900787,未登录词0.5285295076622106,总体0.87146008465987
改进建议:Beam Search加速维特比解码
子项目2:最大熵模型
应用场景:文本分类
实现方法:参数估计GIS、L-BFGS,对模型参数采用高斯平滑,对未出现的词和类别出现次数使用0.1平滑。